知识点标签

强化学习面试题解析

强化学习相关面试题,覆盖值函数、策略梯度、奖励建模、探索利用和训练稳定性。

26 道题 2 个岗位 9 个公司

强化学习相关面试题

PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?

这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。

大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?

PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。

RLHF、DPO、PPO 或 GRPO 中 reference model 起什么作用?如果不能保留完整 reference,可以用哪些替代或近似约束?

这题考的是对齐训练里 reference model 的约束本质:它不是装饰性的第二个模型,而是定义“不要偏离初始策略太远”的行为锚点。在 PPO、DPO、GRPO 等方法中,reference 通过 KL、log probability ratio 或隐式 reward 基线抑制奖励黑客、语言退化和安全边界漂移;如果不能完整保留,也要知道哪些近似能替代、哪些只能部分约束。

DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?

这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。

DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建?

这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑,而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1:前者直接从 base model 做大规模 RL,展示可验证推理奖励能诱导反思、验证和更长 CoT;后者用少量冷启动长 CoT 数据改善可读性和训练稳定性,再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL,并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容,不扩展到未公开训练细节或其它机构的具体做法。

同题还出现在 1 个公司岗位

DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

多轮对话 Agent 做强化学习时,reward 应如何设计,如何避免 reward hacking、轮次变长和任务成功率虚高?

这题考的是 Agent 强化学习的目标建模和反作弊评估能力。来源只支持“字节/懂车帝 Agent 算法实习面试中问到多轮对话强化学习”,不支持任何内部 reward 细节,因此回答应给出通用、可验证的 reward 设计框架。核心是把 reward 从单句好坏扩展到完整轨迹:任务是否真的完成、工具和信息是否可靠、轮次成本是否受控、安全边界是否遵守,并用 verifier、人评和切片指标防止 reward hacking 与虚高成功率。

DPO 为什么可能导致回答过长,SimPO 如何缓解长度偏置?

这题考察对偏好优化目标的细节理解。核心不是简单说“DPO 会变啰嗦,SimPO 会变短”,而是要解释 DPO 的隐式 reward 如何由整段回答的 logprob 差构成,为什么长度、参考模型、偏好数据和评测方式会共同放大长回答倾向,以及 SimPO 如何用平均 log probability 和目标间隔缓解这种偏置。

Function Call / Agent 工具调用不正确时,如何用 SFT 或 GRPO 设计数据与奖励函数来提升能力?

这题考 Agent 工具调用能力的训练闭环。回答要先把错误分型讲清,再说明 SFT 如何构造正负样本和多轮轨迹,GRPO 如何用可执行环境中的细粒度奖励优化工具选择、参数填写、调用顺序、结果使用和最终回答,同时要覆盖离线评测、在线灰度和安全护栏。