标签题目
强化学习相关面试题
基于值函数和基于策略梯度的 RL 算法有什么区别,分别适合什么场景?
基于值函数和基于策略梯度的 RL 方法区别在于前者学习状态或动作价值再间接选动作,后者直接优化参数化策略。
DQN 有哪些常见优化版本,DDQN、Dueling DQN、PER 与 PPO 在调参和训练速度上有什么差异?
DQN 是基于值函数的 off-policy 强化学习方法,DDQN、Dueling DQN 和 PER 分别缓解 Q 值过估计、状态价值与动作优势混合、经验采样效率低等问题。PPO 是 on-policy 策略优化方法,调参重点、样本复用和训练速度与 DQN 系列明显不同。
Thompson Sampling 和 UCB 在推荐探索中分别适用什么场景,CTR 预估模型如何配合?
这道题考察推荐场景里的探索利用权衡。回答要以 Thompson Sampling 和 UCB 的选择为主轴,把 CTR 预估模型放在奖励估计、特征表征和不确定性建模的位置,而不是展开成 CTR 模型百科。
从零构建 VLA 模型时,视觉、语言和动作模块应如何设计?
这题考从零设计 Vision-Language-Action 模型的系统拆解,重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。
VLA 模型和世界模型有什么区别,VLA+RL 适合哪些具身智能场景?
这题考 VLA、世界模型和强化学习在具身智能中的边界,回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。
多模态 Agentic RL 中用 VERL 做强化学习时,如何判断训练进度和收敛质量?
这题考多模态 Agentic RL 训练过程的可观测和收敛判断,回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。
同题还出现在 1 个公司岗位
GRPO 中序列级 reward / loss 如何分配到 token,为什么这是信用分配问题?
这题考 GRPO 里序列级奖励如何影响 token 级更新,重点是序列 reward、token log-prob、组内相对优势、信用分配歧义和训练稳定性。
DeepResearch 类 Agent 如何和 RL 后训练结合,整体训练流程是什么?
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
Agent 系统如何把用户反馈接入 DPO/PPO 训练,并用 ELO 评估版本效果?
这题考 Agent 反馈闭环和版本评估,回答重点是如何把用户反馈转成偏好数据、用于 DPO/PPO 优化,并用 ELO 或对战评估做版本选择。
PPO 和 GRPO 有什么区别,PPO 中的 Critic 模型如何训练?
这题考 PPO、GRPO 在大模型 RL 后训练中的优化框架差异,以及 PPO 里 Critic 如何用 rollout 回报学习价值估计。
同题还出现在 1 个公司岗位
RLHF/PPO 中为什么要用 KL 散度约束,过强或过弱会带来什么问题?
这题考 RLHF/PPO 中 KL 约束的作用,核心是限制策略偏离参考模型,平衡 reward 优化、语言质量、安全边界和训练稳定性。
大模型强化学习中 Reward 什么时候用规则,什么时候用奖励模型?
这题考大模型 RL 后训练中奖励信号的选型,重点是按可验证性、主观性、成本、覆盖范围和被投机风险决定用规则还是奖励模型。
大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩?
这题考 RL 后训练的失效模式,回答重点是识别训练 reward 与真实质量背离,并用 reward 审计、约束、数据更新和独立评测缓解。
同题还出现在 2 个公司岗位
Agentic RL 项目中,如何判断 SFT 阶段已经可以进入 RL 后训练?
这题考 Agentic RL 的训练阶段判断,重点是 SFT 是否已经让模型具备稳定轨迹、工具协议、基础成功率和可评估 reward,再决定进入 RL。
GRPO 的 loss 如何计算,训练数据应如何组织?
这题考 GRPO 的目标函数直觉和训练样本组织方式,重点是同 prompt 多回答、组内相对优势、token logprob 更新和 KL 约束。
PPO 后训练中,GAE 的 lambda 参数如何影响优势估计的偏差和方差?
这题考 PPO 后训练里优势估计的稳定性来源:GAE lambda 通过控制 TD 残差的有效累积长度,在低方差高偏差和低偏差高方差之间取舍。
为什么聊天大模型通常不能跳过 SFT 直接做强化学习后训练,Reward Model、DPO/PPO 和稳定性约束分别解决什么问题?
这题考大模型后训练的稳定性理解:SFT 先把模型带到可对话、可遵循指令的分布,强化学习或偏好优化再做对齐;直接 RL 容易稀疏奖励、探索失控和能力退化。
PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?
这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。
大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?
PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。
RLHF、DPO、PPO 或 GRPO 中 reference model 起什么作用?如果不能保留完整 reference,可以用哪些替代或近似约束?
这题考的是对齐训练里 reference model 的约束本质:它不是装饰性的第二个模型,而是定义“不要偏离初始策略太远”的行为锚点。在 PPO、DPO、GRPO 等方法中,reference 通过 KL、log probability ratio 或隐式 reward 基线抑制奖励黑客、语言退化和安全边界漂移;如果不能完整保留,也要知道哪些近似能替代、哪些只能部分约束。
DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?
这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。
DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建?
这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑,而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1:前者直接从 base model 做大规模 RL,展示可验证推理奖励能诱导反思、验证和更长 CoT;后者用少量冷启动长 CoT 数据改善可读性和训练稳定性,再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL,并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容,不扩展到未公开训练细节或其它机构的具体做法。
同题还出现在 1 个公司岗位
DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?
这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。
同题还出现在 2 个公司岗位
多轮对话 Agent 做强化学习时,reward 应如何设计,如何避免 reward hacking、轮次变长和任务成功率虚高?
这题考的是 Agent 强化学习的目标建模和反作弊评估能力。来源只支持“字节/懂车帝 Agent 算法实习面试中问到多轮对话强化学习”,不支持任何内部 reward 细节,因此回答应给出通用、可验证的 reward 设计框架。核心是把 reward 从单句好坏扩展到完整轨迹:任务是否真的完成、工具和信息是否可靠、轮次成本是否受控、安全边界是否遵守,并用 verifier、人评和切片指标防止 reward hacking 与虚高成功率。
DPO 为什么可能导致回答过长,SimPO 如何缓解长度偏置?
这题考察对偏好优化目标的细节理解。核心不是简单说“DPO 会变啰嗦,SimPO 会变短”,而是要解释 DPO 的隐式 reward 如何由整段回答的 logprob 差构成,为什么长度、参考模型、偏好数据和评测方式会共同放大长回答倾向,以及 SimPO 如何用平均 log probability 和目标间隔缓解这种偏置。
Function Call / Agent 工具调用不正确时,如何用 SFT 或 GRPO 设计数据与奖励函数来提升能力?
这题考 Agent 工具调用能力的训练闭环。回答要先把错误分型讲清,再说明 SFT 如何构造正负样本和多轮轨迹,GRPO 如何用可执行环境中的细粒度奖励优化工具选择、参数填写、调用顺序、结果使用和最终回答,同时要覆盖离线评测、在线灰度和安全护栏。