真实面经题目 · 原创解析

大模型 SFT 从数据构建到训练通常怎么做,SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题?

这题考察候选人是否真正理解大模型对齐训练链路,而不是只会背 SFT、DPO、RLHF 这些名词。好的回答要先讲 SFT 的数据构建、清洗、格式化、训练和评估流程,再解释 SFT 主要让模型学会按指令输出,DPO/RLHF/PPO 等 Post-Training 进一步处理偏好对齐、安全边界、复杂任务奖励和人类反馈优化。面试重点是区分每个阶段解决的问题、依赖的数据形态和带来的风险。

出现于:阿里巴巴 · AI 应用开发

60 秒回答模板

我会把 SFT 视为大模型从预训练能力走向可用助手的第一层指令对齐。流程上先定义目标场景和任务分布,再采集或合成 instruction-response 数据,经过去重、质量筛选、安全过滤、格式统一和难度配比,最后用监督学习让模型学习在给定指令下生成期望答案。SFT 之后的 Post-Training 解决的是 SFT 不够表达的问题:DPO 用偏好对直接优化好坏答案的相对选择,RLHF/PPO 把人类偏好训练成奖励模型再做策略优化,RL 类方法可以针对可验证任务、工具调用或多步推理优化长期目标。回答时要强调它们不是线性堆 buzzword,而是分别面向指令遵循、偏好排序、风险控制、复杂目标和线上反馈的不同训练机制。

考点 SFT 解决指令遵循
难度 真实面经题
回答目标 让面试官相信你能把大模型对齐训练拆成数据、训练、偏好、奖励和评估的完整工程链路。

深入解析

01

SFT 目标

SFT 的核心目标不是继续灌知识,而是让模型学会按业务希望的方式理解指令、组织答案、遵循格式和处理常见任务。它通常使用成对的指令与标准回复,通过交叉熵训练把预训练模型拉到可交互、可控、可评估的回答风格上。

02

数据构建

SFT 数据要先覆盖目标场景,例如问答、摘要、代码、工具调用、客服或垂直领域任务。然后做质量筛选、去重、敏感内容过滤、长度控制、格式规范、难度分层和领域配比。高质量数据往往比单纯扩大规模更重要,因为低质回复会直接教坏模型的表达、事实边界和安全习惯。

03

训练与评估

训练阶段关注学习率、batch、上下文长度、loss 曲线、过拟合、灾难性遗忘和多任务配比。评估不能只看训练 loss,需要用离线 benchmark、人工评审、任务成功率、格式合法率、安全拒答率和线上灰度反馈来判断模型是否真的更好用。

04

DPO 作用

DPO 通常使用偏好数据对,例如同一指令下一个更好答案和一个更差答案,直接优化模型对好答案的偏好。它省去了显式奖励模型和复杂 RL 训练,适合把模型从“能答”推进到“更符合人类偏好地答”,但仍依赖偏好数据质量和负样本覆盖。

05

RLHF/PPO 作用

RLHF/PPO 先用人类偏好训练奖励模型,再通过强化学习优化策略模型。它适合处理无法用单一标准答案监督的质量目标,例如有帮助、诚实、安全、风格稳定和多轮任务完成。风险是训练复杂、奖励模型可能被投机利用,且如果约束不好会产生模式坍缩或回答变保守。

06

广义 RL

更广义的 RL 或可验证奖励训练,可以用于数学、代码、工具调用、搜索规划等有明确结果反馈的任务。它关注长期回报和多步决策,不只是让回答更像标注答案。工程上要设计奖励、约束探索风险,并用回放、沙箱、评测集和人工抽检防止模型学到投机策略。

易错点

  • 把 SFT 说成单纯继续预训练,忽略 instruction-response 数据和指令遵循目标。
  • 混淆 DPO、奖励模型、PPO 的数据形态和训练链路。
  • 只讲训练方法,不讲数据质量、评估、过拟合和安全风险。
  • 认为 Post-Training 一定越多越好,没有说明成本、退化和奖励投机问题。

面试官追问

SFT 数据越多越好吗?

不一定。低质量、重复、错标或风格冲突的数据会降低模型表现。实际更看重覆盖关键场景、标注一致性、答案质量、难度分布和安全过滤。通常会先做小规模高质量集验证,再扩展数据规模。

DPO 和 RLHF 最大区别是什么?

DPO 直接用偏好对优化策略,不显式训练奖励模型,也不需要完整 PPO 过程;RLHF 通常先训练奖励模型,再用强化学习优化模型。DPO 工程更简单,RLHF 表达复杂目标的空间更大。

为什么 SFT 后模型还会幻觉?

SFT 主要学习输出模式和指令遵循,并不能保证事实来源存在。幻觉需要结合检索、工具、拒答策略、事实一致性评估、偏好训练和线上反馈共同治理。

Post-Training 如何做效果回归?

要保留通用能力、垂直任务、安全、格式和拒答等多套评测集,比较新旧模型在胜率、失败类型、成本和延迟上的变化。不能只看单一榜单或少量人工主观样例。