01
60 秒回答模板
我会把 SFT 视为大模型从预训练能力走向可用助手的第一层指令对齐。流程上先定义目标场景和任务分布,再采集或合成 instruction-response 数据,经过去重、质量筛选、安全过滤、格式统一和难度配比,最后用监督学习让模型学习在给定指令下生成期望答案。SFT 之后的 Post-Training 解决的是 SFT 不够表达的问题:DPO 用偏好对直接优化好坏答案的相对选择,RLHF/PPO 把人类偏好训练成奖励模型再做策略优化,RL 类方法可以针对可验证任务、工具调用或多步推理优化长期目标。回答时要强调它们不是线性堆 buzzword,而是分别面向指令遵循、偏好排序、风险控制、复杂目标和线上反馈的不同训练机制。
考点 SFT 解决指令遵循
难度 真实面经题
回答目标 让面试官相信你能把大模型对齐训练拆成数据、训练、偏好、奖励和评估的完整工程链路。
02
深入解析
01 SFT 目标
SFT 的核心目标不是继续灌知识,而是让模型学会按业务希望的方式理解指令、组织答案、遵循格式和处理常见任务。它通常使用成对的指令与标准回复,通过交叉熵训练把预训练模型拉到可交互、可控、可评估的回答风格上。
02 数据构建
SFT 数据要先覆盖目标场景,例如问答、摘要、代码、工具调用、客服或垂直领域任务。然后做质量筛选、去重、敏感内容过滤、长度控制、格式规范、难度分层和领域配比。高质量数据往往比单纯扩大规模更重要,因为低质回复会直接教坏模型的表达、事实边界和安全习惯。
03 训练与评估
训练阶段关注学习率、batch、上下文长度、loss 曲线、过拟合、灾难性遗忘和多任务配比。评估不能只看训练 loss,需要用离线 benchmark、人工评审、任务成功率、格式合法率、安全拒答率和线上灰度反馈来判断模型是否真的更好用。
04 DPO 作用
DPO 通常使用偏好数据对,例如同一指令下一个更好答案和一个更差答案,直接优化模型对好答案的偏好。它省去了显式奖励模型和复杂 RL 训练,适合把模型从“能答”推进到“更符合人类偏好地答”,但仍依赖偏好数据质量和负样本覆盖。
05 RLHF/PPO 作用
RLHF/PPO 先用人类偏好训练奖励模型,再通过强化学习优化策略模型。它适合处理无法用单一标准答案监督的质量目标,例如有帮助、诚实、安全、风格稳定和多轮任务完成。风险是训练复杂、奖励模型可能被投机利用,且如果约束不好会产生模式坍缩或回答变保守。
06 广义 RL
更广义的 RL 或可验证奖励训练,可以用于数学、代码、工具调用、搜索规划等有明确结果反馈的任务。它关注长期回报和多步决策,不只是让回答更像标注答案。工程上要设计奖励、约束探索风险,并用回放、沙箱、评测集和人工抽检防止模型学到投机策略。
03
易错点
- 把 SFT 说成单纯继续预训练,忽略 instruction-response 数据和指令遵循目标。
- 混淆 DPO、奖励模型、PPO 的数据形态和训练链路。
- 只讲训练方法,不讲数据质量、评估、过拟合和安全风险。
- 认为 Post-Training 一定越多越好,没有说明成本、退化和奖励投机问题。
04
面试官追问
SFT 数据越多越好吗?
不一定。低质量、重复、错标或风格冲突的数据会降低模型表现。实际更看重覆盖关键场景、标注一致性、答案质量、难度分布和安全过滤。通常会先做小规模高质量集验证,再扩展数据规模。
DPO 和 RLHF 最大区别是什么?
DPO 直接用偏好对优化策略,不显式训练奖励模型,也不需要完整 PPO 过程;RLHF 通常先训练奖励模型,再用强化学习优化模型。DPO 工程更简单,RLHF 表达复杂目标的空间更大。
为什么 SFT 后模型还会幻觉?
SFT 主要学习输出模式和指令遵循,并不能保证事实来源存在。幻觉需要结合检索、工具、拒答策略、事实一致性评估、偏好训练和线上反馈共同治理。
Post-Training 如何做效果回归?
要保留通用能力、垂直任务、安全、格式和拒答等多套评测集,比较新旧模型在胜率、失败类型、成本和延迟上的变化。不能只看单一榜单或少量人工主观样例。