大模型 SFT 从数据构建到训练通常怎么做，SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题？｜阿里巴巴 AI 应用开发面经解析

60 秒回答模板

我会把 SFT 视为大模型从预训练能力走向可用助手的第一层指令对齐。流程上先定义目标场景和任务分布，再采集或合成 instruction-response 数据，经过去重、质量筛选、安全过滤、格式统一和难度配比，最后用监督学习让模型学习在给定指令下生成期望答案。SFT 之后的 Post-Training 解决的是 SFT 不够表达的问题：DPO 用偏好对直接优化好坏答案的相对选择，RLHF/PPO 把人类偏好训练成奖励模型再做策略优化，RL 类方法可以针对可验证任务、工具调用或多步推理优化长期目标。回答时要强调它们不是线性堆 buzzword，而是分别面向指令遵循、偏好排序、风险控制、复杂目标和线上反馈的不同训练机制。

考点 SFT 解决指令遵循

难度 真实面经题

回答目标 让面试官相信你能把大模型对齐训练拆成数据、训练、偏好、奖励和评估的完整工程链路。

深入解析

SFT 目标

SFT 的核心目标不是继续灌知识，而是让模型学会按业务希望的方式理解指令、组织答案、遵循格式和处理常见任务。它通常使用成对的指令与标准回复，通过交叉熵训练把预训练模型拉到可交互、可控、可评估的回答风格上。

数据构建

SFT 数据要先覆盖目标场景，例如问答、摘要、代码、工具调用、客服或垂直领域任务。然后做质量筛选、去重、敏感内容过滤、长度控制、格式规范、难度分层和领域配比。高质量数据往往比单纯扩大规模更重要，因为低质回复会直接教坏模型的表达、事实边界和安全习惯。

训练与评估

训练阶段关注学习率、batch、上下文长度、loss 曲线、过拟合、灾难性遗忘和多任务配比。评估不能只看训练 loss，需要用离线 benchmark、人工评审、任务成功率、格式合法率、安全拒答率和线上灰度反馈来判断模型是否真的更好用。

DPO 作用

DPO 通常使用偏好数据对，例如同一指令下一个更好答案和一个更差答案，直接优化模型对好答案的偏好。它省去了显式奖励模型和复杂 RL 训练，适合把模型从“能答”推进到“更符合人类偏好地答”，但仍依赖偏好数据质量和负样本覆盖。

RLHF/PPO 作用

RLHF/PPO 先用人类偏好训练奖励模型，再通过强化学习优化策略模型。它适合处理无法用单一标准答案监督的质量目标，例如有帮助、诚实、安全、风格稳定和多轮任务完成。风险是训练复杂、奖励模型可能被投机利用，且如果约束不好会产生模式坍缩或回答变保守。

广义 RL

更广义的 RL 或可验证奖励训练，可以用于数学、代码、工具调用、搜索规划等有明确结果反馈的任务。它关注长期回报和多步决策，不只是让回答更像标注答案。工程上要设计奖励、约束探索风险，并用回放、沙箱、评测集和人工抽检防止模型学到投机策略。

易错点

把 SFT 说成单纯继续预训练，忽略 instruction-response 数据和指令遵循目标。
混淆 DPO、奖励模型、PPO 的数据形态和训练链路。
只讲训练方法，不讲数据质量、评估、过拟合和安全风险。
认为 Post-Training 一定越多越好，没有说明成本、退化和奖励投机问题。

面试官追问

SFT 数据越多越好吗？

不一定。低质量、重复、错标或风格冲突的数据会降低模型表现。实际更看重覆盖关键场景、标注一致性、答案质量、难度分布和安全过滤。通常会先做小规模高质量集验证，再扩展数据规模。

DPO 和 RLHF 最大区别是什么？

DPO 直接用偏好对优化策略，不显式训练奖励模型，也不需要完整 PPO 过程；RLHF 通常先训练奖励模型，再用强化学习优化模型。DPO 工程更简单，RLHF 表达复杂目标的空间更大。

为什么 SFT 后模型还会幻觉？

SFT 主要学习输出模式和指令遵循，并不能保证事实来源存在。幻觉需要结合检索、工具、拒答策略、事实一致性评估、偏好训练和线上反馈共同治理。

Post-Training 如何做效果回归？

要保留通用能力、垂直任务、安全、格式和拒答等多套评测集，比较新旧模型在胜率、失败类型、成本和延迟上的变化。不能只看单一榜单或少量人工主观样例。