真实面经题目 · 原创解析
大模型后训练投入成本如何决策,怎样用效果收益、训练成本、推理成本和风险指标做取舍?
这题考的是大模型后训练的工程 ROI 判断。好答案不能只说效果好就继续训,而要把收益、训练成本、推理成本、数据和安全风险放到同一张决策表里,用离线评测、线上指标、成本模型和风险阈值决定做 SFT、DPO/RL、数据修复、提示词优化、RAG、蒸馏还是不做。
真实面经题目 · 原创解析
这题考的是大模型后训练的工程 ROI 判断。好答案不能只说效果好就继续训,而要把收益、训练成本、推理成本、数据和安全风险放到同一张决策表里,用离线评测、线上指标、成本模型和风险阈值决定做 SFT、DPO/RL、数据修复、提示词优化、RAG、蒸馏还是不做。
我会把后训练投入当成一次成本收益决策,而不是单纯的训练技术选择。第一步定义目标和基线:当前模型在哪些场景不够好,是领域知识、格式遵循、工具调用、风格、安全、长链推理还是线上转化问题;先用现有模型、prompt、RAG、规则或小模型 baseline 建立成本和效果基线。第二步估算效果收益:离线看人工偏好胜率、任务成功率、准确率、拒答率、幻觉率、安全违规率、badcase 修复率;线上看用户满意度、留存、转化、人工接管率、工单解决率和业务收入影响。第三步估算训练成本:数据采集和清洗、标注或偏好数据、GPU 小时、调参次数、评测和回归、工程接入、训练失败重跑、团队维护成本都要算进去。第四步估算推理成本:后训练可能让输出更长、工具调用更多、模型尺寸更大或需要更高精度,也可能通过蒸馏、量化和更稳定的格式减少重试,所以要看 TTFT、TPOT、吞吐、显存、并发、P95/P99 延迟和每千 token 成本。第五步评估风险:过拟合、能力遗忘、安全退化、奖励黑客、数据合规、偏见、特定场景提升但通用能力下降,以及上线后难回滚。决策上可以用分层策略:如果问题来自知识更新,优先 RAG 或数据修复;如果是格式和风格,先 SFT 或 prompt;如果是偏好排序,考虑 DPO;如果是复杂过程奖励或在线交互,再考虑 RL;如果收益小于训练和推理成本,就不训或只做小流量实验。最终要用门槛收敛:收益指标达到最小可感知提升,核心风险指标不退化,单位请求成本在预算内,线上灰度显著优于基线,才扩大投入。
后训练不是默认动作。先判断问题来自哪里:知识缺失、指令遵循差、领域表达不稳定、工具调用格式错、安全边界差、长链推理弱,还是只是 prompt 和产品流程没设计好。每一类问题的低成本方案不同。没有清楚基线时,训练效果提升很容易被误判为数据、prompt、检索或评测口径变化带来的假提升。
收益不能只说模型更聪明。离线可以看任务成功率、准确率、人工偏好胜率、格式通过率、幻觉率、拒答率、安全违规率、badcase 修复率和跨场景稳定性。线上要映射到业务指标,例如用户采纳率、会话解决率、人工接管率、投诉率、转化率、留存或收入。若离线提升不能解释线上价值,后训练投入就很难成立。
训练成本包括数据采购或采集、清洗去重、隐私脱敏、标注或偏好打分、样本审核、GPU/存储/网络、实验调参、失败重跑、评测集构建、回归测试、模型发布、监控和后续维护。很多项目 GPU 费用只是显性部分,真正贵的是高质量数据和反复试错。面试时要把一次性成本和长期迭代成本分开。
后训练如果让模型更稳定,可能减少重试、减少人工接管、减少长 prompt 和工具调用,从而降低总成本;但也可能让回答变长、调用更多工具、需要更大模型或更高精度,导致延迟和费用上升。因此要用请求量、平均输入输出 token、峰值并发、TTFT、TPOT、P95/P99 延迟、显存、GPU 利用率和单位成功任务成本来估算,而不是只看训练账单。
后训练可能带来能力遗忘、过拟合评测集、奖励黑客、安全拒答退化、偏见放大、敏感数据泄露、格式过度模板化和跨领域泛化下降。决策时应有不可退化指标,例如安全违规率不能上升,核心通用能力不能明显下降,高风险类别必须人工复核,线上灰度必须可回滚。否则局部收益可能换来系统性风险。
如果目标是学会领域格式、术语和回答风格,SFT 通常更直接;如果已有成对偏好数据,希望提升回答偏好和排序,DPO 类方法更轻;如果需要多步交互、过程奖励或复杂策略,才考虑更重的 RL。若问题本质是知识时效,RAG 可能优于训练;若成本主要在推理,蒸馏、量化、缓存和路由可能比继续训更有价值。
可以把投入拆成 PoC、小规模训练、离线回归、影子流量、灰度、全量几个阶段。每个阶段都有通过门槛:目标指标提升超过阈值,统计显著或人工复核通过;训练成本没有爆炸;推理成本在预算内;安全和通用能力不退化;线上收益能覆盖新增成本。未达门槛就停止、换方案或缩小范围。
如果问题主要是知识库缺失或过期,优先做 RAG 和知识治理;如果只是格式不稳定,先改 prompt、schema 校验和少量 SFT;如果收益场景流量很小、风险很高、数据质量不足或推理成本会明显超预算,就不应该直接投入重训练。后训练应解决模型参数内能力问题,而不是替代产品和数据工程。
先把模型指标映射到业务指标,例如任务成功率提升会减少人工接管,幻觉率下降会减少投诉,回答质量提升会提高转化或留存。然后用真实流量、单次请求成本、人工成本、收入贡献和风险损失做粗算。离线指标只能作为前置证据,最终要用灰度或 A/B 验证业务收益。
模型可能学会输出更长答案、调用更多工具、使用更复杂的推理格式,或者需要更大模型才能承载新能力。即使训练本身花费可控,线上请求量大时每个 token 的额外成本都会被放大。所以评估必须看单位成功任务成本,而不只是单次训练费用。
通常 SFT 工程最直接,成本主要在高质量指令数据;DPO 需要偏好对和稳定的参考模型,训练比完整在线 RL 轻;RL 类方法工程复杂度更高,需要奖励建模、采样、稳定性控制和更多回归验证。实际选择不只看成本,还要看目标是不是风格模仿、偏好对齐还是多步策略优化。
保留独立 holdout 集和线上影子流量,按场景切片看泛化,不把评测 badcase 全量直接加入训练集。训练后要做通用能力、安全能力和核心业务能力回归,并抽查模型是否学会模板化迎合指标。指标提升必须能在新样本和真实流量中复现。