短视频推荐精排模型上线时，如何在冷启动和热启动之间取舍，并评估收敛周期、资源消耗和线上风险？｜快手算法面经解析

60 秒回答模板

精排模型上线时，冷启动通常指从随机初始化或新结构从头训练，优点是结构和目标更自由，能避免旧模型偏置，适合特征空间、任务目标或模型结构变化很大的场景；缺点是需要更多数据和训练时间，收敛慢，线上风险高。热启动是从已有线上模型、预训练模型或相近任务 checkpoint 继续训练，优点是收敛快、稳定、资源消耗低，能继承已有排序能力；缺点是可能继承旧偏置，对大结构变化或标签分布变化适应不足。取舍要看变更幅度和风险。小改特征、加任务头、调 loss 或业务轻微变化，优先热启动；模型结构完全换代、目标定义改变、旧模型质量差或迁移到新场景，可以冷启动或先离线预训练再热启动。上线流程应先离线对比 AUC、logloss、nDCG、校准、多目标收益和长尾分层，再小流量灰度，关注 CTR/CVR、时长、负反馈、生态指标、延迟、资源成本和模型稳定性。无论冷/热启动都要有 shadow、A/B、回滚、特征一致性校验和训练- serving 偏差监控。

考点 这里的冷/热启动是模型上线方式，不是用户冷启动

难度 真实面经题

回答目标 让候选人能基于推荐精排上线风险，合理选择冷启动、热启动或混合方案，并设计评估和回滚闭环。

深入解析

概念区别

冷启动从头学习，适合大变更但收敛慢；热启动继承已有参数，适合连续迭代但可能带来旧偏置。先定义清楚，避免和用户冷启动混淆。

收敛周期

热启动通常更快达到可用效果，需要的训练样本量、epoch/step 和调参轮次更少。冷启动需要更多 warmup、训练数据和离线验证，早期波动更大。

资源消耗

冷启动训练成本高，可能需要更多 GPU、更多样本回放和更长实验周期。热启动成本低，但要保证 checkpoint、特征和 optimizer 状态兼容。

线上风险

冷启动可能排序分布大幅变化，影响用户体验和商业指标；热启动风险较低，但旧偏置可能限制新目标收益。上线要灰度和可回滚。

适用场景

小幅特征/目标改动优先热启动；结构换代、场景迁移、旧模型不可用或需要摆脱强偏置时考虑冷启动，或采用预训练加阶段热启动。

评估闭环

离线看排序指标和分层效果，线上看业务主指标、生态护栏、延迟资源和稳定性。还要监控特征漂移、训练 serving 一致性和模型校准。

易错点

把模型冷启动和用户冷启动混为一谈。
只说热启动更快，不提旧偏置和兼容性问题。
只说冷启动更干净，不提收敛成本和线上风险。
没有灰度、shadow 和回滚方案。
只看离线 AUC，不看线上业务和生态护栏。
忽略训练-serving 特征一致性。

面试官追问

热启动后效果不如旧模型怎么办？

先检查特征兼容、label 口径、optimizer 状态、学习率、校准和训练-serving 偏差。必要时回滚 checkpoint，缩小变更或分阶段解冻训练。

冷启动如何降低上线风险？

先离线充分训练和回放评估，再 shadow 打分对比线上分布，小流量灰度，设置业务护栏和自动回滚，不直接全量替换。

模型结构变化还能热启动吗？

可以部分热启动，例如加载兼容的 embedding/backbone，新增层随机初始化，或用蒸馏让新模型学习旧模型排序，再逐步引入新目标。

怎么发现热启动继承了旧偏置？

看长尾、新内容、新用户、低曝光类别和新目标上的分层收益。如果整体稳定但新目标无提升，可能旧模型先验过强。