真实面经题目 · 原创解析
短视频推荐精排模型上线时,如何在冷启动和热启动之间取舍,并评估收敛周期、资源消耗和线上风险?
这道题考察推荐精排模型上线方式选择。回答要区分冷启动全新训练和热启动继承已有模型,并围绕收敛、资源、线上风险、灰度和回滚制定方案。
真实面经题目 · 原创解析
这道题考察推荐精排模型上线方式选择。回答要区分冷启动全新训练和热启动继承已有模型,并围绕收敛、资源、线上风险、灰度和回滚制定方案。
精排模型上线时,冷启动通常指从随机初始化或新结构从头训练,优点是结构和目标更自由,能避免旧模型偏置,适合特征空间、任务目标或模型结构变化很大的场景;缺点是需要更多数据和训练时间,收敛慢,线上风险高。热启动是从已有线上模型、预训练模型或相近任务 checkpoint 继续训练,优点是收敛快、稳定、资源消耗低,能继承已有排序能力;缺点是可能继承旧偏置,对大结构变化或标签分布变化适应不足。 取舍要看变更幅度和风险。小改特征、加任务头、调 loss 或业务轻微变化,优先热启动;模型结构完全换代、目标定义改变、旧模型质量差或迁移到新场景,可以冷启动或先离线预训练再热启动。上线流程应先离线对比 AUC、logloss、nDCG、校准、多目标收益和长尾分层,再小流量灰度,关注 CTR/CVR、时长、负反馈、生态指标、延迟、资源成本和模型稳定性。无论冷/热启动都要有 shadow、A/B、回滚、特征一致性校验和训练- serving 偏差监控。
冷启动从头学习,适合大变更但收敛慢;热启动继承已有参数,适合连续迭代但可能带来旧偏置。先定义清楚,避免和用户冷启动混淆。
热启动通常更快达到可用效果,需要的训练样本量、epoch/step 和调参轮次更少。冷启动需要更多 warmup、训练数据和离线验证,早期波动更大。
冷启动训练成本高,可能需要更多 GPU、更多样本回放和更长实验周期。热启动成本低,但要保证 checkpoint、特征和 optimizer 状态兼容。
冷启动可能排序分布大幅变化,影响用户体验和商业指标;热启动风险较低,但旧偏置可能限制新目标收益。上线要灰度和可回滚。
小幅特征/目标改动优先热启动;结构换代、场景迁移、旧模型不可用或需要摆脱强偏置时考虑冷启动,或采用预训练加阶段热启动。
离线看排序指标和分层效果,线上看业务主指标、生态护栏、延迟资源和稳定性。还要监控特征漂移、训练 serving 一致性和模型校准。
先检查特征兼容、label 口径、optimizer 状态、学习率、校准和训练-serving 偏差。必要时回滚 checkpoint,缩小变更或分阶段解冻训练。
先离线充分训练和回放评估,再 shadow 打分对比线上分布,小流量灰度,设置业务护栏和自动回滚,不直接全量替换。
可以部分热启动,例如加载兼容的 embedding/backbone,新增层随机初始化,或用蒸馏让新模型学习旧模型排序,再逐步引入新目标。
看长尾、新内容、新用户、低曝光类别和新目标上的分层收益。如果整体稳定但新目标无提升,可能旧模型先验过强。