60 秒回答模板

模型训练后至少要保存能复现推理的所有信息:模型结构或可加载的计算图、训练好的参数权重、tokenizer 或特征处理逻辑、归一化均值方差、类别映射、阈值和后处理配置。若要恢复训练,还要保存优化器状态、学习率调度器、随机种子、epoch/step 和训练配置。工程上线还需要模型版本、依赖版本、训练数据范围、指标、校验签名和回滚信息。回答时要区分推理所需、继续训练所需和治理审计所需三类。

考点 推理闭环
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

推理最小闭环

上线推理必须能从原始输入得到稳定输出,因此要保存模型结构、权重、输入预处理、特征字典、归一化统计、类别映射和后处理阈值。

02

继续训练状态

如果之后要从 checkpoint 继续训练,还需要优化器动量、学习率调度器、混合精度状态、当前 step、随机种子和训练超参数。

03

特征和数据版本

推荐、风控和广告模型尤其依赖特征工程。特征 schema、离散化规则、embedding 表版本和训练数据时间窗口都要和模型一起记录。

04

评估与阈值

模型文件之外还要保存离线指标、验证集切片、线上阈值、校准方式和业务规则。否则同一权重在不同阈值下会表现成不同产品行为。

05

发布治理信息

生产环境需要模型版本号、构建时间、依赖环境、校验和、负责人和回滚指针。这些信息保证模型可审计、可复现、可回滚。

易错点

  • 不要只回答保存模型参数或 pth 文件,要覆盖特征和后处理配置。
  • 不要混淆推理部署包和训练 checkpoint,它们目标不同。
  • 不要忽略数据和特征版本,很多线上不一致都来自这里。

面试官追问

只保存权重为什么不够?

没有结构、特征处理和类别映射,权重无法被正确解释,输入输出也可能和训练时不一致。

推理模型和训练 checkpoint 有什么区别?

推理模型只保留线上预测必需内容,checkpoint 还要保存优化器、step 和训练配置以便继续训练。

如何保证模型可回滚?

发布时保存模型版本、配置版本、特征版本和校验签名,并保留上一稳定版本的服务入口或 artifact。