真实面经题目 · 原创解析
模型训练后需要保存哪些参数?
模型训练后的保存内容不只是权重文件,还包括结构、预处理、特征配置、归一化统计、优化器状态、版本信息和评估元数据。
出现于:滴滴 · 算法
真实面经题目 · 原创解析
模型训练后的保存内容不只是权重文件,还包括结构、预处理、特征配置、归一化统计、优化器状态、版本信息和评估元数据。
模型训练后至少要保存能复现推理的所有信息:模型结构或可加载的计算图、训练好的参数权重、tokenizer 或特征处理逻辑、归一化均值方差、类别映射、阈值和后处理配置。若要恢复训练,还要保存优化器状态、学习率调度器、随机种子、epoch/step 和训练配置。工程上线还需要模型版本、依赖版本、训练数据范围、指标、校验签名和回滚信息。回答时要区分推理所需、继续训练所需和治理审计所需三类。
上线推理必须能从原始输入得到稳定输出,因此要保存模型结构、权重、输入预处理、特征字典、归一化统计、类别映射和后处理阈值。
如果之后要从 checkpoint 继续训练,还需要优化器动量、学习率调度器、混合精度状态、当前 step、随机种子和训练超参数。
推荐、风控和广告模型尤其依赖特征工程。特征 schema、离散化规则、embedding 表版本和训练数据时间窗口都要和模型一起记录。
模型文件之外还要保存离线指标、验证集切片、线上阈值、校准方式和业务规则。否则同一权重在不同阈值下会表现成不同产品行为。
生产环境需要模型版本号、构建时间、依赖环境、校验和、负责人和回滚指针。这些信息保证模型可审计、可复现、可回滚。
没有结构、特征处理和类别映射,权重无法被正确解释,输入输出也可能和训练时不一致。
推理模型只保留线上预测必需内容,checkpoint 还要保存优化器、step 和训练配置以便继续训练。
发布时保存模型版本、配置版本、特征版本和校验签名,并保留上一稳定版本的服务入口或 artifact。