模型训练面试题解析

怎么加速模型训练？

加速模型训练要从数据、模型、计算、分布式和实验流程五层回答。核心不是简单说“加 GPU”，而是减少无效计算、提高硬件利用率、降低通信成本，并保证加速后模型效果和可复现性不被破坏。

同题还出现在 1 个公司岗位

模型训练性能排查大语言模型

Reward model如何训练？

Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注，构造 chosen/rejected pair，用 pairwise ranking loss 训练模型给更优回答更高分。

同题还出现在 1 个公司岗位

RLHF 模型训练模型评估

百度 / 算法

深度点击率预估模型如何选型？

深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起，再说明如何用离线指标和线上 A/B 验证。

推荐系统模型评估模型训练

如何判断模型是否过拟合？

判断过拟合要看训练集表现和验证/测试集表现是否明显分离。典型现象是训练 loss 持续下降、训练指标很好，但验证指标停滞或变差。还要结合学习曲线、分桶表现、交叉验证和线上泛化来排除数据泄漏或分布漂移。

模型评估模型训练统计学

你对大模型分布式训练的底层了解多少？

大模型分布式训练的底层要围绕并行策略、通信开销、显存拆分和容错监控来讲。面试回答不能只说“多卡训练”，要能解释数据并行、张量并行、流水线并行、ZeRO/FSDP 以及 AllReduce 等通信模式各自解决什么问题。

大语言模型模型训练系统设计

在一个文档中，如何筛选出对一个综合场景大模型的微调数据？

从单个文档筛选综合场景大模型微调数据，关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。

大语言模型模型微调模型训练

特征工程中，为什么要对连续特征离散化？

连续特征离散化的价值在于增强非线性表达、降低异常值影响、提升可解释性，并让线性模型更容易学习分段关系。回答要同时说明适用场景、分箱方法、信息损失和线上一致性。

特征工程统计学模型训练

Uplift模型与传统分类模型的核心区别是什么？

Uplift 模型和传统分类模型的核心区别在目标变量：分类预测用户会不会转化，Uplift 预测干预会让转化概率提升多少。面试要讲清训练数据、标签构造、模型输出、评估指标和业务使用方式的差异。

Uplift 模型因果推断模型训练

ESMM模型里，CVR和CTR任务共享Embedding层，这个在代码层面具体是怎么实现的？

ESMM 中 CTR 和 CVR 任务共享 Embedding 的代码实现，本质是同一批稀疏特征经过同一组 Embedding layer 查表，得到共享底层表示，再分别进入 CTR tower 和 CVR tower。回答要讲清共享参数、前向路径、loss 设计和训练样本空间。

同题还出现在 1 个公司岗位

推荐系统 Embedding 模型训练

百度 / 算法

GBDT 的实现流程是什么？

GBDT 的实现流程是不断训练回归树去拟合当前模型的负梯度或残差，并把新树按学习率累加到集成模型中。回答时要讲清初始化、计算伪残差、建树、叶子权重、模型更新和停止条件。

GBDT 模型训练算法

神经网络初始参数能不能全设成 0，为什么？

神经网络参数不能全部初始化为 0，因为同一层神经元会得到完全相同的梯度更新，无法打破对称性，多个神经元会学成同一个函数。偏置可以为 0，但权重需要随机或按 Xavier/He 等方法初始化。

神经网络模型训练

L1 和 L2 正则化的区别是什么？

L1 和 L2 正则化都是限制模型复杂度、缓解过拟合的方法。L1 加的是参数绝对值和，容易产生稀疏权重；L2 加的是参数平方和，会平滑地压小权重，也常被称为权重衰减。

正则化模型训练统计学

DragonNet如何保证输出的单调性和一致性？

DragonNet 这类因果效应模型要保证输出单调性和一致性，核心是把业务约束写进模型结构、输出变换、损失函数和训练校验中。回答时要区分预测值的数学约束、处理效应的一致性，以及线上分桶后的业务单调。

因果推断 Uplift 模型模型训练

如果需要为特定领域的文本训练一套 Embedding，你会怎么做？

为特定领域文本训练 Embedding，要从语料构建、分词策略、训练目标、负样本、评估和部署更新全链路设计。关键不是只训练一个向量表，而是让向量能服务领域检索、分类、聚类或推荐任务。

Embedding 大语言模型模型训练

百度 / 算法

在样本不平衡问题中，除了修正数据集，还能有哪些方法？

样本不平衡除了修正数据集，还可以从损失函数、样本权重、阈值移动、指标选择、模型集成、概率校准和业务决策成本入手。回答要说明不同方法解决的是训练偏差、预测阈值还是评估偏差。

同题还出现在 1 个公司岗位

样本不平衡模型训练模型评估

激活函数有哪些？

激活函数的作用是给神经网络引入非线性，常见包括 Sigmoid、Tanh、ReLU、Leaky ReLU、ELU、GELU、Softmax 和 Swish。回答要讲清各自范围、梯度特点、适用层和常见问题。

激活函数神经网络模型训练

Reward model你觉得训练到什么程度可以？

Reward model 训练到什么程度可以，核心不是训练集 loss 越低越好，而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用，并且没有明显 reward hacking 风险。

RLHF 模型评估模型训练

数据预处理一般用 OpenCV 做什么？

OpenCV 在数据预处理中常用于图像读取、格式转换、尺寸调整、归一化、去噪、增强、几何变换、颜色空间处理和基础标注清洗。回答要把训练数据处理和上线推理一致性一起讲清楚。

计算机视觉特征工程模型训练

为什么需要 Reward model？

Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号，用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。

RLHF 模型训练模型评估

Reward model 不准确时怎么办？

Reward model 不准确时不能直接继续强化学习，否则会放大错误偏好。稳妥回答要从数据、标注、模型、校准、对抗评测和下游闭环逐层修复。

RLHF 模型评估模型训练

ReLU 是为了解决什么问题设计的？

ReLU 的设计目标是给神经网络引入简单高效的非线性，同时缓解 Sigmoid/Tanh 在深层网络中的梯度消失和计算饱和问题。回答要同时讲优点和死亡 ReLU 等代价。

激活函数神经网络模型训练

数据集是如何构建和评测的？

数据集构建和评测题考察的是训练数据闭环。高质量回答要覆盖目标定义、数据采集、清洗标注、划分、质量评估、偏差检查、基线验证和持续迭代。

同题还出现在 1 个公司岗位

大语言模型模型训练模型评估

Self-Attention 中为什么需要 Softmax？

Self-Attention 中 Softmax 的作用是把相似度分数转换成归一化注意力权重，让模型用概率分布对 value 做加权聚合。

注意力机制大语言模型模型训练

Self-Attention 中为什么要做 QKV 线性变换？

QKV 线性变换让同一个输入表示分别投影到查询、键和值三个语义空间，使 Attention 能学习匹配关系和被聚合内容，而不是用原始 embedding 直接相乘。

注意力机制大语言模型模型训练

快手 / 算法

基于值函数和基于策略梯度的 RL 算法有什么区别，分别适合什么场景？

基于值函数和基于策略梯度的 RL 方法区别在于前者学习状态或动作价值再间接选动作，后者直接优化参数化策略。

强化学习算法模型训练

模型训练时 advantage 或 loss 突然变成 0，可能是什么原因？

advantage 或 loss 突然变成 0 通常是训练信号、数据、mask、奖励归一化、数值稳定或日志统计出了问题，需要按链路逐层排查。

RLHF 模型训练模型评估

0、1 分类问题应使用什么损失函数，为什么不能用 MSE？

0、1 分类通常使用二元交叉熵或逻辑损失，而不是 MSE。核心原因是分类建模的是伯努利概率，交叉熵梯度和概率解释更合适。

模型训练模型评估神经网络

小米 / 算法

Transformer 相比之前的模型为什么有这么大的提升？

Transformer 的提升主要来自 self-attention 对长距离依赖的直接建模、更强并行训练能力、多头表示学习，以及可扩展到大数据和大模型规模的结构。

Transformer 注意力机制模型训练

蚂蚁集团 / 算法

大模型使用的损失函数是什么？

大模型预训练最常见的损失函数是 next-token prediction 的交叉熵损失；对齐阶段还会出现 SFT 交叉熵、奖励模型损失、RLHF 或 DPO 这类偏好优化目标。

大语言模型模型训练 RLHF

如何将 GAN 应用到检测分割中以提升性能？

把 GAN 用到检测分割中，核心是让生成器补充样本、域迁移或生成更难的视觉场景，再用检测分割任务损失和对抗损失共同约束，避免只追求图片逼真。

GAN 计算机视觉模型训练

快手 / 算法

模型在线训练和离线训练有什么区别？

在线训练和离线训练的区别在于数据更新频率、训练时效、系统复杂度和稳定性要求；推荐场景常用离线主模型加在线增量或实时特征的混合方案。

模型训练推荐系统性能排查

如何手推 MSE 的梯度并进行反向传播？

手推 MSE 梯度要从损失定义开始，说明对预测值的导数，再把这个误差信号沿链式法则传回模型参数，而不是只背一个公式。

神经网络模型训练

当模型出现 bad case 时，如何分析并改进？

模型 bad case 分析要先复现和分层定位，再判断是数据、特征、标签、模型、阈值还是业务分布问题，最后用可验证实验闭环改进。

模型评估模型训练特征工程

如何缓解过拟合？

缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答，核心是降低模型对训练集噪声和偶然模式的依赖。

同题还出现在 1 个公司岗位

模型训练正则化模型评估

GAN 的训练要注意什么？

GAN 训练要重点关注生成器和判别器的平衡、模式崩溃、梯度不稳定、损失解释困难和样本质量评估，不能只看 loss 是否下降。

同题还出现在 1 个公司岗位

GAN 模型训练神经网络

模型训练不收敛时怎么办？

模型训练不收敛要按数据、标签、特征、损失、优化器、学习率、初始化和梯度状态逐层排查，先定位现象再改参数。

模型训练模型评估神经网络

遗传算法优化和梯度下降优化有什么区别？

遗传算法和梯度下降的区别在于优化信息、搜索方式和适用问题不同：前者是群体式全局启发搜索，后者依赖梯度做连续参数局部迭代。

算法模型训练统计学

模型训练后需要保存哪些参数？

模型训练后的保存内容不只是权重文件，还包括结构、预处理、特征配置、归一化统计、优化器状态、版本信息和评估元数据。

模型训练算法工程化

高维稀疏特征为什么不适合直接用神经网络训练？

高维稀疏特征为什么不适合直接用神经网络训练？这道腾讯牛客题的关键是围绕“高维稀疏特征直接训练神经网络的风险”讲清概念、机制、取舍和边界。高维稀疏特征如果直接 one-hot 输入神经网络，会带来参数巨大、有效梯度稀疏、长尾类别训练不足、过拟合和线上存储/延迟成本。工程上通常先做 embedding、特征哈希、频次截断、交叉特征或用适合稀疏输入的线性/树模型做基线。

模型训练算法推荐系统

BatchNorm 和 LayerNorm 有什么区别？

BatchNorm 和 LayerNorm 有什么区别？这道腾讯牛客题的关键是围绕“BatchNorm 与 LayerNorm 的统计维度”讲清概念、机制、取舍和边界。BatchNorm 和 LayerNorm 都是归一化手段，但核心差异在统计维度。BN 通常沿 batch 维度统计某个通道或特征的均值方差，训练时还维护 moving average；LN 在单个样本内部沿 hidden dimension 归一化，不依赖同一个 batch 里的其他样本。

音频包络如何计算？

音频包络如何计算？这道腾讯牛客题的关键是围绕“音频包络计算”讲清概念、机制、取舍和边界。音频包络描述的是声音幅度随时间变化的外轮廓，常用于响度变化、起音检测和节奏特征。常见做法是先把波形取绝对值、平方能量或 Hilbert 变换得到瞬时幅度，再用滑动窗口、RMS 或低通滤波做平滑。

MFCC 特征如何计算，是否可逆？

MFCC 特征如何计算，是否可逆？这道腾讯牛客题的关键是围绕“MFCC 特征计算与不可逆性”讲清概念、机制、取舍和边界。MFCC 是把语音短时频谱映射到符合人耳感知的倒谱特征。典型流程是预加重、分帧、加窗、FFT、Mel 滤波器组、取 log 能量、DCT，最后保留前若干维系数。

DDSP 模型的核心思想是什么？

DDSP 模型的核心思想是什么？这道腾讯牛客题的关键是围绕“DDSP 可微数字信号处理”讲清概念、机制、取舍和边界。DDSP 的核心是把传统数字信号处理模块做成可微分组件，让神经网络预测可解释的合成参数，再通过谐波合成器、噪声合成器和滤波器生成音频。它不是普通 representation learning，而是把声学先验嵌入神经生成模型。

词向量如何生成，常见训练方法有哪些？

词向量如何生成，常见训练方法有哪些？这道腾讯牛客题的关键是围绕“词向量生成方法”讲清概念、机制、取舍和边界。词向量是把离散词映射到稠密向量，使语义或上下文相似的词在向量空间里更接近。常见训练方法包括 Word2Vec 的 CBOW/Skip-gram、负采样或层次 softmax、GloVe 的全局共现矩阵分解，以及 FastText 的子词建模。