神经网络面试题解析｜面试大师

标签题目

神经网络相关面试题第 2 页

手写单层 MLP 做回归或二分类时，如何实现 forward、loss、反向传播和参数更新？

这题考的是能否从零写出一个最小神经网络训练闭环：线性层、激活、任务损失、链式法则、梯度形状和参数更新。回答要同时覆盖回归和二分类，并能解释为什么回归常用 MSE，二分类常用 sigmoid + BCE，以及如何验证梯度和训练是否正确。

Word2Vec 负采样为什么能加速训练，训练目标如何理解？

这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词，而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习，每个正样本只更新少量负例，从而把复杂度从 O(|V|) 降到 O(K)，同时学到可用于相似性和共现关系的 embedding。

Embedding 模型训练神经网络模型评估

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

小米 / 算法

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat？

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加，是为了把词义、句子归属和位置注入同一个 hidden space，保持后续 Transformer 维度、参数量和残差结构稳定；concat 虽然看似保留边界，但会放大后续 Q/K/V、FFN 参数和推理成本，通常收益不明确。

Transformer Embedding 大语言模型神经网络

字节跳动 / 客户端

大语言模型的参数量具体指什么，如何估算一个 Transformer Block 的参数规模？

这道题考察模型参数量的数量级推导能力。参数量是可训练权重标量的数量，不等于显存、FLOPs 或上下文长度。好答案要能用 hidden size、FFN 中间维度、层数、词表大小估算一个 Transformer block，并说明 GQA/MQA、SwiGLU、MoE、权重共享、LoRA 和量化对成本含义的影响。

大语言模型 Transformer 神经网络模型训练性能排查

拼多多 / 算法

GPU 推理中 depthwise / separable convolution 为什么可能变慢，为什么常被判断为访存密集型算子？

这题考 GPU 推理中 depthwise / separable convolution 为什么容易 memory-bound。它虽然显著降低 FLOPs，但 activation 读写没有同比减少，算术强度低，无法充分利用 GPU 计算吞吐，瓶颈常转向显存带宽、cache locality 和 kernel launch。

神经网络 GPU CUDA 性能排查大模型推理

拼多多 / 算法

推理优化中为什么可以做 Conv+BN 融合，融合后的权重和偏置公式如何推导？

这题考推理态算子融合的数学等价性和工程收益。BN 在 inference 时使用固定 running mean/variance，是逐输出通道仿射变换，所以可以吸收到前一层卷积的权重和偏置里，减少算子调度和中间 tensor 读写。

神经网络大模型推理模型评估性能排查

拼多多 / 算法

推理框架中卷积算子通常有哪些实现方式，如何按输入形状、硬件和延迟目标选型？

这题考推理框架里的卷积实现谱系，而不是卷积数学定义。回答要覆盖 direct、im2col/GEMM、implicit GEMM、Winograd、FFT、1x1/depthwise/group 专用 kernel，并说明选型受形状、batch、硬件、内存带宽、精度和端到端延迟影响。

神经网络大模型推理模型评估性能排查

百度 / 算法

DNN 与传统机器学习方法有什么不同？为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势？

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配，但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

神经网络特征工程模型训练模型评估统计学

字节跳动 / 算法

为什么梯度下降在机器学习优化中有效？如何理解梯度方向、学习率、局部最优和非凸损失？

这题考的是对梯度下降有效性的本质理解：在可微损失函数附近，负梯度方向是一阶近似下让损失下降最快的方向，小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断，不能停在一句沿着梯度反方向走。

神经网络模型训练正则化问题排查

华为 / 算法

卷积层为什么能抽取图像特征，如何从局部连接、权重共享、感受野、平移等变性和多层组合解释？

卷积层能抽取图像特征，核心在于用局部连接和权重共享把同一个模式检测器滑过整张图，再通过多通道卷积、非线性、多层感受野扩张和下采样，把边缘、纹理、部件逐步组合成更高层语义特征。

计算机视觉神经网络特征工程模型训练

京东 / 算法

1x1 卷积核在 CNN 中有什么作用？

这道题考察 CNN 中 1x1 卷积的真实作用。它不是用来扩大空间感受野，而是在每个空间位置上做通道维度的线性组合，常用于通道融合、升降维、减少计算量、构造瓶颈层，以及在合适网络结构中增强表达效率。

计算机视觉神经网络模型训练

京东 / 数据分析

Dropout 在训练和推理阶段分别如何处理，为什么测试时通常关闭随机丢弃？

这题考 Dropout 的训练和推理差异。高质量回答要说明训练期采样 Bernoulli mask，常用 inverted dropout 按 1/(1-p) 放大保留激活；推理期切到 eval 模式关闭随机丢弃，使用完整网络并保持期望一致，同时补充 MC Dropout 例外和框架常见坑。

神经网络正则化模型训练

京东 / 算法

超分辨率模型中，上采样层放在网络前面还是后面，各自有什么速度、显存和效果取舍？

这题考超分辨率网络中上采样位置的架构取舍。高质量回答要对比 SRCNN 式前置上采样和 FSRCNN/ESPCN 式后置上采样，讲清计算量、显存、速度、感受野、重建质量、尺度适配和棋盘伪影，并说明 sub-pixel、transpose convolution、resize-conv 等方案差异。

计算机视觉神经网络模型训练

美团 / 算法

DCN 和 DeepFM 的特征交叉机制有什么异同？

DCN 和 DeepFM 都用于稀疏特征推荐排序，都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉，再用 DNN 隐式学习高阶非线性交叉；DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉，得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统特征工程模型训练神经网络

美团 / 算法

推荐系统中多任务学习有哪些常见结构，PLE 主要优化了共享底座或 MMoE 的哪些问题？

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家，并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征，主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

推荐系统模型训练模型评估神经网络

vivo / 算法

ASR 语音识别流程中，WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题？

这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线：语音识别不是一个单一模型，而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列；GMM-HMM 用高斯混合建模每个声学状态的观测概率；DNN-HMM 用神经网络替代 GMM 做更强的声学判别；WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图；CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐，弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。

语音识别算法模型训练神经网络

神经网络面试题解析第 2 页

神经网络相关面试题第 2 页