标签题目
神经网络相关面试题第 2 页
手写单层 MLP 做回归或二分类时,如何实现 forward、loss、反向传播和参数更新?
这题考的是能否从零写出一个最小神经网络训练闭环:线性层、激活、任务损失、链式法则、梯度形状和参数更新。回答要同时覆盖回归和二分类,并能解释为什么回归常用 MSE,二分类常用 sigmoid + BCE,以及如何验证梯度和训练是否正确。
Word2Vec 负采样为什么能加速训练,训练目标如何理解?
这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词,而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习,每个正样本只更新少量负例,从而把复杂度从 O(|V|) 降到 O(K),同时学到可用于相似性和共现关系的 embedding。
推荐系统里的基于深度模型召回怎么做,如何与 ItemCF 或 Word2Vec 召回配合?
这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量,如何用 ANN 服务大规模候选,如何与 ItemCF、Word2Vec 等通道互补,以及负样本、偏差、版本、索引和指标如何治理。
BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?
这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。
大语言模型的参数量具体指什么,如何估算一个 Transformer Block 的参数规模?
这道题考察模型参数量的数量级推导能力。参数量是可训练权重标量的数量,不等于显存、FLOPs 或上下文长度。好答案要能用 hidden size、FFN 中间维度、层数、词表大小估算一个 Transformer block,并说明 GQA/MQA、SwiGLU、MoE、权重共享、LoRA 和量化对成本含义的影响。
GPU 推理中 depthwise / separable convolution 为什么可能变慢,为什么常被判断为访存密集型算子?
这题考 GPU 推理中 depthwise / separable convolution 为什么容易 memory-bound。它虽然显著降低 FLOPs,但 activation 读写没有同比减少,算术强度低,无法充分利用 GPU 计算吞吐,瓶颈常转向显存带宽、cache locality 和 kernel launch。
推理优化中为什么可以做 Conv+BN 融合,融合后的权重和偏置公式如何推导?
这题考推理态算子融合的数学等价性和工程收益。BN 在 inference 时使用固定 running mean/variance,是逐输出通道仿射变换,所以可以吸收到前一层卷积的权重和偏置里,减少算子调度和中间 tensor 读写。
推理框架中卷积算子通常有哪些实现方式,如何按输入形状、硬件和延迟目标选型?
这题考推理框架里的卷积实现谱系,而不是卷积数学定义。回答要覆盖 direct、im2col/GEMM、implicit GEMM、Winograd、FFT、1x1/depthwise/group 专用 kernel,并说明选型受形状、batch、硬件、内存带宽、精度和端到端延迟影响。
DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?
这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。
为什么梯度下降在机器学习优化中有效?如何理解梯度方向、学习率、局部最优和非凸损失?
这题考的是对梯度下降有效性的本质理解:在可微损失函数附近,负梯度方向是一阶近似下让损失下降最快的方向,小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断,不能停在一句沿着梯度反方向走。
卷积层为什么能抽取图像特征,如何从局部连接、权重共享、感受野、平移等变性和多层组合解释?
卷积层能抽取图像特征,核心在于用局部连接和权重共享把同一个模式检测器滑过整张图,再通过多通道卷积、非线性、多层感受野扩张和下采样,把边缘、纹理、部件逐步组合成更高层语义特征。
1x1 卷积核在 CNN 中有什么作用?
这道题考察 CNN 中 1x1 卷积的真实作用。它不是用来扩大空间感受野,而是在每个空间位置上做通道维度的线性组合,常用于通道融合、升降维、减少计算量、构造瓶颈层,以及在合适网络结构中增强表达效率。
Dropout 在训练和推理阶段分别如何处理,为什么测试时通常关闭随机丢弃?
这题考 Dropout 的训练和推理差异。高质量回答要说明训练期采样 Bernoulli mask,常用 inverted dropout 按 1/(1-p) 放大保留激活;推理期切到 eval 模式关闭随机丢弃,使用完整网络并保持期望一致,同时补充 MC Dropout 例外和框架常见坑。
超分辨率模型中,上采样层放在网络前面还是后面,各自有什么速度、显存和效果取舍?
这题考超分辨率网络中上采样位置的架构取舍。高质量回答要对比 SRCNN 式前置上采样和 FSRCNN/ESPCN 式后置上采样,讲清计算量、显存、速度、感受野、重建质量、尺度适配和棋盘伪影,并说明 sub-pixel、transpose convolution、resize-conv 等方案差异。
DCN 和 DeepFM 的特征交叉机制有什么异同?
DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。
推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?
推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。
ASR 语音识别流程中,WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题?
这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线:语音识别不是一个单一模型,而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列;GMM-HMM 用高斯混合建模每个声学状态的观测概率;DNN-HMM 用神经网络替代 GMM 做更强的声学判别;WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图;CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐,弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。