知识点标签

神经网络面试题解析第 2 页

神经网络相关面试题,覆盖初始化、激活函数、反向传播和训练稳定性。

65 道题 5 个岗位 14 个公司

神经网络相关面试题第 2 页

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。

大语言模型的参数量具体指什么,如何估算一个 Transformer Block 的参数规模?

这道题考察模型参数量的数量级推导能力。参数量是可训练权重标量的数量,不等于显存、FLOPs 或上下文长度。好答案要能用 hidden size、FFN 中间维度、层数、词表大小估算一个 Transformer block,并说明 GQA/MQA、SwiGLU、MoE、权重共享、LoRA 和量化对成本含义的影响。

DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

为什么梯度下降在机器学习优化中有效?如何理解梯度方向、学习率、局部最优和非凸损失?

这题考的是对梯度下降有效性的本质理解:在可微损失函数附近,负梯度方向是一阶近似下让损失下降最快的方向,小步更新可以逐步降低目标函数。回答要进一步解释学习率、凸与非凸、随机梯度、鞍点、局部最优、归一化和收敛诊断,不能停在一句沿着梯度反方向走。

DCN 和 DeepFM 的特征交叉机制有什么异同?

DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

ASR 语音识别流程中,WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题?

这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线:语音识别不是一个单一模型,而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列;GMM-HMM 用高斯混合建模每个声学状态的观测概率;DNN-HMM 用神经网络替代 GMM 做更强的声学判别;WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图;CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐,弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。