神经网络面试题解析

这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式，而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。

同题还出现在 1 个公司岗位

手写题 Transformer 注意力机制大语言模型神经网络模型训练

腾讯 / 算法

Transformer 中 Pre-Norm 和 Post-Norm 有什么区别，为什么会影响深层模型训练稳定性？

这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响：Pre-Norm 更利于深层稳定训练，Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧，二者还有最终性能与稳定性的取舍。

同题还出现在 1 个公司岗位

大语言模型 Transformer 模型训练神经网络正则化

小米 / 算法

视觉 Transformer 处理非均匀采样 3D 点云时，Patch Embedding 应如何改进？

这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时，如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer，而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。

计算机视觉 Transformer Embedding 神经网络模型训练

京东 / 算法

训练中把 loss 除以 10 和把学习率除以 10 有什么区别？

这题考优化器细节：把 loss 除以 10 会先把反向传播得到的梯度缩小 10 倍；把学习率除以 10 是在优化器更新参数时缩小 step size。二者在最简单的无动量 SGD、无正则、无裁剪场景下近似等价，但在 Adam/AdamW、动量、weight decay、gradient clipping、混合精度、多任务 loss、分布式梯度累积等真实训练中会产生明显差异。

模型训练神经网络

阿里巴巴 / 算法

Qwen 这类大模型中的 SwiGLU 激活函数有什么作用，相比传统 FFN 激活函数有哪些优势？

这题考的是候选人是否理解现代 Transformer 前馈网络里的门控激活机制：SwiGLU 不是一个简单替换 GELU 的名字，而是通过 gate/value 两路投影和逐元素乘法提升 FFN 的表达能力与训练效果。

同公司岗位有 2 条面经记录

通义千问大语言模型 Transformer 激活函数模型训练神经网络

腾讯 / 算法

CV 任务中的注意力机制有哪些应用，通道注意力、空间注意力和自注意力分别解决什么问题？

这题考的是对视觉注意力的结构化理解：注意力不是一个单一模块，而是从通道、空间、像素/patch 关系、跨尺度和跨模态等角度重新分配特征权重。好的回答要能区分通道注意力解决“看哪些语义特征”、空间注意力解决“关注哪些空间位置”、自注意力解决“建模长距离关系”，并结合分类、检测、分割、ReID、视频和 OCR 讲应用与代价。

计算机视觉注意力机制神经网络 Transformer 模型评估

腾讯 / 算法

目标检测任务的损失函数如何设计，分类、框回归、IoU 和样本匹配各解决什么问题？

目标检测损失不是把分类和框坐标简单相加，而是在解决四类不同问题：哪些位置有目标、目标属于什么类别、预测框和真实框如何几何对齐、哪些候选样本应该接受哪一个真实框监督。好的回答要先拆检测头输出，再解释分类损失、回归损失、IoU 类损失和样本匹配之间的依赖关系，最后讨论正负样本不平衡、损失权重、匹配策略变化对收敛和 AP 的影响。

计算机视觉模型训练神经网络模型评估

华为 / 算法

图像融合算法怎么实现？像素级、特征级和决策级融合分别适合什么场景？

这题考的是对图像融合任务的完整建模能力：不仅要说把多张图加权平均，还要能区分像素级、特征级和决策级融合在信息粒度、配准要求、鲁棒性、可解释性、计算代价和适用场景上的差异，并给出可落地的实现、评估和故障排查思路。

计算机视觉多模态学习算法模型评估神经网络

百度 / 算法

BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间？

这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路：Image-view Encoder 提取每个相机的 2D 特征，View Transformer 结合深度分布、相机内外参和数据增强矩阵，把像素特征 lift 到三维 frustum，再 splat 或 pooling 到 ego 坐标系下的 BEV 网格，最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标，不能把 View Transformer 误讲成普通 NLP Transformer。

计算机视觉算法神经网络

滴滴 / 算法

FCOS 作为 anchor-free 目标检测算法，整体流程和正负样本分配如何设计？

这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor，而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框，以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准，不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。

计算机视觉算法神经网络模型训练