知识点标签

神经网络面试题解析

神经网络相关面试题,覆盖初始化、激活函数、反向传播和训练稳定性。

65 道题 5 个岗位 14 个公司

神经网络相关面试题

如何手写 Multi-Head Self-Attention,Q/K/V 投影、分头、mask 和输出拼接如何实现?

这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式,而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。

同题还出现在 1 个公司岗位

训练中把 loss 除以 10 和把学习率除以 10 有什么区别?

这题考优化器细节:把 loss 除以 10 会先把反向传播得到的梯度缩小 10 倍;把学习率除以 10 是在优化器更新参数时缩小 step size。二者在最简单的无动量 SGD、无正则、无裁剪场景下近似等价,但在 Adam/AdamW、动量、weight decay、gradient clipping、混合精度、多任务 loss、分布式梯度累积等真实训练中会产生明显差异。

CV 任务中的注意力机制有哪些应用,通道注意力、空间注意力和自注意力分别解决什么问题?

这题考的是对视觉注意力的结构化理解:注意力不是一个单一模块,而是从通道、空间、像素/patch 关系、跨尺度和跨模态等角度重新分配特征权重。好的回答要能区分通道注意力解决“看哪些语义特征”、空间注意力解决“关注哪些空间位置”、自注意力解决“建模长距离关系”,并结合分类、检测、分割、ReID、视频和 OCR 讲应用与代价。

目标检测任务的损失函数如何设计,分类、框回归、IoU 和样本匹配各解决什么问题?

目标检测损失不是把分类和框坐标简单相加,而是在解决四类不同问题:哪些位置有目标、目标属于什么类别、预测框和真实框如何几何对齐、哪些候选样本应该接受哪一个真实框监督。好的回答要先拆检测头输出,再解释分类损失、回归损失、IoU 类损失和样本匹配之间的依赖关系,最后讨论正负样本不平衡、损失权重、匹配策略变化对收敛和 AP 的影响。

BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间?

这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路:Image-view Encoder 提取每个相机的 2D 特征,View Transformer 结合深度分布、相机内外参和数据增强矩阵,把像素特征 lift 到三维 frustum,再 splat 或 pooling 到 ego 坐标系下的 BEV 网格,最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标,不能把 View Transformer 误讲成普通 NLP Transformer。

FCOS 作为 anchor-free 目标检测算法,整体流程和正负样本分配如何设计?

这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor,而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框,以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准,不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。