标签题目
神经网络相关面试题
神经网络初始参数能不能全设成 0,为什么?
神经网络参数不能全部初始化为 0,因为同一层神经元会得到完全相同的梯度更新,无法打破对称性,多个神经元会学成同一个函数。偏置可以为 0,但权重需要随机或按 Xavier/He 等方法初始化。
激活函数有哪些?
激活函数的作用是给神经网络引入非线性,常见包括 Sigmoid、Tanh、ReLU、Leaky ReLU、ELU、GELU、Softmax 和 Swish。回答要讲清各自范围、梯度特点、适用层和常见问题。
ReLU 是为了解决什么问题设计的?
ReLU 的设计目标是给神经网络引入简单高效的非线性,同时缓解 Sigmoid/Tanh 在深层网络中的梯度消失和计算饱和问题。回答要同时讲优点和死亡 ReLU 等代价。
0、1 分类问题应使用什么损失函数,为什么不能用 MSE?
0、1 分类通常使用二元交叉熵或逻辑损失,而不是 MSE。核心原因是分类建模的是伯努利概率,交叉熵梯度和概率解释更合适。
如何手推 MSE 的梯度并进行反向传播?
手推 MSE 梯度要从损失定义开始,说明对预测值的导数,再把这个误差信号沿链式法则传回模型参数,而不是只背一个公式。
GAN 的训练要注意什么?
GAN 训练要重点关注生成器和判别器的平衡、模式崩溃、梯度不稳定、损失解释困难和样本质量评估,不能只看 loss 是否下降。
同题还出现在 1 个公司岗位
模型训练不收敛时怎么办?
模型训练不收敛要按数据、标签、特征、损失、优化器、学习率、初始化和梯度状态逐层排查,先定位现象再改参数。
计算机视觉模型与 ChatGPT 这类大模型的网络有什么区别?
计算机视觉模型和 ChatGPT 类大模型的差异主要在输入形态、主干结构、训练目标、上下文建模方式和推理生成范式。
LSTM 的输入门、遗忘门和输出门是如何工作的?
LSTM 用遗忘门、输入门和输出门控制细胞状态的保留、写入和暴露,从而缓解普通 RNN 的长期依赖和梯度衰减问题。
同题还出现在 1 个公司岗位
DBNet 和 CTC 分别解决 OCR 中的什么问题,核心原理是什么?
这题考 OCR 检测和识别两段核心链路:DBNet 负责把文字区域找出来,CTC 负责在无字符级对齐标注时训练序列识别。
YOLOv3 的结构、多尺度预测和损失函数是什么,YOLOv4 相比 YOLOv3 有哪些改进?
这题考 YOLO 系列检测器的完整理解:YOLOv3 的 backbone、neck、head、多尺度 anchor 预测、损失组成,以及 YOLOv4 的训练和结构增强。
MTCNN 的模型结构和训练过程是怎样的?
MTCNN 是级联式人脸检测和关键点定位框架,核心是 P-Net、R-Net、O-Net 逐级候选、筛选、精修,并用多任务损失联合训练。
个激光雷达的车如何设计点云分割算法?
这题考多激光雷达点云感知方案,重点是标定同步、多雷达融合、点云表示、分割网络、时序和实时性。
膨胀卷积和模型压缩分别解决什么问题?
膨胀卷积主要在不增加太多参数和不降低特征图分辨率的情况下扩大感受野,常用于分割、检测等需要上下文的视觉任务。模型压缩主要解决模型体积、推理延迟、显存和功耗问题,常见方法包括剪枝、量化、蒸馏、低秩分解和轻量化结构设计。
用 GNN 做推荐时,哪些因素最重要?
用 GNN 做推荐最重要的是图怎么构建、边表示什么、节点和边特征是否可靠、采样和聚合如何保留有效邻居、层数如何避免过平滑、训练目标是否贴近排序任务,以及线上是否能承受图更新和推理成本。GNN 的优势在于利用高阶邻居和关系结构,但效果高度依赖图质量。
VAE 中的 V 表示什么,KL 散度在 VAE 里起什么作用?
VAE 的 V 是 Variational,表示用可学习的近似后验 q(z|x) 去逼近真实后验 p(z|x)。KL 散度是 ELBO 中的正则项,约束编码得到的潜变量分布接近先验,保证隐空间连续、可采样,同时与重构项形成清晰的生成质量和分布规整取舍。
DQN 有哪些常见优化版本,DDQN、Dueling DQN、PER 与 PPO 在调参和训练速度上有什么差异?
DQN 是基于值函数的 off-policy 强化学习方法,DDQN、Dueling DQN 和 PER 分别缓解 Q 值过估计、状态价值与动作优势混合、经验采样效率低等问题。PPO 是 on-policy 策略优化方法,调参重点、样本复用和训练速度与 DQN 系列明显不同。
加入雷达点云作为第三模态时,3D 多模态感知如何调整表征和对齐策略?
这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。
Transformer FFN 为什么通常先升维再降维,这对表达能力和计算量有什么影响?
这题考 Transformer MLP/FFN 的基本机制:逐 token 的非线性变换、扩展中间维提升表达能力,再投回 hidden size 以便残差连接和层间堆叠。
3D 语义分割评测中,mIoU 与 Chamfer Distance 分别衡量什么,什么时候该用哪个?
这题考候选人能否把 3D 语义标签质量和几何形状质量分开评估:mIoU 是分割主指标,Chamfer Distance 更适合几何重建、补全或对齐质量。
手写 CUDA Softmax2D 时,如何在 K 维做数值稳定的 softmax,避免指数溢出和精度爆炸?
这题考 row-wise softmax kernel 的正确性和性能:按 K 维减最大值、FP32 累加、block/warp reduction、不同 K 大小的线程映射,以及极端输入验证。
做人脸 AIGC 反欺诈时,如何利用 GAN、Stable Diffusion 原理理解伪造样本生成和检测思路?
这题考的是能否把 GAN、Stable Diffusion 的生成机制转成反欺诈检测思路:既要懂伪造样本怎么来,也要能从人脸一致性、活体线索、频域纹理、阈值和对抗更新讲出可落地的检测闭环。
Stable Diffusion 为什么使用 VAE 的 latent space,而不是直接在像素空间做扩散生成?
这题考 Stable Diffusion 的 latent diffusion 设计取舍:VAE 把高维像素压到较低维潜空间,让扩散模型更省算力,同时保留足够语义和空间结构,但会引入重建损失、细节上限和 latent 分布约束。
3D Gaussian Splatting 重建中的主要误差来源有哪些,如何从相机位姿、点云初始化和优化过程定位?
这题把“高斯重建”明确放在高斯重建 / 3D Gaussian Splatting 类重建语境下,重点考误差归因能力:相机、初始化、可见性、材质、Gaussian 参数优化和评估调试都可能成为重建误差来源。
MVS 点云采样和 NeRF 采样在 3D 重建中各有什么优势和局限,如何按场景选择?
这题考的是 3D 重建方法取舍:MVS 更偏显式几何和多视图匹配点云,NeRF 更偏沿射线做体渲染采样和隐式辐射场优化,选择要看视角密度、纹理、材质、速度、输出形态和下游需求。
StyleGAN 相比普通 GAN 做了哪些结构改进,mapping network、style modulation / AdaIN、噪声注入等分别解决什么问题?
这题考的是能否从生成器结构角度解释 StyleGAN:它把潜变量先映射到更可解耦的中间空间,再用逐层风格调制控制语义尺度,用噪声注入补充随机细节。
CycleGAN 如何用无配对数据做图像风格迁移,循环一致性损失为什么关键?
这题考的是能否说明 CycleGAN 为什么不需要成对样本:它用两个方向的生成器和判别器匹配目标域分布,再用循环一致性约束保留原图内容,避免任意映射。
Faster R-CNN 相比 R-CNN / Fast R-CNN 改进了什么,RPN 为什么能让目标检测更快?
这题考的是两阶段检测器的演进逻辑:R-CNN 慢在每个候选框重复跑 CNN,Fast R-CNN 共享卷积但仍依赖外部候选框,Faster R-CNN 用 RPN 在共享特征上生成候选框从而端到端加速。
Transformer 和 CNN 的核心区别是什么,在视觉任务中如何从局部归纳偏置、全局建模、数据规模和计算成本做选择?
这题考的是能否把 CNN 和 Transformer 的差异讲到建模假设与工程选择:CNN 强局部归纳偏置、参数共享和高效滑动计算,Transformer 强全局关系建模和可扩展表征但更依赖数据与算力。
多头注意力相比单头注意力有什么优势,各个 head 的输出如何拼接并通过输出投影融合?
这题考多头注意力的表示机制和实现细节,重点是说明多个 head 在不同子空间独立做注意力,输出先按特征维拼接,再由输出投影学习跨 head 融合。
端到端语音增强模型为什么可以直接在时域建模,相比基于 STFT/频域掩码的方法有哪些优势、代价和适用场景?
这题考语音增强建模路线取舍:时域端到端模型直接学习带噪波形到干净波形的映射,优势是联合学习分析基和相位细节,代价是训练、解释、延迟和泛化边界更难控制。
语音增强模型常用哪些损失函数,时域损失、频域损失、感知指标和多任务损失应如何取舍?
这题考语音增强目标函数设计:时域损失约束波形和尺度,频域损失约束谱结构,感知或识别相关损失对齐用户体验,多任务损失则要防止辅助目标压过主目标。
评估实时语音模型复杂度时,参数量、FLOPs/MACs、实时率 RTF、端到端延迟、内存和功耗分别怎么看?
这题考实时语音模型的工程评估口径:参数量看存储和权重内存,FLOPs/MACs 看理论计算,RTF 看吞吐,端到端延迟看交互体验,内存和功耗决定能否在目标设备稳定运行。
音频端侧模型做训练后量化(PTQ)时如何实现,校准集的分布、数量和场景覆盖为什么会影响最终精度?
这题考的是 PTQ 的本质:用少量代表性样本估计激活动态范围并固化量化参数;校准集分布越偏、数量越少、场景覆盖越窄,越容易导致裁剪、分辨率浪费和真实场景精度下降。
音频端侧模型为什么常选 INT8 量化,如何在速度、内存、硬件算子支持和精度损失之间权衡?
这题的核心不是喊 INT8 更快,而是解释 INT8 为什么通常是端侧部署的平衡点:显著降内存和带宽、硬件支持成熟、速度收益可观,同时精度损失通常能用 PTQ/QAT 和混合精度控制。
音频模型板端推理选择 CPU 还是 NPU 时,延迟、吞吐、算子支持、内存搬运和功耗如何比较?
这题考的是端侧推理决策能力:CPU 胜在灵活、启动开销低、算子覆盖广;NPU 胜在大规模规则算子吞吐和能效,但真实选择要看计算图是否能连续下沉、内存搬运是否可控、流式延迟和功耗是否达标。
如何手写实现一维卷积算子?给定输入序列 [1,2,3,4] 和卷积核 [1,2,3] 时,如何约定 kernel 翻转、valid/full 输出、padding 和 stride?
这题考的是能否先把卷积约定说清楚再写代码:深度学习里的 Conv1D 通常实际做 cross-correlation 不翻转 kernel;数学卷积会翻转 kernel;valid/full、padding 和 stride 会直接改变输出长度和数值。
多模态图像分支使用最大池化时,反向传播的梯度如何分配,工程实现需要注意哪些边界?
这题考最大池化的反向传播机制:输出梯度只回传给前向窗口中的最大值位置,非最大位置梯度为 0;工程上还要处理重叠窗口、并列最大值、padding、mask 记录和数值边界。
如何手写 Multi-Head Self-Attention,Q/K/V 投影、分头、mask 和输出拼接如何实现?
这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式,而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。
同题还出现在 1 个公司岗位
Transformer 中 Pre-Norm 和 Post-Norm 有什么区别,为什么会影响深层模型训练稳定性?
这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响:Pre-Norm 更利于深层稳定训练,Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧,二者还有最终性能与稳定性的取舍。
同题还出现在 1 个公司岗位
视觉 Transformer 处理非均匀采样 3D 点云时,Patch Embedding 应如何改进?
这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时,如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer,而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。
训练中把 loss 除以 10 和把学习率除以 10 有什么区别?
这题考优化器细节:把 loss 除以 10 会先把反向传播得到的梯度缩小 10 倍;把学习率除以 10 是在优化器更新参数时缩小 step size。二者在最简单的无动量 SGD、无正则、无裁剪场景下近似等价,但在 Adam/AdamW、动量、weight decay、gradient clipping、混合精度、多任务 loss、分布式梯度累积等真实训练中会产生明显差异。
Qwen 这类大模型中的 SwiGLU 激活函数有什么作用,相比传统 FFN 激活函数有哪些优势?
这题考的是候选人是否理解现代 Transformer 前馈网络里的门控激活机制:SwiGLU 不是一个简单替换 GELU 的名字,而是通过 gate/value 两路投影和逐元素乘法提升 FFN 的表达能力与训练效果。
同公司岗位有 2 条面经记录
CV 任务中的注意力机制有哪些应用,通道注意力、空间注意力和自注意力分别解决什么问题?
这题考的是对视觉注意力的结构化理解:注意力不是一个单一模块,而是从通道、空间、像素/patch 关系、跨尺度和跨模态等角度重新分配特征权重。好的回答要能区分通道注意力解决“看哪些语义特征”、空间注意力解决“关注哪些空间位置”、自注意力解决“建模长距离关系”,并结合分类、检测、分割、ReID、视频和 OCR 讲应用与代价。
目标检测任务的损失函数如何设计,分类、框回归、IoU 和样本匹配各解决什么问题?
目标检测损失不是把分类和框坐标简单相加,而是在解决四类不同问题:哪些位置有目标、目标属于什么类别、预测框和真实框如何几何对齐、哪些候选样本应该接受哪一个真实框监督。好的回答要先拆检测头输出,再解释分类损失、回归损失、IoU 类损失和样本匹配之间的依赖关系,最后讨论正负样本不平衡、损失权重、匹配策略变化对收敛和 AP 的影响。
图像融合算法怎么实现?像素级、特征级和决策级融合分别适合什么场景?
这题考的是对图像融合任务的完整建模能力:不仅要说把多张图加权平均,还要能区分像素级、特征级和决策级融合在信息粒度、配准要求、鲁棒性、可解释性、计算代价和适用场景上的差异,并给出可落地的实现、评估和故障排查思路。
BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间?
这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路:Image-view Encoder 提取每个相机的 2D 特征,View Transformer 结合深度分布、相机内外参和数据增强矩阵,把像素特征 lift 到三维 frustum,再 splat 或 pooling 到 ego 坐标系下的 BEV 网格,最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标,不能把 View Transformer 误讲成普通 NLP Transformer。
FCOS 作为 anchor-free 目标检测算法,整体流程和正负样本分配如何设计?
这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor,而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框,以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准,不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。