已解析题目
算法工程师相关题目
Transformer 相比之前的模型为什么有这么大的提升?
Transformer 的提升主要来自 self-attention 对长距离依赖的直接建模、更强并行训练能力、多头表示学习,以及可扩展到大数据和大模型规模的结构。
MTCNN 的模型结构和训练过程是怎样的?
MTCNN 是级联式人脸检测和关键点定位框架,核心是 P-Net、R-Net、O-Net 逐级候选、筛选、精修,并用多任务损失联合训练。
VAE 中的 V 表示什么,KL 散度在 VAE 里起什么作用?
VAE 的 V 是 Variational,表示用可学习的近似后验 q(z|x) 去逼近真实后验 p(z|x)。KL 散度是 ELBO 中的正则项,约束编码得到的潜变量分布接近先验,保证隐空间连续、可采样,同时与重构项形成清晰的生成质量和分布规整取舍。
加入雷达点云作为第三模态时,3D 多模态感知如何调整表征和对齐策略?
这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。
长上下文扩展技术如 YaRN 应如何评测效果,而不只看最大上下文长度?
这题考长上下文扩展的评测方法,回答重点是不能只看最大 token 长度,还要验证检索、推理、稳定性、成本和短上下文回归。
文生 3D 任务中,Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合?
这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合,回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。
视频生成中,时序信息对齐和空间对齐哪个更重要,如何取舍?
这题考视频生成中的一致性取舍,回答要说明时序对齐和空间对齐分别解决什么、何时更重要、如何训练和评估。
从零构建 VLA 模型时,视觉、语言和动作模块应如何设计?
这题考从零设计 Vision-Language-Action 模型的系统拆解,重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。
VLA 模型和世界模型有什么区别,VLA+RL 适合哪些具身智能场景?
这题考 VLA、世界模型和强化学习在具身智能中的边界,回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。
3D 语义分割评测中,mIoU 与 Chamfer Distance 分别衡量什么,什么时候该用哪个?
这题考候选人能否把 3D 语义标签质量和几何形状质量分开评估:mIoU 是分割主指标,Chamfer Distance 更适合几何重建、补全或对齐质量。
视觉 Transformer 处理非均匀采样 3D 点云时,Patch Embedding 应如何改进?
这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时,如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer,而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。
多模态模型中跨模态注意力机制如何设计,如何举例说明不同模态 token 的对齐和融合?
这题考多模态 Transformer 中跨模态注意力的设计能力。好的回答要讲清楚不同模态 token 如何产生、如何注入位置和类型信息、如何做 cross-attention 或 co-attention、如何处理长度差异和噪声、如何训练对齐,并用图文例子说明文字 token 通过 query 关注图像 patch 或 object token,从而把语义、空间位置和细粒度属性融合起来。
文生图模型的核心框架如何设计,文本编码器、生成主干和图像解码器如何协同?
这题考文生图模型的整体框架理解。好的回答要讲清楚文本编码器把 prompt 变成条件表示,生成主干通常在像素或 latent 空间逐步生成图像,图像解码器把 latent 还原为像素;同时要说明 cross-attention、扩散噪声预测、时间步条件、classifier-free guidance、VAE 编解码、训练损失和推理采样如何协同。
BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?
这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。
NLP 中 EDA 数据增强有哪些操作,什么时候会伤害语义和标签一致性?
这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值;对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务,盲目增强会制造噪声标签,导致验证和线上效果变差。
mask attention是如何实现的?
Mask attention 的核心是在计算 attention 权重前,对不允许关注的位置加上一个极小值,使这些位置经过 softmax 后权重接近 0。它常用于因果语言建模、padding 屏蔽、局部注意力和结构化可见性约束。
同题还出现在 1 个公司岗位