公司岗位题库

小米算法面经

16 道题 13 个标签 16 条出现记录

已解析题目

算法工程师相关题目

小米 / 算法

Transformer 相比之前的模型为什么有这么大的提升？

Transformer 的提升主要来自 self-attention 对长距离依赖的直接建模、更强并行训练能力、多头表示学习，以及可扩展到大数据和大模型规模的结构。

Transformer 注意力机制模型训练

小米 / 算法

MTCNN 的模型结构和训练过程是怎样的？

MTCNN 是级联式人脸检测和关键点定位框架，核心是 P-Net、R-Net、O-Net 逐级候选、筛选、精修，并用多任务损失联合训练。

计算机视觉神经网络模型训练

小米 / 算法

VAE 中的 V 表示什么，KL 散度在 VAE 里起什么作用？

VAE 的 V 是 Variational，表示用可学习的近似后验 q(z|x) 去逼近真实后验 p(z|x)。KL 散度是 ELBO 中的正则项，约束编码得到的潜变量分布接近先验，保证隐空间连续、可采样，同时与重构项形成清晰的生成质量和分布规整取舍。

神经网络模型训练统计学

小米 / 算法

加入雷达点云作为第三模态时，3D 多模态感知如何调整表征和对齐策略？

这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征，再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。

多模态学习计算机视觉 Embedding 神经网络

小米 / 算法

长上下文扩展技术如 YaRN 应如何评测效果，而不只看最大上下文长度？

这题考长上下文扩展的评测方法，回答重点是不能只看最大 token 长度，还要验证检索、推理、稳定性、成本和短上下文回归。

大语言模型 Transformer 模型评估注意力机制

小米 / 算法

文生 3D 任务中，Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合？

这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合，回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。

多模态学习计算机视觉大语言模型模型训练模型评估

小米 / 算法

视频生成中，时序信息对齐和空间对齐哪个更重要，如何取舍？

这题考视频生成中的一致性取舍，回答要说明时序对齐和空间对齐分别解决什么、何时更重要、如何训练和评估。

多模态学习计算机视觉模型评估大语言模型

小米 / 算法

从零构建 VLA 模型时，视觉、语言和动作模块应如何设计？

这题考从零设计 Vision-Language-Action 模型的系统拆解，重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。

多模态学习计算机视觉大语言模型模型训练强化学习

小米 / 算法

VLA 模型和世界模型有什么区别，VLA+RL 适合哪些具身智能场景？

这题考 VLA、世界模型和强化学习在具身智能中的边界，回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。

多模态学习强化学习模型训练大语言模型计算机视觉

小米 / 算法

3D 语义分割评测中，mIoU 与 Chamfer Distance 分别衡量什么，什么时候该用哪个？

这题考候选人能否把 3D 语义标签质量和几何形状质量分开评估：mIoU 是分割主指标，Chamfer Distance 更适合几何重建、补全或对齐质量。

计算机视觉模型评估神经网络

小米 / 算法

视觉 Transformer 处理非均匀采样 3D 点云时，Patch Embedding 应如何改进？

这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时，如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer，而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。

计算机视觉 Transformer Embedding 神经网络模型训练

小米 / 算法

多模态模型中跨模态注意力机制如何设计，如何举例说明不同模态 token 的对齐和融合？

这题考多模态 Transformer 中跨模态注意力的设计能力。好的回答要讲清楚不同模态 token 如何产生、如何注入位置和类型信息、如何做 cross-attention 或 co-attention、如何处理长度差异和噪声、如何训练对齐，并用图文例子说明文字 token 通过 query 关注图像 patch 或 object token，从而把语义、空间位置和细粒度属性融合起来。

多模态学习注意力机制 Transformer 计算机视觉大语言模型

小米 / 算法

文生图模型的核心框架如何设计，文本编码器、生成主干和图像解码器如何协同？

这题考文生图模型的整体框架理解。好的回答要讲清楚文本编码器把 prompt 变成条件表示，生成主干通常在像素或 latent 空间逐步生成图像，图像解码器把 latent 还原为像素；同时要说明 cross-attention、扩散噪声预测、时间步条件、classifier-free guidance、VAE 编解码、训练损失和推理采样如何协同。

多模态学习计算机视觉 Transformer 大语言模型模型训练

小米 / 算法

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat？

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加，是为了把词义、句子归属和位置注入同一个 hidden space，保持后续 Transformer 维度、参数量和残差结构稳定；concat 虽然看似保留边界，但会放大后续 Q/K/V、FFN 参数和推理成本，通常收益不明确。

Transformer Embedding 大语言模型神经网络

小米 / 算法

NLP 中 EDA 数据增强有哪些操作，什么时候会伤害语义和标签一致性？

这道题考察 NLP 数据增强的边界意识。EDA 的同义词替换、随机插入、交换和删除只在标签保持不变时有价值；对否定词、实体、数字、时间、领域术语、槽位和逻辑关系敏感的任务，盲目增强会制造噪声标签，导致验证和线上效果变差。

文本分类模型训练模型评估问题排查

小米 / 算法

mask attention是如何实现的？

Mask attention 的核心是在计算 attention 权重前，对不允许关注的位置加上一个极小值，使这些位置经过 softmax 后权重接近 0。它常用于因果语言建模、padding 屏蔽、局部注意力和结构化可见性约束。

同题还出现在 1 个公司岗位

大语言模型注意力机制 Transformer