公司岗位题库

小米 算法面经

16 道题 13 个标签 16 条出现记录

算法工程师相关题目

多模态模型中跨模态注意力机制如何设计,如何举例说明不同模态 token 的对齐和融合?

这题考多模态 Transformer 中跨模态注意力的设计能力。好的回答要讲清楚不同模态 token 如何产生、如何注入位置和类型信息、如何做 cross-attention 或 co-attention、如何处理长度差异和噪声、如何训练对齐,并用图文例子说明文字 token 通过 query 关注图像 patch 或 object token,从而把语义、空间位置和细粒度属性融合起来。

文生图模型的核心框架如何设计,文本编码器、生成主干和图像解码器如何协同?

这题考文生图模型的整体框架理解。好的回答要讲清楚文本编码器把 prompt 变成条件表示,生成主干通常在像素或 latent 空间逐步生成图像,图像解码器把 latent 还原为像素;同时要说明 cross-attention、扩散噪声预测、时间步条件、classifier-free guidance、VAE 编解码、训练损失和推理采样如何协同。

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。