已解析题目
MiniMax相关面试题
如何手写 Beam Search,并处理候选扩展、剪枝和停止条件?
这题考如何手写 Beam Search,回答重点是维护 beam 候选、逐步扩展、按累计分数 top-k 剪枝、处理 EOS 停止并返回最优序列。
分布式 MoE 中 Gate 网络如何完成路由通信,容易出现哪些通信瓶颈?
这题考分布式 MoE 的真实执行链路,重点不是只说 Gate 选专家,而是讲清 token 路由、all-to-all dispatch、专家计算、结果回传以及负载不均带来的通信瓶颈。
当 MoE 专家数量增至上千时,如何优化路由决策延迟?
这题考 MoE 专家规模扩大后的路由扩展性,回答要把 router 计算、top-k 选择、候选专家缩小、设备映射和 dispatch 准备放在一条低延迟链路里分析。
MoE 专家数量远超过 GPU 数量时,专家调度和放置策略如何设计?
这题考专家并行的资源放置和运行时调度,回答要围绕专家驻留、冷热专家、token 分桶、负载均衡、通信拓扑和训练推理差异展开。
Soft MoE 和 Hard MoE 有什么区别,为什么工程上更常见 Hard MoE?
这题考 MoE 路由形式和工程取舍,重点是区分软混合的平滑训练优势与硬路由的稀疏计算优势,并解释为什么大模型部署更偏向 Hard MoE。
训练长文本翻译模型时,数据集应如何构建以保证上下文一致性和译文质量?
这题考开放场景下的 document-level translation 数据构建。回答重点是文档级平行语料、分段对齐、上下文窗口、术语一致性、质量过滤和长文评估。
MoE 路由中 Top-K Routing、负载均衡损失和 capacity factor 分别解决什么问题?
这题考 MoE 路由机制的核心部件:Top-K Routing 决定每个 token 激活哪些专家,负载均衡损失避免专家塌缩和热点,capacity factor 控制每个专家可接收 token 的上限。回答要把模型质量、稀疏计算、通信成本和工程稳定性连起来。
MoE 一般加在大模型哪里,从训练和推理角度有什么收益与代价?
这题考 LLM MoE 的位置和训练推理取舍,回答要讲清 FFN 专家、router、稀疏激活、负载均衡和服务成本。
同题还出现在 1 个公司岗位
手写单层 MLP 做回归或二分类时,如何实现 forward、loss、反向传播和参数更新?
这题考的是能否从零写出一个最小神经网络训练闭环:线性层、激活、任务损失、链式法则、梯度形状和参数更新。回答要同时覆盖回归和二分类,并能解释为什么回归常用 MSE,二分类常用 sigmoid + BCE,以及如何验证梯度和训练是否正确。
面向 VQA、图像描述、OCR、视频理解等多模态生成/理解任务,如何评估输出质量,并通过数据集质量控制与 GPT 辅助标注提升评测可靠性?
这题考多模态模型评测和评测集质量建设。回答要覆盖 VQA、图像描述、OCR、视频理解等任务的输出质量维度,也要讲数据集清洗、人评标注、GPT 辅助构造和裁判校准。