已解析题目
算法工程师相关题目
大模型预测token的损失是怎么算的?
大模型预测 token 的损失通常是自回归 next-token 交叉熵。训练时用 teacher forcing,把真实前缀作为上下文,模型在每个位置输出词表 logits,经 softmax 得到下一个 token 的概率,再对真实 token 取负对数似然,最后在有效 token 上求平均或求和。
XGBoost 的特征重要性是如何得到的?
XGBoost 特征重要性通常来自树分裂统计,例如 split 次数、带来的增益和覆盖样本量。回答要说明这些指标的含义和偏差。
基于值函数和基于策略梯度的 RL 算法有什么区别,分别适合什么场景?
基于值函数和基于策略梯度的 RL 方法区别在于前者学习状态或动作价值再间接选动作,后者直接优化参数化策略。
模型在线训练和离线训练有什么区别?
在线训练和离线训练的区别在于数据更新频率、训练时效、系统复杂度和稳定性要求;推荐场景常用离线主模型加在线增量或实时特征的混合方案。
XGBoost 如何处理缺失值,为什么目标函数要二阶展开?
这题聚焦 XGBoost 两个核心机制:缺失值通过学习默认分裂方向处理,二阶展开用梯度和 Hessian 近似目标函数以高效评估分裂收益。
CVR 建模遇到转化回传延时高时怎么处理,CTR/CVR 的特征和模型结构有什么不同?
这道题考察广告 CVR 的延迟反馈和任务差异。回答要先说明 CVR 标签更稀疏、更延迟、更受点击选择偏差影响,再给出标签窗口、样本成熟、延迟建模、回填训练和离线评估的完整处理方式。
从 MHA 到 MLA,注意力机制为什么要改进,DeepSeek MLA 解决什么问题?
这题考注意力机制从效果优先到推理效率优先的演进,重点是 KV cache 压力、MHA/MQA/GQA/MLA 的取舍和工程评估。
同题还出现在 1 个公司岗位
MoE 一般加在大模型哪里,从训练和推理角度有什么收益与代价?
这题考 LLM MoE 的位置和训练推理取舍,回答要讲清 FFN 专家、router、稀疏激活、负载均衡和服务成本。
同题还出现在 1 个公司岗位
PagedAttention 如何改善 LLM 长上下文推理的 KV Cache 管理?
这题考 PagedAttention 如何改善长上下文 LLM 推理中的 KV Cache 管理,回答重点是块化分页、减少碎片、支持连续批处理和提升显存利用率。
同题还出现在 1 个公司岗位
向量检索中 IVF_FLAT 和 HNSW 有什么区别,如何按召回率、延迟和内存选型?
这题考向量检索索引选型,回答重点是 IVF_FLAT 的聚类倒排思想、HNSW 的近邻图搜索思想,以及召回、延迟、内存、构建和更新成本的权衡。
同题还出现在 1 个公司岗位
LLM 多卡并行推理中,显存占用和通信开销如何影响吞吐与延迟?
这题考 LLM 多卡并行推理的性能瓶颈,回答重点是权重显存、KV Cache、prefill/decode 差异、并行切分通信、批处理调度和长尾延迟。
LLM 流式输出如何设计断点续传、停止生成和 Token 计费?
这题考 LLM 流式输出的服务端语义设计,回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。
同题还出现在 1 个公司岗位
Agent 沙箱中承载 Skill 时,如何避免工具调用幻觉和多工具切换混乱?
这题考 Agent 沙箱中 Skill 的可靠调用,回答重点是能力声明、工具选择约束、沙箱权限、调用确认、错误恢复和防止模型编造工具能力。
Agent Memory 为什么不能简单塞进 Prompt,渐进式披露如何减少上下文污染?
这题考 Agent Memory 的上下文污染控制,回答重点是为什么不能把全部记忆塞进 Prompt,以及如何通过渐进式披露按任务阶段加载必要记忆。
同题还出现在 1 个公司岗位
Agent 沙箱运行上下文如何封装用户配置、能力定义和可执行工具?
这题考 Agent 沙箱运行上下文的封装方式,回答重点是用户配置、能力定义、权限边界、可执行工具、工作目录、环境变量和可观测状态如何统一管理。
同题还出现在 1 个公司岗位
LLM 推理中做 KV Cache sparse 计算时,vLLM/Triton 实现为什么可能选择稀疏索引或稀疏块,而不是直接用 dense mask?
这题考的是稀疏注意力在推理引擎里的真实性能取舍。dense mask 在数学上能表达稀疏模式,但计算和访存仍接近 dense attention;而稀疏索引或稀疏块能让 kernel 只读取和计算被选中的 KV cache,从而节省显存带宽、减少无效 FLOPs,并更适合 vLLM 这类分页 KV 和 Triton 块级并行实现。
SmoothQuant 为什么要做 activation/weight 平滑?平滑参数如何设定,用激活分布判断模型是否适合时应关注 input channel 还是 output channel?
这道题考察对 SmoothQuant 的核心动机、等价变换和校准维度的理解。回答时要先说明 LLM 的激活 outlier 会让 INT8 activation 量化特别困难,而 SmoothQuant 通过按输入通道缩放,把一部分动态范围压力从 activation 平滑地迁移到 weight 上,从而让 W8A8 推理更稳定。关键点不是笼统地说做归一化,而是说明缩放不改变浮点计算语义、参数需要用校准集和逐层误差选择,并明确判断激活分布时主要看线性层的 input channel 维度。
AWQ 和 GPTQ 的量化原理有什么区别?在 LLM 推理部署中它们各自适合什么取舍?
这道题要求区分 AWQ 和 GPTQ 都是大模型后训练量化方法,但优化目标和工程取舍不同。GPTQ 更像基于二阶近似的逐块权重量化误差补偿,利用校准激活构造 Hessian 近似来最小化层输出重构误差;AWQ 则强调 activation-aware 的显著权重保护,通过观察激活通道重要性和缩放搜索减少关键通道误差。好的回答要能讲清原理差异、校准成本、精度与速度、kernel 适配、以及在 LLM 推理部署中的选择标准。
分布式 LLM 训练中 AllReduce、AllGather、ReduceScatter 和 AllToAll 分别解决什么通信问题,哪些并行场景会用到它们?
这道题考察分布式训练中 collective communication 的语义和并行策略映射。回答要先把 AllReduce、AllGather、ReduceScatter、AllToAll 的输入输出关系讲清,再说明它们分别解决梯度汇总、参数或激活拼接、归约后分片、个性化交换等问题。进一步要能联系数据并行、张量并行、ZeRO/FSDP、序列并行、专家并行和 MoE token dispatch,指出通信量、同步开销、拓扑和 overlap 对训练效率的影响。
大模型训练显存如何估算,参数、梯度、优化器状态、激活和临时缓存各占哪些部分?
大模型训练显存可以先拆成 model states、activations、temporary buffers、通信缓存和碎片/框架开销。model states 包括参数、梯度和优化器状态;以 Adam 混合精度训练为例,常见粗估是参数 bf16/fp16 2P、梯度 2P、Adam 一阶和二阶矩 fp32 8P、可选 fp32 master weights 4P,总计约 12P 到 16P bytes。除此之外,activation 随 batch、sequence length、hidden size 和层数增长,长上下文 attention 还可能带来平方项;临时缓存包括 attention workspace、GEMM workspace、logits、通信 bucket、all-gather buffer 和内存碎片。估算时要同时考虑并行策略、ZeRO 分片、activation checkpointing、精度和 micro-batch。
同题还出现在 1 个公司岗位
接手一个未量化的大模型时,如何推进量化方案选择、校准、精度评估和推理性能迭代?
这题考未量化大模型的量化 rollout 方法论,重点是从部署目标、量化范围、校准集、kernel 支持、质量回归、性能收益到灰度回滚形成闭环,而不是背几个量化名词。
同题还出现在 1 个公司岗位
单机多卡和多机多卡训练的核心差异是什么,如何根据互联拓扑、通信开销和并行策略做选择?
这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数,而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。
同题还出现在 1 个公司岗位
怎么加速模型训练?
加速模型训练要从数据、模型、计算、分布式和实验流程五层回答。核心不是简单说“加 GPU”,而是减少无效计算、提高硬件利用率、降低通信成本,并保证加速后模型效果和可复现性不被破坏。
同题还出现在 1 个公司岗位
大模型时代,小模型还有哪些价值,如何在效果、成本和延迟之间取舍?
大模型时代小模型仍然有价值,尤其在低延迟、低成本、高并发、端侧部署、隐私保护和专用任务上。合理方案通常不是二选一,而是用小模型承担高频、确定、轻量任务,用大模型处理复杂、开放、低置信或需要强推理的请求。
Chain-of-Thought 为什么能提升复杂推理任务表现,它的收益、风险和生产可控性如何理解?
这题考 Chain-of-Thought 的机制理解:它通过显式或隐式中间步骤降低复杂任务的一次性求解难度,但上线时要控制答案暴露、成本、稳定性和可验证性。
同题还出现在 1 个公司岗位
SIM 在推荐系统长序列兴趣建模中改进了什么问题?
这题考推荐系统长序列兴趣建模的核心矛盾。SIM 改进的问题不是多任务学习本身,而是传统 DIN/DIEN 等模型通常只能使用较短历史行为,直接建模超长序列又计算重、噪声多、目标相关性弱。
短视频推荐精排模型上线时,如何在冷启动和热启动之间取舍,并评估收敛周期、资源消耗和线上风险?
这道题考察推荐精排模型上线方式选择。回答要区分冷启动全新训练和热启动继承已有模型,并围绕收敛、资源、线上风险、灰度和回滚制定方案。
在电商推荐在线 serving 链路中,如何优化精排模型推理计算,并用 RT/P99、QPS、资源成本和线上指标验证收益?
这道题考察推荐在线 serving 中精排推理优化的工程能力。回答要同时覆盖模型、特征、服务、硬件和评估,不应只说压缩模型或加机器。
多模态大模型如何支持动态分辨率输入,位置编码应如何设计以兼顾长宽比、局部细节和视觉 token 成本?
这题考 VLM 视觉输入工程。回答要讲动态分辨率切分、视觉 token 预算、位置编码、长宽比保留、局部细节和训练推理一致性。