大语言模型面试题解析第 7 页

LLM 推理中做 KV Cache sparse 计算时，vLLM/Triton 实现为什么可能选择稀疏索引或稀疏块，而不是直接用 dense mask？

这题考的是稀疏注意力在推理引擎里的真实性能取舍。dense mask 在数学上能表达稀疏模式，但计算和访存仍接近 dense attention；而稀疏索引或稀疏块能让 kernel 只读取和计算被选中的 KV cache，从而节省显存带宽、减少无效 FLOPs，并更适合 vLLM 这类分页 KV 和 Triton 块级并行实现。

大语言模型大模型推理 vLLM KV Cache CUDA GPU

SmoothQuant 为什么要做 activation/weight 平滑？平滑参数如何设定，用激活分布判断模型是否适合时应关注 input channel 还是 output channel？

这道题考察对 SmoothQuant 的核心动机、等价变换和校准维度的理解。回答时要先说明 LLM 的激活 outlier 会让 INT8 activation 量化特别困难，而 SmoothQuant 通过按输入通道缩放，把一部分动态范围压力从 activation 平滑地迁移到 weight 上，从而让 W8A8 推理更稳定。关键点不是笼统地说做归一化，而是说明缩放不改变浮点计算语义、参数需要用校准集和逐层误差选择，并明确判断激活分布时主要看线性层的 input channel 维度。

大语言模型大模型推理模型训练模型评估 GPU 性能排查

AWQ 和 GPTQ 的量化原理有什么区别？在 LLM 推理部署中它们各自适合什么取舍？

这道题要求区分 AWQ 和 GPTQ 都是大模型后训练量化方法，但优化目标和工程取舍不同。GPTQ 更像基于二阶近似的逐块权重量化误差补偿，利用校准激活构造 Hessian 近似来最小化层输出重构误差；AWQ 则强调 activation-aware 的显著权重保护，通过观察激活通道重要性和缩放搜索减少关键通道误差。好的回答要能讲清原理差异、校准成本、精度与速度、kernel 适配、以及在 LLM 推理部署中的选择标准。

大语言模型大模型推理模型评估 GPU 性能排查

分布式 LLM 训练中 AllReduce、AllGather、ReduceScatter 和 AllToAll 分别解决什么通信问题，哪些并行场景会用到它们？

这道题考察分布式训练中 collective communication 的语义和并行策略映射。回答要先把 AllReduce、AllGather、ReduceScatter、AllToAll 的输入输出关系讲清，再说明它们分别解决梯度汇总、参数或激活拼接、归约后分片、个性化交换等问题。进一步要能联系数据并行、张量并行、ZeRO/FSDP、序列并行、专家并行和 MoE token dispatch，指出通信量、同步开销、拓扑和 overlap 对训练效率的影响。

大语言模型模型训练分布式系统 GPU CUDA 性能排查

如何根据模型参数量、训练 token 数、FLOPs、GPU 数量和硬件利用率估算 LLM 训练时间？

这道题考察能否把 LLM 训练时间从经验判断转成可计算的工程估算。核心公式是总训练 FLOPs 除以集群有效算力：dense decoder-only 模型可用约 6 × 参数量 × token 数估算前向加反向训练 FLOPs，再除以 GPU 数、单卡峰值 FLOPs 和硬件利用率或 MFU。好的回答还要说明单位换算、序列长度和 attention 开销、MoE active 参数、数据并行扩展效率、checkpoint/eval/restart 等 wall-clock 修正因素。

大语言模型模型训练 GPU 性能排查性能分析

LLM 训练过程中应该监控哪些指标，如何用 loss、梯度、吞吐、显存、GPU 利用率、checkpoint 和评测集发现异常？

这道题考察 LLM 训练监控体系，而不是只问 loss 曲线。完整回答要覆盖模型质量、数值稳定性、吞吐性能、资源利用、数据管道、checkpoint 可靠性和周期评测。更重要的是说明如何用这些指标定位异常：loss spike 可能来自坏数据或学习率问题，梯度爆炸会伴随 grad norm 和 NaN，吞吐下降可能来自 dataloader、通信或 straggler，显存增长可能是泄漏或碎片，评测集退化可能暴露过拟合、数据污染或训练分布偏移。

大语言模型模型训练可观测性 GPU 问题排查模型评估

LLM 预训练数据清洗中，如何结合质量模型、PPL、去重和领域规则过滤更适合模型学习的数据？

这题考的是预训练数据治理的系统性判断：不能只说按 PPL 阈值删除，也不能只依赖一个质量分类器，而要把数据规范化、质量打分、PPL 异常检测、重复样本压制、领域规则、分布保留和下游验证串成闭环，目标是在降低噪声和污染的同时保留对模型能力真正有贡献的多样知识。

大语言模型模型训练质量工程模型评估数据分析

LLM 预训练或 SFT 的数据配比如何量化评估？如何用实验、领域切片和评测指标判断一个 mixture 是否更好？

这题考的是把数据配比从经验拍脑袋变成可实验、可度量、可解释的优化问题。好的回答应覆盖目标能力定义、候选 mixture 设计、token 级采样权重、短程代理实验、领域切片评测、统计显著性、负迁移排查和 Pareto 取舍，而不是只说多放高质量数据或按业务重要性调比例。

大语言模型模型训练模型评估 SFT 质量工程

阿里巴巴 / 算法

RLHF、DPO、PPO 或 GRPO 中 reference model 起什么作用？如果不能保留完整 reference，可以用哪些替代或近似约束？

这题考的是对齐训练里 reference model 的约束本质：它不是装饰性的第二个模型，而是定义“不要偏离初始策略太远”的行为锚点。在 PPO、DPO、GRPO 等方法中，reference 通过 KL、log probability ratio 或隐式 reward 基线抑制奖励黑客、语言退化和安全边界漂移；如果不能完整保留，也要知道哪些近似能替代、哪些只能部分约束。

大语言模型 RLHF DPO 强化学习模型训练模型评估

阿里巴巴 / 后端开发

Agent 中 Function Call、MCP 和 Skill 的工具描述上下文占用有什么差异，如何降低 token 成本？

这道题考察对 Agent 工具接入方式和上下文成本的工程理解。好答案要区分 Function Call 是模型请求内的工具 schema，MCP 是客户端和外部工具服务器之间的协议，Skill 是把说明、脚本和资源按能力打包并按需加载的机制。回答不能简单说 MCP 一定比 Skill 大，而要说明上下文占用取决于客户端暴露了多少工具描述、schema 是否冗长、是否做动态路由和懒加载。高质量答案还应给出降低 token 成本的方法，包括工具分层、候选工具筛选、描述压缩、结果引用、prompt caching 和按任务加载。

AI Agent 大语言模型 Prompt 工程大模型推理系统设计

蚂蚁集团 / 后端开发

Agent 的 self-refine 自我修正如何处理 API 返回字段缺失、冗余或结构不符合预期？

这道题考察 Agent 自我修正是否能和工程化 API 契约治理结合起来。好答案不能把 self-refine 说成让模型再想一遍，而要说明先用确定性 schema 校验发现字段缺失、冗余字段、类型错误和结构不匹配，再根据错误类型决定丢弃、补默认值、结构化转换、重调 API、降级或交给模型生成修复计划。边界是不能让模型凭空编造缺失事实；所有修复都要可追溯、有限重试、重新校验，并用错误率、修复成功率和幻觉字段率验证效果。

AI Agent 大语言模型工作流稳定性质量工程大模型幻觉

百度 / 算法

DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题？

这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解，而不是背算法名。好答案要先说明 GRPO 的基本形态：同一 prompt 采样一组回答，用组内相对奖励估计 advantage，减少显式 critic 需求；再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新，边界是只按公开论文和公开实现文档描述，不声称未公开训练配方，也不把不同团队的缩写含义混为确定事实。

大语言模型强化学习 RLHF 模型训练模型评估

阿里巴巴 / 算法

DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建？

这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑，而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1：前者直接从 base model 做大规模 RL，展示可验证推理奖励能诱导反思、验证和更长 CoT；后者用少量冷启动长 CoT 数据改善可读性和训练稳定性，再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL，并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容，不扩展到未公开训练细节或其它机构的具体做法。

同题还出现在 1 个公司岗位

大语言模型强化学习模型训练模型评估 RLHF

Agent 工具调用训练中，如果一个 query 有多个可用工具，如何构造样本让模型学会工具选择偏好？

这道题考察的是 Agent 工具调用训练里的偏好学习，而不是简单判断某个工具能不能用。好答案要说明：当多个工具都可完成同一 query 时，训练样本不能只保留一个正确 tool call，而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来，让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。

AI Agent 大语言模型模型训练模型微调模型评估

Agent 设计中为什么要区分自然语言对话状态和结构化执行状态，分别存什么？

这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开：前者服务于模型理解上下文、用户意图和交互语义；后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录，否则系统会难以恢复、难以测试，也容易产生幻觉状态。

Java 并发并发多线程 AI Agent 大语言模型状态管理

开发 MCP 服务时，如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性？

这道题考察的是 MCP 服务的能力建模和治理能力，而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始，定义清晰的输入输出 schema、权限和错误语义，再补上发现机制、版本兼容、超时重试、可观测性、回放和审计，保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。

计算机网络 AI Agent 大语言模型系统设计服务治理可观测性

LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择？

这道题考察微调方案选择，而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异：LoRA 冻结基座模型，只训练低秩增量矩阵；全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案，并说明如何用实验指标验证是否足够。

大语言模型模型微调模型训练 SFT

DPO、PPO、GRPO 三种对齐方法在工程上如何选择，各自适合什么反馈和决策场景？

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类：只有离线成对偏好时优先 DPO；有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO；同一 prompt 能采多条候选并用组内相对奖励比较，尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

大语言模型强化学习 RLHF DPO 模型训练模型评估

阿里巴巴 / C/C++

vLLM 和 SGLang 在 LLM 推理引擎中分别解决什么问题，如何从 PagedAttention、前缀复用和请求调度角度比较？

这题考 LLM 推理引擎的系统理解，而不是问两个项目谁更快。好答案要说明 vLLM 的核心公共概念是提升 serving 吞吐和显存利用率，典型抓手包括 PagedAttention、KV cache 分页管理、continuous batching 和 prefix caching；SGLang 更强调面向复杂 LLM 应用的编程/运行时，围绕结构化生成、多轮/多调用流程、前缀复用、调度和缓存优化降低复杂请求的执行成本。比较时要从 KV 管理、前缀复用、请求调度、结构化输出、内存压力和 workload fit 讲边界，避免虚构版本特性。

大模型推理 vLLM 大语言模型性能排查 KV Cache GPU

阿里巴巴 / C/C++

Qwen 各代模型结构演进通常体现在哪些方面，如何从注意力结构、长上下文、多模态能力和推理效率回答？

这题考的是能否用公开模型家族演进的视角解释 Qwen 结构变化，而不是背某一代的内部参数。好的回答应按 Transformer 基座、注意力与 KV Cache、长上下文扩展、多模态接入、训练与推理效率几个维度展开，并说明这些变化分别解决吞吐、上下文长度、跨模态理解和部署成本问题。

通义千问大语言模型 Transformer 注意力机制大模型推理

快手 / C/C++

大模型后训练投入成本如何决策，怎样用效果收益、训练成本、推理成本和风险指标做取舍？

这题考的是大模型后训练的工程 ROI 判断。好答案不能只说效果好就继续训，而要把收益、训练成本、推理成本、数据和安全风险放到同一张决策表里，用离线评测、线上指标、成本模型和风险阈值决定做 SFT、DPO/RL、数据修复、提示词优化、RAG、蒸馏还是不做。

大语言模型模型训练模型评估大模型推理性能排查

Transformer 注意力机制 Embedding 大语言模型

Transformer 为什么使用正弦/余弦位置编码，相比可学习位置向量有哪些好处和局限？

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序，再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质，同时承认固定绝对位置编码不等于长上下文能力，现代模型常用 RoPE、ALiBi 或相对位置方法。

小米 / 算法

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat？

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加，是为了把词义、句子归属和位置注入同一个 hidden space，保持后续 Transformer 维度、参数量和残差结构稳定；concat 虽然看似保留边界，但会放大后续 Q/K/V、FFN 参数和推理成本，通常收益不明确。

Transformer Embedding 大语言模型神经网络

字节跳动 / 客户端

大语言模型的参数量具体指什么，如何估算一个 Transformer Block 的参数规模？

这道题考察模型参数量的数量级推导能力。参数量是可训练权重标量的数量，不等于显存、FLOPs 或上下文长度。好答案要能用 hidden size、FFN 中间维度、层数、词表大小估算一个 Transformer block，并说明 GQA/MQA、SwiGLU、MoE、权重共享、LoRA 和量化对成本含义的影响。

大语言模型 Transformer 神经网络模型训练性能排查

美团 / 后端开发

RAG 和 Embedding 分别是什么，在大模型应用中各自解决什么问题？

这道题看似是定义题，实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量，RAG 是检索增强生成架构；RAG 常用 embedding 做召回，但不等于向量库加大模型，还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

RAG Embedding 大语言模型向量数据库 AI Agent

Cider / 算法

如何设计 AI 模型调用缓存，避免相同输入重复推理，同时控制一致性、过期和成本？

这道题考 AI 服务缓存设计。重点是缓存边界、key 设计、模型版本、prompt 参数、语义相似缓存、过期策略、隐私隔离和命中率评估。

缓存优化大语言模型系统设计稳定性

垂类大模型从通用模型到业务落地通常要经历哪些训练和迭代步骤？

垂类大模型不是把通用模型直接接入业务就结束，而是从业务任务定义、领域数据建设、模型适配训练、评测 badcase、灰度上线到反馈闭环的一整套工程化迭代。本题聚焦完整训练和落地链路，不是产品经理个人贡献分工。

AI 产品大语言模型模型训练模型评估产品管理

大模型的“大”体现在哪些方面，如何从参数、数据、算力、上下文和能力边界理解？

大模型的“大”不能只理解为参数多，还包括训练数据规模和多样性、算力投入、上下文窗口、推理成本、多模态能力和复杂任务能力边界。规模扩大通常提升表示能力、泛化能力和复杂任务处理能力，但效果仍依赖数据质量、训练方法、对齐方式和任务分布。

AI 产品大语言模型模型训练产品管理

什么业务适合用大模型，什么业务更适合用小模型，如何按复杂度、成本、延迟和风险做选型？

大模型和小模型选型不是按技术先进程度决定，而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型；标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。

AI 产品大语言模型大模型推理模型评估产品管理

DPO 是什么，和 SFT 在训练目标、数据形式和适用阶段上有什么区别？

SFT 和 DPO 都用于大模型训练后的对齐阶段，但目标不同。SFT 是让模型学习应该怎么回答的示范答案，DPO 是让模型学习同一问题下更偏好哪一个回答。SFT 更偏能力和格式学习，DPO 更偏偏好对齐、风格控制和质量排序。

同题还出现在 1 个公司岗位

大语言模型模型微调 DPO SFT AI 产品

RAG 产品出现 badcase 时，如何从知识库、检索、生成和反馈闭环提高效果？

RAG badcase 优化不能只调 Prompt，而要把问题拆成知识、检索、生成、反馈四层定位：先按严重度和归因分类，再用日志还原证据链，最后通过知识治理、召回重排、上下文组织、生成约束和用户反馈回流形成持续迭代闭环。

AI 产品产品管理 RAG 模型评估产品指标大语言模型

大模型时代，小模型还有哪些价值，如何在效果、成本和延迟之间取舍？

大模型时代小模型仍然有价值，尤其在低延迟、低成本、高并发、端侧部署、隐私保护和专用任务上。合理方案通常不是二选一，而是用小模型承担高频、确定、轻量任务，用大模型处理复杂、开放、低置信或需要强推理的请求。

大语言模型大模型推理模型评估性能排查模型训练

Agent 中输入特征和记忆模块有什么区别，如何分别建模当前请求状态和跨轮上下文？

Agent 的输入特征描述当前请求状态，记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标：输入特征偏实时、短暂、结构化，记忆偏持久、可检索、需要治理。

AI Agent 大语言模型状态管理特征工程模型评估

滴滴 / 算法

大模型微调时，7B 和 70B 模型的学习率应如何设置，为什么模型规模会影响学习率选择？

大模型微调时，70B 通常要比 7B 使用更保守的学习率，因为大模型参数多、预训练能力强、对分布扰动更敏感，过大学习率更容易导致灾难性遗忘、loss 震荡和能力退化。但这不是绝对规则，还要区分全参微调、LoRA、数据规模、batch size、warmup、scheduler 和任务差异。

大语言模型模型微调模型训练 SFT

华为 / 算法

常见预训练模型可以如何分类？它们在架构、训练目标和适用任务上有什么差别？

常见预训练模型可以按架构分为 encoder-only、decoder-only、encoder-decoder，以及对比学习或多模态模型。核心差别来自信息流方向、训练目标和下游任务形态：BERT 类 encoder 更适合理解、分类、抽取；GPT 类 decoder 更适合生成和对话；T5/BART 类 encoder-decoder 更适合输入到输出的转换；CLIP 等对比学习模型更适合检索、匹配和跨模态对齐。

模型训练大语言模型 Transformer Encoder-Decoder

大模型产品中的知识库主要适合哪些应用场景，如何判断是否值得建设？

大模型产品中的知识库最适合解决高频、相对稳定、需要权威来源、可追溯引用的知识问答问题，例如客服问答、内部制度查询、SOP 操作指导、销售培训、产品手册和员工自助服务。判断是否值得建设，关键看知识是否结构化可维护、用户问题是否高频重复、答案是否需要一致和合规，以及上线后能否用命中率、解决率、转人工率、引用准确率和幻觉率来验证价值。

AI 产品产品管理大语言模型 RAG 产品指标模型评估