知识点标签

大语言模型面试题解析第 7 页

大语言模型相关面试题解析,按真实面经题目沉淀核心机制、易错点和面试官追问。

382 道题 12 个岗位 24 个公司

大语言模型相关面试题第 7 页

多模态模型中跨模态注意力机制如何设计,如何举例说明不同模态 token 的对齐和融合?

这题考多模态 Transformer 中跨模态注意力的设计能力。好的回答要讲清楚不同模态 token 如何产生、如何注入位置和类型信息、如何做 cross-attention 或 co-attention、如何处理长度差异和噪声、如何训练对齐,并用图文例子说明文字 token 通过 query 关注图像 patch 或 object token,从而把语义、空间位置和细粒度属性融合起来。

文生图模型的核心框架如何设计,文本编码器、生成主干和图像解码器如何协同?

这题考文生图模型的整体框架理解。好的回答要讲清楚文本编码器把 prompt 变成条件表示,生成主干通常在像素或 latent 空间逐步生成图像,图像解码器把 latent 还原为像素;同时要说明 cross-attention、扩散噪声预测、时间步条件、classifier-free guidance、VAE 编解码、训练损失和推理采样如何协同。

LLM 推理中做 KV Cache sparse 计算时,vLLM/Triton 实现为什么可能选择稀疏索引或稀疏块,而不是直接用 dense mask?

这题考的是稀疏注意力在推理引擎里的真实性能取舍。dense mask 在数学上能表达稀疏模式,但计算和访存仍接近 dense attention;而稀疏索引或稀疏块能让 kernel 只读取和计算被选中的 KV cache,从而节省显存带宽、减少无效 FLOPs,并更适合 vLLM 这类分页 KV 和 Triton 块级并行实现。

SmoothQuant 为什么要做 activation/weight 平滑?平滑参数如何设定,用激活分布判断模型是否适合时应关注 input channel 还是 output channel?

这道题考察对 SmoothQuant 的核心动机、等价变换和校准维度的理解。回答时要先说明 LLM 的激活 outlier 会让 INT8 activation 量化特别困难,而 SmoothQuant 通过按输入通道缩放,把一部分动态范围压力从 activation 平滑地迁移到 weight 上,从而让 W8A8 推理更稳定。关键点不是笼统地说做归一化,而是说明缩放不改变浮点计算语义、参数需要用校准集和逐层误差选择,并明确判断激活分布时主要看线性层的 input channel 维度。

AWQ 和 GPTQ 的量化原理有什么区别?在 LLM 推理部署中它们各自适合什么取舍?

这道题要求区分 AWQ 和 GPTQ 都是大模型后训练量化方法,但优化目标和工程取舍不同。GPTQ 更像基于二阶近似的逐块权重量化误差补偿,利用校准激活构造 Hessian 近似来最小化层输出重构误差;AWQ 则强调 activation-aware 的显著权重保护,通过观察激活通道重要性和缩放搜索减少关键通道误差。好的回答要能讲清原理差异、校准成本、精度与速度、kernel 适配、以及在 LLM 推理部署中的选择标准。

分布式 LLM 训练中 AllReduce、AllGather、ReduceScatter 和 AllToAll 分别解决什么通信问题,哪些并行场景会用到它们?

这道题考察分布式训练中 collective communication 的语义和并行策略映射。回答要先把 AllReduce、AllGather、ReduceScatter、AllToAll 的输入输出关系讲清,再说明它们分别解决梯度汇总、参数或激活拼接、归约后分片、个性化交换等问题。进一步要能联系数据并行、张量并行、ZeRO/FSDP、序列并行、专家并行和 MoE token dispatch,指出通信量、同步开销、拓扑和 overlap 对训练效率的影响。

如何根据模型参数量、训练 token 数、FLOPs、GPU 数量和硬件利用率估算 LLM 训练时间?

这道题考察能否把 LLM 训练时间从经验判断转成可计算的工程估算。核心公式是总训练 FLOPs 除以集群有效算力:dense decoder-only 模型可用约 6 × 参数量 × token 数估算前向加反向训练 FLOPs,再除以 GPU 数、单卡峰值 FLOPs 和硬件利用率或 MFU。好的回答还要说明单位换算、序列长度和 attention 开销、MoE active 参数、数据并行扩展效率、checkpoint/eval/restart 等 wall-clock 修正因素。

LLM 训练过程中应该监控哪些指标,如何用 loss、梯度、吞吐、显存、GPU 利用率、checkpoint 和评测集发现异常?

这道题考察 LLM 训练监控体系,而不是只问 loss 曲线。完整回答要覆盖模型质量、数值稳定性、吞吐性能、资源利用、数据管道、checkpoint 可靠性和周期评测。更重要的是说明如何用这些指标定位异常:loss spike 可能来自坏数据或学习率问题,梯度爆炸会伴随 grad norm 和 NaN,吞吐下降可能来自 dataloader、通信或 straggler,显存增长可能是泄漏或碎片,评测集退化可能暴露过拟合、数据污染或训练分布偏移。

LLM 预训练数据清洗中,如何结合质量模型、PPL、去重和领域规则过滤更适合模型学习的数据?

这题考的是预训练数据治理的系统性判断:不能只说按 PPL 阈值删除,也不能只依赖一个质量分类器,而要把数据规范化、质量打分、PPL 异常检测、重复样本压制、领域规则、分布保留和下游验证串成闭环,目标是在降低噪声和污染的同时保留对模型能力真正有贡献的多样知识。

LLM 预训练或 SFT 的数据配比如何量化评估?如何用实验、领域切片和评测指标判断一个 mixture 是否更好?

这题考的是把数据配比从经验拍脑袋变成可实验、可度量、可解释的优化问题。好的回答应覆盖目标能力定义、候选 mixture 设计、token 级采样权重、短程代理实验、领域切片评测、统计显著性、负迁移排查和 Pareto 取舍,而不是只说多放高质量数据或按业务重要性调比例。

RLHF、DPO、PPO 或 GRPO 中 reference model 起什么作用?如果不能保留完整 reference,可以用哪些替代或近似约束?

这题考的是对齐训练里 reference model 的约束本质:它不是装饰性的第二个模型,而是定义“不要偏离初始策略太远”的行为锚点。在 PPO、DPO、GRPO 等方法中,reference 通过 KL、log probability ratio 或隐式 reward 基线抑制奖励黑客、语言退化和安全边界漂移;如果不能完整保留,也要知道哪些近似能替代、哪些只能部分约束。

Agent 中 Function Call、MCP 和 Skill 的工具描述上下文占用有什么差异,如何降低 token 成本?

这道题考察对 Agent 工具接入方式和上下文成本的工程理解。好答案要区分 Function Call 是模型请求内的工具 schema,MCP 是客户端和外部工具服务器之间的协议,Skill 是把说明、脚本和资源按能力打包并按需加载的机制。回答不能简单说 MCP 一定比 Skill 大,而要说明上下文占用取决于客户端暴露了多少工具描述、schema 是否冗长、是否做动态路由和懒加载。高质量答案还应给出降低 token 成本的方法,包括工具分层、候选工具筛选、描述压缩、结果引用、prompt caching 和按任务加载。

Agent 的 self-refine 自我修正如何处理 API 返回字段缺失、冗余或结构不符合预期?

这道题考察 Agent 自我修正是否能和工程化 API 契约治理结合起来。好答案不能把 self-refine 说成让模型再想一遍,而要说明先用确定性 schema 校验发现字段缺失、冗余字段、类型错误和结构不匹配,再根据错误类型决定丢弃、补默认值、结构化转换、重调 API、降级或交给模型生成修复计划。边界是不能让模型凭空编造缺失事实;所有修复都要可追溯、有限重试、重新校验,并用错误率、修复成功率和幻觉字段率验证效果。

DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?

这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。

DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建?

这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑,而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1:前者直接从 base model 做大规模 RL,展示可验证推理奖励能诱导反思、验证和更长 CoT;后者用少量冷启动长 CoT 数据改善可读性和训练稳定性,再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL,并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容,不扩展到未公开训练细节或其它机构的具体做法。

同题还出现在 1 个公司岗位

Agent 工具调用训练中,如果一个 query 有多个可用工具,如何构造样本让模型学会工具选择偏好?

这道题考察的是 Agent 工具调用训练里的偏好学习,而不是简单判断某个工具能不能用。好答案要说明:当多个工具都可完成同一 query 时,训练样本不能只保留一个正确 tool call,而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来,让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。

Agent 设计中为什么要区分自然语言对话状态和结构化执行状态,分别存什么?

这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开:前者服务于模型理解上下文、用户意图和交互语义;后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录,否则系统会难以恢复、难以测试,也容易产生幻觉状态。

开发 MCP 服务时,如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性?

这道题考察的是 MCP 服务的能力建模和治理能力,而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始,定义清晰的输入输出 schema、权限和错误语义,再补上发现机制、版本兼容、超时重试、可观测性、回放和审计,保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。

LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择?

这道题考察微调方案选择,而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异:LoRA 冻结基座模型,只训练低秩增量矩阵;全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案,并说明如何用实验指标验证是否足够。

DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

vLLM 和 SGLang 在 LLM 推理引擎中分别解决什么问题,如何从 PagedAttention、前缀复用和请求调度角度比较?

这题考 LLM 推理引擎的系统理解,而不是问两个项目谁更快。好答案要说明 vLLM 的核心公共概念是提升 serving 吞吐和显存利用率,典型抓手包括 PagedAttention、KV cache 分页管理、continuous batching 和 prefix caching;SGLang 更强调面向复杂 LLM 应用的编程/运行时,围绕结构化生成、多轮/多调用流程、前缀复用、调度和缓存优化降低复杂请求的执行成本。比较时要从 KV 管理、前缀复用、请求调度、结构化输出、内存压力和 workload fit 讲边界,避免虚构版本特性。

Qwen 各代模型结构演进通常体现在哪些方面,如何从注意力结构、长上下文、多模态能力和推理效率回答?

这题考的是能否用公开模型家族演进的视角解释 Qwen 结构变化,而不是背某一代的内部参数。好的回答应按 Transformer 基座、注意力与 KV Cache、长上下文扩展、多模态接入、训练与推理效率几个维度展开,并说明这些变化分别解决吞吐、上下文长度、跨模态理解和部署成本问题。

大模型后训练投入成本如何决策,怎样用效果收益、训练成本、推理成本和风险指标做取舍?

这题考的是大模型后训练的工程 ROI 判断。好答案不能只说效果好就继续训,而要把收益、训练成本、推理成本、数据和安全风险放到同一张决策表里,用离线评测、线上指标、成本模型和风险阈值决定做 SFT、DPO/RL、数据修复、提示词优化、RAG、蒸馏还是不做。

Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。

大语言模型的参数量具体指什么,如何估算一个 Transformer Block 的参数规模?

这道题考察模型参数量的数量级推导能力。参数量是可训练权重标量的数量,不等于显存、FLOPs 或上下文长度。好答案要能用 hidden size、FFN 中间维度、层数、词表大小估算一个 Transformer block,并说明 GQA/MQA、SwiGLU、MoE、权重共享、LoRA 和量化对成本含义的影响。

RAG 和 Embedding 分别是什么,在大模型应用中各自解决什么问题?

这道题看似是定义题,实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量,RAG 是检索增强生成架构;RAG 常用 embedding 做召回,但不等于向量库加大模型,还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

大模型的“大”体现在哪些方面,如何从参数、数据、算力、上下文和能力边界理解?

大模型的“大”不能只理解为参数多,还包括训练数据规模和多样性、算力投入、上下文窗口、推理成本、多模态能力和复杂任务能力边界。规模扩大通常提升表示能力、泛化能力和复杂任务处理能力,但效果仍依赖数据质量、训练方法、对齐方式和任务分布。

什么业务适合用大模型,什么业务更适合用小模型,如何按复杂度、成本、延迟和风险做选型?

大模型和小模型选型不是按技术先进程度决定,而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型;标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。

大模型微调时,7B 和 70B 模型的学习率应如何设置,为什么模型规模会影响学习率选择?

大模型微调时,70B 通常要比 7B 使用更保守的学习率,因为大模型参数多、预训练能力强、对分布扰动更敏感,过大学习率更容易导致灾难性遗忘、loss 震荡和能力退化。但这不是绝对规则,还要区分全参微调、LoRA、数据规模、batch size、warmup、scheduler 和任务差异。

常见预训练模型可以如何分类?它们在架构、训练目标和适用任务上有什么差别?

常见预训练模型可以按架构分为 encoder-only、decoder-only、encoder-decoder,以及对比学习或多模态模型。核心差别来自信息流方向、训练目标和下游任务形态:BERT 类 encoder 更适合理解、分类、抽取;GPT 类 decoder 更适合生成和对话;T5/BART 类 encoder-decoder 更适合输入到输出的转换;CLIP 等对比学习模型更适合检索、匹配和跨模态对齐。

大模型产品中的知识库主要适合哪些应用场景,如何判断是否值得建设?

大模型产品中的知识库最适合解决高频、相对稳定、需要权威来源、可追溯引用的知识问答问题,例如客服问答、内部制度查询、SOP 操作指导、销售培训、产品手册和员工自助服务。判断是否值得建设,关键看知识是否结构化可维护、用户问题是否高频重复、答案是否需要一致和合规,以及上线后能否用命中率、解决率、转人工率、引用准确率和幻觉率来验证价值。

垂类大模型主要解决哪些通用大模型难以满足的业务问题,产品上如何判断投入价值?

垂类大模型主要解决通用大模型在特定行业里准确性不足、术语理解不深、流程规则不熟、合规约束不稳定、输出一致性不够的问题。产品上判断是否值得投入,不能只看模型效果,而要综合领域知识密度、错误成本、数据闭环、评测集、替代方案、ROI、成本、延迟和上线风险。

如果要设计蚂蚁金服内部自动客服系统,如何定义用户场景、能力边界、流程和评估指标?

这题考 AI 产品经理能否把内部自动客服设计成企业级系统。要先明确内部员工、运营、技术支持等场景,再设计知识、权限、工单、模型回答、人工升级和质检闭环,并用解决率、准确率、转人工率、时效、满意度和风险指标验收。

Agent 开发框架通常由哪些核心组件组成,Planner、Memory、Tools、Executor 和 Evaluator 分别负责什么?

这题考察候选人是否能把 Agent 从“调用大模型的应用”拆成可工程化的运行系统。好的回答应说明 Planner 负责把目标拆成步骤,Memory 负责保留和检索上下文,Tools 负责连接外部能力,Executor 负责按计划执行并处理状态,Evaluator 负责判断结果质量和是否需要重试、修正或终止。重点不是背组件名,而是讲清楚组件之间的数据流、控制流、失败兜底和可观测性。

知识卡片抽取 Prompt 中为什么要同时写好示例和坏示例,如何用正反 few-shot 稳定结构化输出?

这题考察 Prompt Engineering 在结构化抽取任务中的设计能力。知识卡片抽取不是泛泛总结,而是把原始内容稳定映射到字段、格式和质量标准。好示例告诉模型什么是合格输出,坏示例和反例告诉模型哪些边界、误抽、过度概括和格式错误不能接受。优秀回答应覆盖 schema 约束、正反 few-shot、错误类型、评估指标和迭代方法。

Agent Skill 如何用渐进式披露按需加载能力说明、执行步骤和工具细节?

这题考察 Agent Skill 的核心机制,以及如何通过渐进式披露降低上下文负担。Skill 不是简单工具函数,而是一组可被 Agent 发现、选择和执行的能力包,通常包含能力说明、适用条件、输入输出、执行步骤、工具依赖和失败处理。渐进式披露的关键是先暴露轻量索引和选择信号,只有命中时再加载详细说明、示例和执行细节。

大模型 SFT 从数据构建到训练通常怎么做,SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题?

这题考察候选人是否真正理解大模型对齐训练链路,而不是只会背 SFT、DPO、RLHF 这些名词。好的回答要先讲 SFT 的数据构建、清洗、格式化、训练和评估流程,再解释 SFT 主要让模型学会按指令输出,DPO/RLHF/PPO 等 Post-Training 进一步处理偏好对齐、安全边界、复杂任务奖励和人类反馈优化。面试重点是区分每个阶段解决的问题、依赖的数据形态和带来的风险。

AI 服务中的多模型降级与熔断机制如何设计,怎样定义异常、状态流转和自动恢复条件?

这题考察 AI 服务后端的稳定性设计。多模型降级和熔断不是简单把模型 A 挂了切到模型 B,而要定义异常、统计窗口、状态机、路由策略、自动恢复和质量兜底。好的回答要覆盖可用性、质量、成本、延迟、限流、观测和安全边界。