大语言模型面试题解析第 6 页

如何手写 Multi-Head Self-Attention，Q/K/V 投影、分头、mask 和输出拼接如何实现？

这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式，而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。

同题还出现在 1 个公司岗位

手写题 Transformer 注意力机制大语言模型神经网络模型训练

大模型推理变慢时，如何从序列长度、batch、KV Cache、量化、FlashAttention 和 GPU 资源排查？

这题考 LLM 推理性能诊断闭环。高质量回答应先定义慢在哪里，再拆分队列、prefill、decode、KV Cache、batch 调度、attention kernel、量化、GPU 利用率和服务链路，用指标定位瓶颈，而不是一上来堆优化名词。

同题还出现在 1 个公司岗位

大语言模型大模型推理性能排查性能分析 KV Cache GPU

腾讯 / 后端开发

MCP、Function Call 和 A2A 在 Agent 系统中分别解决什么边界，如何协同？

这题考 Agent 系统的协议和责任边界。Function Call 解决模型到宿主工具调用意图的结构化表达，MCP 解决宿主和外部工具/资源服务之间的标准化连接，A2A 解决 Agent 与 Agent 之间的任务委托和协作。三者层级不同，不能混成同一个概念。

AI Agent 大语言模型系统设计工作流服务治理协议解析

RAG 为什么要引入父子索引，如何兼顾小粒度召回和大粒度上下文回填？

这题考的是 RAG 检索粒度设计：小 chunk 更容易被向量或关键词召回命中，但单独放进上下文时可能缺少标题、章节、定义、前提和表格上下文；父子索引用子块做高精度召回，用父文档或父章节做证据回填，从而兼顾召回命中率、答案可读性和上下文预算。

RAG Embedding 向量数据库 AI 搜索大语言模型系统设计

RAG 检索中为什么要混合 BM25 和向量召回，融合权重或比例如何设置和评估？

这题考 sparse+dense hybrid retrieval 的工程判断：BM25 擅长精确词项、专名、数字、错误码和短查询，向量召回擅长语义相近、同义表达和自然语言问题。融合比例不是拍脑袋固定值，而要根据 query 类型、离线指标、线上反馈、延迟成本和 badcase 分布动态调优。

同题还出现在 1 个公司岗位

RAG Embedding AI 搜索向量数据库模型评估大语言模型

RAG rerank 后 TopK 与上下文长度预算如何选择，过短或过长时怎么处理？

这题考的是 rerank 之后的证据选择策略：TopK 不是固定返回几个 chunk，而是在相关性、证据覆盖、去重多样性、父子扩展、token 预算、模型长上下文能力、延迟成本和拒答策略之间做动态取舍。

RAG AI 搜索 Embedding 模型评估大语言模型系统设计

腾讯 / 算法

长上下文推理中 KV Cache 为什么可能被污染，如何做缓存隔离、清理和复用边界控制？

这题考的是大模型推理缓存的正确性与安全边界：KV Cache 本身是某个模型、某段 token、某套位置编码和注意力 mask 下的中间状态；一旦跨请求、跨会话、跨租户、跨模板版本或跨可变上下文错误复用，就可能产生答案串扰、隐私泄漏、事实陈旧或位置错乱。

计算机网络大语言模型大模型推理 KV Cache 内存管理稳定性

RAG 中检索文档正确但生成答案错误时，如何定位 Prompt、上下文组织、模型推理和后处理问题？

这题考的是 RAG badcase 的责任拆解：当正确证据已经被检索到，问题就不再主要是召回率，而要检查证据是否进入 prompt、是否被截断或排序淹没、指令是否约束模型使用证据、模型是否误读冲突信息、解码是否不稳定，以及后处理是否改坏答案。

RAG 大语言模型 Prompt 工程大模型幻觉模型评估

RAG 需要跨多个文档综合回答时，如何做多跳召回、证据合并和冲突处理？

这题考的是多文档 RAG 的端到端设计能力：不能只说把更多 chunk 塞进上下文，而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。

RAG 大语言模型向量数据库 Embedding 模型评估

Transformer 推理阶段为什么 KV Cache 只缓存 K 和 V，而通常不缓存当前步的 Q？

这题考的是自回归推理中 attention 计算复用的本质：历史 token 的 K/V 会在未来每一步被反复访问，而 Q 只属于当前查询 token，用完即可丢弃，所以缓存 K/V 能省重复计算，缓存 Q 通常没有收益。

大语言模型 Transformer 注意力机制大模型推理 KV Cache

Instruction Tuning 多轮对话训练中 loss mask 应如何设计，哪些 token 应参与损失？

这题考的是多轮 SFT 的 token 级训练目标设计：候选人要能说明 system/user/padding 通常不算 loss，assistant 答案 token 通常算 loss，并进一步讲清多轮全部 assistant turn、last-turn-only、label shift、packing 边界和模板一致性。

大语言模型 SFT 模型微调模型训练模型评估

模型对齐后变得过于保守、经常拒答时，如何调整偏好数据、拒答策略和安全阈值？

这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力：候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题，并给出训练与评估闭环。

大语言模型 RLHF DPO 模型训练模型微调模型评估

腾讯 / 算法

Transformer 中 Pre-Norm 和 Post-Norm 有什么区别，为什么会影响深层模型训练稳定性？

这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响：Pre-Norm 更利于深层稳定训练，Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧，二者还有最终性能与稳定性的取舍。

同题还出现在 1 个公司岗位

大语言模型 Transformer 模型训练神经网络正则化

MiniMax / 算法

MoE 路由中 Top-K Routing、负载均衡损失和 capacity factor 分别解决什么问题？

这题考 MoE 路由机制的核心部件：Top-K Routing 决定每个 token 激活哪些专家，负载均衡损失避免专家塌缩和热点，capacity factor 控制每个专家可接收 token 的上限。回答要把模型质量、稀疏计算、通信成本和工程稳定性连起来。

大语言模型模型训练大模型推理 TopK 负载均衡性能排查

阿里巴巴 / 后端开发

RAG 检索召回无关内容时，如何从 query rewrite、混合检索、rerank、过滤和拒答机制处理？

这题考察候选人能否把 RAG 无关召回拆成可诊断、可治理、可评估的检索链路问题，而不是只说调提示词或换模型。

同题还出现在 1 个公司岗位

RAG Embedding 向量数据库 AI 搜索模型评估大语言模型

美团 / 后端开发

Spring AI Alibaba Graph 的底层原理是什么，图式编排如何表达 Agent 节点、状态流转、条件分支和工具调用？

这题考察对图式 Agent 编排的理解，重点是状态、节点、边、条件路由、工具调用、失败处理和可测试性，而不是背某个版本的 API。

AI Agent 工作流图论状态机系统设计大语言模型

PPO clip 在 advantage 为正或为负时分别限制什么，为什么这样能稳定策略更新？

这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明：A 为正时，这个动作比预期好，PPO 限制新策略把它概率提高得过多，也就是限制 ratio 的上界；A 为负时，这个动作比预期差，PPO 限制新策略把它概率降低得过多，也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移，从而提升训练稳定性。

大语言模型强化学习 RLHF 模型训练模型评估

京东 / 算法

LoRA 微调通常插入哪些层，epoch、learning_rate 等常用训练参数如何设置？

这题考 LoRA 微调的工程落点：适配器插到哪些线性层，常用 rank、alpha、dropout、epoch、learning_rate、batch 和 scheduler 如何取舍。好的回答不能只说冻结原模型、训练低秩矩阵，而要能根据任务类型、数据规模、显存预算和过拟合风险解释从 q/v 到 attention+MLP 的 target module 选择，以及为什么 LoRA 学习率通常比全参微调更高但仍需验证集约束。

大语言模型模型微调模型训练 SFT

Qwen 这类大模型中的 SwiGLU 激活函数有什么作用，相比传统 FFN 激活函数有哪些优势？

这题考的是候选人是否理解现代 Transformer 前馈网络里的门控激活机制：SwiGLU 不是一个简单替换 GELU 的名字，而是通过 gate/value 两路投影和逐元素乘法提升 FFN 的表达能力与训练效果。

同公司岗位有 2 条面经记录

通义千问大语言模型 Transformer 激活函数模型训练神经网络

Qwen 这类大模型训练中，混合精度训练如何实现，为什么能提升吞吐并降低显存？

这题考的是大模型训练数值与系统效率的结合：混合精度不是简单把所有张量改成 FP16，而是在前向、反向、梯度、权重、优化器状态和通信之间选择合适精度来兼顾吞吐、显存和稳定性。

通义千问大语言模型模型训练 GPU 性能排查内存管理

Qwen 这类大模型如何设计安全策略，减少有害内容和偏见输出？

这题考的是大模型安全治理的系统观：减少有害内容和偏见输出不能只靠一句安全提示词，而要把政策定义、数据治理、对齐训练、运行时护栏、红队评测和线上反馈做成闭环。

通义千问大语言模型 AI 伦理模型评估 RLHF DPO

京东 / 算法

大模型训练中的 3D 并行和 DeepSpeed 分别解决什么问题，如何组合使用？

这题考的是大模型训练系统的分解能力：3D 并行解决模型和计算如何切到多卡上，DeepSpeed 提供 ZeRO、混合精度、checkpoint、offload 和并行编排等工程能力，两者可以组合但不是同一个概念。

大语言模型模型训练分布式系统 GPU 性能排查系统设计

大模型后训练中，PPO 为什么通常被视为 on-policy，importance sampling 起什么作用？

PPO 通常被视为 on-policy，是因为它的训练样本来自当前或刚刚冻结的行为策略，更新只在这批新 rollout 附近做有限幅度的策略改进，而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差，使我们能用旧策略采到的样本估计新策略目标；但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力，所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。

大语言模型强化学习 RLHF 模型训练模型评估

Qwen 支持 128K 长上下文时，如何降低显存占用和注意力计算复杂度？

Qwen 这类支持 128K 长上下文的大模型，不能只靠把最大位置编码拉长来解决问题，核心挑战是注意力计算随序列长度接近平方增长、KV cache 随层数和上下文长度线性增长、训练激活和通信也会放大。常见工程组合包括 RoPE 外推或缩放、FlashAttention 类内存高效注意力、GQA/MQA 降低 KV cache、paged/quantized KV cache、chunked prefill、序列并行或 context parallel、激活重计算，以及在可接受的质量边界内使用滑窗、稀疏或分块注意力。回答时要区分降低显存峰值、降低 KV cache、降低真实计算复杂度三件事。

通义千问大语言模型 Transformer 内存管理性能排查 GPU

Qwen 这类大模型做多语言支持时，数据配比、分词、对齐训练和评估应如何设计？

Qwen 这类大模型做多语言支持时，设计重点不是简单增加几种语言语料，而是要在数据配比、tokenizer 覆盖、跨语言指令对齐、偏好训练、安全策略和评估体系之间做平衡。高资源语言提供通用能力和知识密度，低资源语言需要通过采样温度、质量过滤、合成数据和翻译增强避免被淹没；tokenizer 要兼顾不同文字系统的压缩率和 byte fallback；对齐训练要避免只对中文或英文有效；评估也要覆盖语言质量、任务能力、文化语境、安全和 code-switch 等真实场景。

通义千问大语言模型模型训练模型评估质量工程

大模型训练显存如何估算，参数、梯度、优化器状态、激活和临时缓存各占哪些部分？

大模型训练显存可以先拆成 model states、activations、temporary buffers、通信缓存和碎片/框架开销。model states 包括参数、梯度和优化器状态；以 Adam 混合精度训练为例，常见粗估是参数 bf16/fp16 2P、梯度 2P、Adam 一阶和二阶矩 fp32 8P、可选 fp32 master weights 4P，总计约 12P 到 16P bytes。除此之外，activation 随 batch、sequence length、hidden size 和层数增长，长上下文 attention 还可能带来平方项；临时缓存包括 attention workspace、GEMM workspace、logits、通信 bucket、all-gather buffer 和内存碎片。估算时要同时考虑并行策略、ZeRO 分片、activation checkpointing、精度和 micro-batch。

同题还出现在 1 个公司岗位

大语言模型模型训练内存管理 GPU 性能排查