标签题目
大语言模型相关面试题第 6 页
AI 语音交互的技术流程是什么?
这题考的是语音交互链路的组件职责:从录音、唤醒、降噪和端点检测开始,经 ASR 转写、语义理解/对话管理、业务执行和回答生成,再到 TTS 播放、打断处理和日志反馈闭环。
同题还出现在 1 个公司岗位
如何教初学者与大模型交流并写出有效 Prompt?
这题考 AI 产品经理能否把 Prompt 教学设计成可上手的用户教育流程:先建立正确心智,再给结构化提问框架、示例练习、迭代反馈、结果验证和安全边界。
同公司岗位有 2 条面经记录
大模型 SFT 微调效果不好时,可以从哪些数据、模板、训练配置、参数高效微调和评估闭环维度优化?
这题考的是 SFT 效果诊断和优化方法论:要把问题拆成数据质量、任务分布、指令模板、训练超参、PEFT 配置、基座能力和评估闭环,而不是只说多清洗数据。
AI Coding Agent 从用户输入到完成任务的完整链路是什么,如何经过上下文构建、计划、工具调用、代码修改和验证?
这题考的是 AI Coding Agent 的端到端运行时理解:候选人要能把自然语言需求如何变成可验证代码改动讲清楚,包括上下文、计划、工具、修改、测试和回滚闭环。
大语言模型的 next-token 预测过程是什么,输入 token、上下文、logits/概率分布和解码策略如何共同产生回答?
这题考 LLM 推理基本原理:候选人要能从 tokenization、Transformer 上下文建模、logits、softmax 概率和解码策略讲清楚回答是如何逐 token 生成的。
同题还出现在 1 个公司岗位
RAG 项目里的召回排序链路如何设计,Embedding 召回、粗排、重排和答案生成各自承担什么职责?
这题考 RAG 的工程链路设计:不是只接一个向量库,而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。
同题还出现在 3 个公司岗位
LLM 应用上线后收到业务反馈和 badcase,如何建立问题归因、数据回流、Prompt/模型迭代和回归评估闭环?
这题考 LLM 应用上线后的持续改进能力:要把业务反馈转成可复现样本,分层归因到数据、检索、Prompt、模型、工具或产品边界,再用评测和灰度闭环避免越改越差。
产品经理如何评价 LLM 和 AIGC 的核心能力、主要优势、局限性和落地挑战?
这题考产品经理对 LLM/AIGC 的能力边界判断:既要看到自然语言交互、生成和自动化的机会,也要能讲清幻觉、评估、成本、数据安全、场景适配和商业闭环的限制。
同题还出现在 1 个公司岗位
企业协作产品中哪些场景适合用 LLM 提效,如何评估会议、文档、知识检索、项目协同和自动化工作流的价值?
这题考企业协作 AI 场景判断:要从高频知识工作出发,说明会议、文档、知识检索、项目协同和工作流自动化的价值、指标、边界与落地优先级。
产品经理如何评估大模型效果,并从数据、Prompt、RAG、模型和体验层面推动效果提升?
这题考的是 AI 产品经理能否把大模型效果从一句主观好不好,拆成可定义、可评测、可归因、可迭代的产品质量闭环,并能说清不同优化手段的边界。
同题还出现在 2 个公司岗位
面试中被问用过哪些 AI 产品及其优缺点时,产品经理如何结构化评价体验、能力边界和改进空间?
这题考的是产品经理是否真的使用和拆解过 AI 产品:回答要从用户任务、能力边界、交互体验、信任机制、指标和改进优先级展开,而不是报一串产品名。
Agent 的计划模式是什么?如何把用户目标拆成步骤、工具调用和可恢复执行状态?
这题考 Agent 运行机制:计划模式不是让模型多想一会儿,而是把开放目标转成可执行、可观测、可重试、可恢复的任务状态机或工作流。
同题还出现在 1 个公司岗位
向量检索中常见相似度计算指标有哪些?余弦相似度、点积和欧氏距离如何选择?
这题考向量检索基础和工程选择:候选人要能解释 cosine、dot product、L2 的含义、适用前提、归一化关系,以及为什么指标要和 embedding 训练目标及索引配置一致。
Agent 调用服务端 API 工具的完整流程是什么?如何完成参数生成、鉴权、执行、错误处理和结果回填?
这题考 Agent 工具调用的工程链路:模型通常不直接访问业务 API,而是由宿主系统基于工具 schema、权限、参数校验、执行器、错误处理和结果回填来完成闭环。
同题还出现在 2 个公司岗位
LoRA 微调不收敛或输出格式异常时,如何从数据、模板、学习率、rank 和 alpha 排查?
这题考的是 LoRA 训练故障诊断能力:候选人要能把不收敛和输出格式失控拆成数据、模板、损失、超参、adapter 容量和评测回归几个层面逐步定位。
LoRA alpha 过强或过弱会带来什么影响,增量训练出现灾难性遗忘时如何排查和缓解?
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
DPO 偏好样本中的 reward 或偏好维度应如何选择,如何保证对齐目标和训练稳定性?
这题考的是 DPO 数据和偏好目标设计:不是只会说 chosen/rejected,而是能把业务目标、偏好维度、样本构造、冲突处理、训练稳定和评测闭环讲清楚。
多模态大模型微调应如何设计数据、视觉编码器/投影层、指令模板、训练阶段和评测?
这题考的是多模态 LLM 微调的系统设计能力:候选人要能从任务目标出发,讲清数据、架构可训练部分、阶段化训练、模板一致性、指标和回归防护。
Agent 的 thinking 阶段如何判断该调用工具还是直接回复,如何设计决策信号和安全约束?
这题考的是 Agent 运行时决策设计:候选人要能说明什么时候直接回答、什么时候调用工具、什么时候追问,以及如何用置信度、权限、安全和回归评估约束决策。
同题还出现在 1 个公司岗位
连接视觉编码器和 LLM 时,Q-Former 与 LLaVA MLP Adaptor 各有什么优缺点,如何选择?
这题考多模态大模型里视觉特征到语言模型 token 空间的连接器设计。好的回答要说明二者都在解决维度对齐、语义对齐、信息压缩和训练稳定性问题,但 Q-Former 更像带可学习查询的语义压缩器,MLP projector 更像简单直接的视觉 token 映射器,选择取决于数据规模、视觉细节需求、上下文预算、延迟和冻结策略。
如何手写 Multi-Head Self-Attention,Q/K/V 投影、分头、mask 和输出拼接如何实现?
这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式,而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。
同题还出现在 1 个公司岗位
大模型推理变慢时,如何从序列长度、batch、KV Cache、量化、FlashAttention 和 GPU 资源排查?
这题考 LLM 推理性能诊断闭环。高质量回答应先定义慢在哪里,再拆分队列、prefill、decode、KV Cache、batch 调度、attention kernel、量化、GPU 利用率和服务链路,用指标定位瓶颈,而不是一上来堆优化名词。
同题还出现在 1 个公司岗位
MCP、Function Call 和 A2A 在 Agent 系统中分别解决什么边界,如何协同?
这题考 Agent 系统的协议和责任边界。Function Call 解决模型到宿主工具调用意图的结构化表达,MCP 解决宿主和外部工具/资源服务之间的标准化连接,A2A 解决 Agent 与 Agent 之间的任务委托和协作。三者层级不同,不能混成同一个概念。
RAG 为什么要引入父子索引,如何兼顾小粒度召回和大粒度上下文回填?
这题考的是 RAG 检索粒度设计:小 chunk 更容易被向量或关键词召回命中,但单独放进上下文时可能缺少标题、章节、定义、前提和表格上下文;父子索引用子块做高精度召回,用父文档或父章节做证据回填,从而兼顾召回命中率、答案可读性和上下文预算。
RAG 检索中为什么要混合 BM25 和向量召回,融合权重或比例如何设置和评估?
这题考 sparse+dense hybrid retrieval 的工程判断:BM25 擅长精确词项、专名、数字、错误码和短查询,向量召回擅长语义相近、同义表达和自然语言问题。融合比例不是拍脑袋固定值,而要根据 query 类型、离线指标、线上反馈、延迟成本和 badcase 分布动态调优。
同题还出现在 1 个公司岗位
RAG rerank 后 TopK 与上下文长度预算如何选择,过短或过长时怎么处理?
这题考的是 rerank 之后的证据选择策略:TopK 不是固定返回几个 chunk,而是在相关性、证据覆盖、去重多样性、父子扩展、token 预算、模型长上下文能力、延迟成本和拒答策略之间做动态取舍。
长上下文推理中 KV Cache 为什么可能被污染,如何做缓存隔离、清理和复用边界控制?
这题考的是大模型推理缓存的正确性与安全边界:KV Cache 本身是某个模型、某段 token、某套位置编码和注意力 mask 下的中间状态;一旦跨请求、跨会话、跨租户、跨模板版本或跨可变上下文错误复用,就可能产生答案串扰、隐私泄漏、事实陈旧或位置错乱。
RAG 中检索文档正确但生成答案错误时,如何定位 Prompt、上下文组织、模型推理和后处理问题?
这题考的是 RAG badcase 的责任拆解:当正确证据已经被检索到,问题就不再主要是召回率,而要检查证据是否进入 prompt、是否被截断或排序淹没、指令是否约束模型使用证据、模型是否误读冲突信息、解码是否不稳定,以及后处理是否改坏答案。
RAG 需要跨多个文档综合回答时,如何做多跳召回、证据合并和冲突处理?
这题考的是多文档 RAG 的端到端设计能力:不能只说把更多 chunk 塞进上下文,而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。
Transformer 推理阶段为什么 KV Cache 只缓存 K 和 V,而通常不缓存当前步的 Q?
这题考的是自回归推理中 attention 计算复用的本质:历史 token 的 K/V 会在未来每一步被反复访问,而 Q 只属于当前查询 token,用完即可丢弃,所以缓存 K/V 能省重复计算,缓存 Q 通常没有收益。
Instruction Tuning 多轮对话训练中 loss mask 应如何设计,哪些 token 应参与损失?
这题考的是多轮 SFT 的 token 级训练目标设计:候选人要能说明 system/user/padding 通常不算 loss,assistant 答案 token 通常算 loss,并进一步讲清多轮全部 assistant turn、last-turn-only、label shift、packing 边界和模板一致性。
模型对齐后变得过于保守、经常拒答时,如何调整偏好数据、拒答策略和安全阈值?
这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力:候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题,并给出训练与评估闭环。
Transformer 中 Pre-Norm 和 Post-Norm 有什么区别,为什么会影响深层模型训练稳定性?
这题考的是 Transformer 残差块里 LayerNorm 放置位置对梯度流和深层训练的影响:Pre-Norm 更利于深层稳定训练,Post-Norm 表达形式经典但更依赖 warmup、初始化和训练技巧,二者还有最终性能与稳定性的取舍。
同题还出现在 1 个公司岗位
MoE 路由中 Top-K Routing、负载均衡损失和 capacity factor 分别解决什么问题?
这题考 MoE 路由机制的核心部件:Top-K Routing 决定每个 token 激活哪些专家,负载均衡损失避免专家塌缩和热点,capacity factor 控制每个专家可接收 token 的上限。回答要把模型质量、稀疏计算、通信成本和工程稳定性连起来。
RAG 检索召回无关内容时,如何从 query rewrite、混合检索、rerank、过滤和拒答机制处理?
这题考察候选人能否把 RAG 无关召回拆成可诊断、可治理、可评估的检索链路问题,而不是只说调提示词或换模型。
同题还出现在 1 个公司岗位
Spring AI Alibaba Graph 的底层原理是什么,图式编排如何表达 Agent 节点、状态流转、条件分支和工具调用?
这题考察对图式 Agent 编排的理解,重点是状态、节点、边、条件路由、工具调用、失败处理和可测试性,而不是背某个版本的 API。
PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?
这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。
LoRA 微调通常插入哪些层,epoch、learning_rate 等常用训练参数如何设置?
这题考 LoRA 微调的工程落点:适配器插到哪些线性层,常用 rank、alpha、dropout、epoch、learning_rate、batch 和 scheduler 如何取舍。好的回答不能只说冻结原模型、训练低秩矩阵,而要能根据任务类型、数据规模、显存预算和过拟合风险解释从 q/v 到 attention+MLP 的 target module 选择,以及为什么 LoRA 学习率通常比全参微调更高但仍需验证集约束。
Qwen 这类大模型中的 SwiGLU 激活函数有什么作用,相比传统 FFN 激活函数有哪些优势?
这题考的是候选人是否理解现代 Transformer 前馈网络里的门控激活机制:SwiGLU 不是一个简单替换 GELU 的名字,而是通过 gate/value 两路投影和逐元素乘法提升 FFN 的表达能力与训练效果。
同公司岗位有 2 条面经记录
Qwen 这类大模型训练中,混合精度训练如何实现,为什么能提升吞吐并降低显存?
这题考的是大模型训练数值与系统效率的结合:混合精度不是简单把所有张量改成 FP16,而是在前向、反向、梯度、权重、优化器状态和通信之间选择合适精度来兼顾吞吐、显存和稳定性。
Qwen 这类大模型如何设计安全策略,减少有害内容和偏见输出?
这题考的是大模型安全治理的系统观:减少有害内容和偏见输出不能只靠一句安全提示词,而要把政策定义、数据治理、对齐训练、运行时护栏、红队评测和线上反馈做成闭环。
大模型训练中的 3D 并行和 DeepSpeed 分别解决什么问题,如何组合使用?
这题考的是大模型训练系统的分解能力:3D 并行解决模型和计算如何切到多卡上,DeepSpeed 提供 ZeRO、混合精度、checkpoint、offload 和并行编排等工程能力,两者可以组合但不是同一个概念。
大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?
PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。
Qwen 支持 128K 长上下文时,如何降低显存占用和注意力计算复杂度?
Qwen 这类支持 128K 长上下文的大模型,不能只靠把最大位置编码拉长来解决问题,核心挑战是注意力计算随序列长度接近平方增长、KV cache 随层数和上下文长度线性增长、训练激活和通信也会放大。常见工程组合包括 RoPE 外推或缩放、FlashAttention 类内存高效注意力、GQA/MQA 降低 KV cache、paged/quantized KV cache、chunked prefill、序列并行或 context parallel、激活重计算,以及在可接受的质量边界内使用滑窗、稀疏或分块注意力。回答时要区分降低显存峰值、降低 KV cache、降低真实计算复杂度三件事。
Qwen 这类大模型做多语言支持时,数据配比、分词、对齐训练和评估应如何设计?
Qwen 这类大模型做多语言支持时,设计重点不是简单增加几种语言语料,而是要在数据配比、tokenizer 覆盖、跨语言指令对齐、偏好训练、安全策略和评估体系之间做平衡。高资源语言提供通用能力和知识密度,低资源语言需要通过采样温度、质量过滤、合成数据和翻译增强避免被淹没;tokenizer 要兼顾不同文字系统的压缩率和 byte fallback;对齐训练要避免只对中文或英文有效;评估也要覆盖语言质量、任务能力、文化语境、安全和 code-switch 等真实场景。
大模型训练显存如何估算,参数、梯度、优化器状态、激活和临时缓存各占哪些部分?
大模型训练显存可以先拆成 model states、activations、temporary buffers、通信缓存和碎片/框架开销。model states 包括参数、梯度和优化器状态;以 Adam 混合精度训练为例,常见粗估是参数 bf16/fp16 2P、梯度 2P、Adam 一阶和二阶矩 fp32 8P、可选 fp32 master weights 4P,总计约 12P 到 16P bytes。除此之外,activation 随 batch、sequence length、hidden size 和层数增长,长上下文 attention 还可能带来平方项;临时缓存包括 attention workspace、GEMM workspace、logits、通信 bucket、all-gather buffer 和内存碎片。估算时要同时考虑并行策略、ZeRO 分片、activation checkpointing、精度和 micro-batch。
同题还出现在 1 个公司岗位
GraphRAG 中 local、global、混合检索和社区检索分别如何工作,适合什么问题?
这题考的是候选人是否理解 GraphRAG 不是单一检索方法,而是一组利用实体、关系、社区和文本证据组织上下文的策略:local 偏实体邻域,global 偏全局主题,社区检索偏聚合摘要,混合检索负责把图和文本召回结合起来。
ReAct 的思考-行动-观察循环如何驱动 Agent 工具调用,和普通 CoT 有什么区别?
这题考的是候选人是否理解 ReAct 把模型推理和外部行动交织起来:模型不是一次性输出答案,而是在思考、选择工具、观察结果、继续推理的闭环中逐步完成任务;它和普通 CoT 的关键区别是能通过工具调用改变外部状态并用真实观察修正推理。