标签题目
大语言模型相关面试题第 8 页
RAG 生成阶段如何通过 Prompt 边界约束,在没有检索到有效证据时避免模型编造答案?
这题考察 RAG 生成阶段的边界控制能力。好的回答要说明 Prompt 如何把模型限制在检索证据内回答,如何定义无证据、低置信和证据冲突时的行为,以及如何配合检索评分、引用、结构化输出和评估来降低幻觉。重点不是写一句“不要编造”,而是建立可执行的证据约束。
Agent 工具服务为什么要独立部署并注册到 Nacos,而不是直接用 MCP 暴露工具?
这题考 Agent 工具服务的工程化部署边界:Nacos 解决服务发现和治理,MCP 解决模型侧工具协议,二者不是同一层能力,不能简单互相替代。回答时要强调在已有微服务治理体系下,Nacos 更适合管理真实工具服务的实例、健康、配置和流量,MCP 更适合统一工具契约、schema 和 Agent 侧调用方式。
RAG 或大模型知识库应用中,知识不断追加导致 Prompt 越来越长时,会带来哪些上下文、成本和质量问题,如何治理?
这题考 RAG 或大模型知识库应用的上下文治理能力。题源 evidence 指向新加入知识库造成 prompt 越来越长,所以回答不能停留在换长上下文模型,而要说明 prompt 变长会带来窗口挤占、成本上升、延迟变高、噪声和冲突增加、回答质量下降,并给出检索、压缩、版本、权限、评测和监控的治理方案。
RAG 生成阶段如何把 top3/top10 文本块和文档信息组织进 Prompt,控制模型基于证据输出?
这题考 RAG 生成阶段的证据组织和约束生成能力,重点是把 top3/top10 chunk、文档元数据、冲突处理和引用规则放进 Prompt,而不是简单拼接检索结果。回答要聚焦 evidence packing 和 grounded generation,不要扩成泛泛的召回优化。
大模型观点总结产品如何防范幻觉,并定义可上线的准确率与验收标准?
这题考观点总结类大模型产品的质量门禁。题源 evidence 明确问如何防范幻觉、上线标准是什么、准确率达到什么水平才可发布,所以回答要先定义准确率口径,再给出可上线的指标组合和分级阈值。阈值只能作为参考门槛示例,并需按场景风险调整,不能说成题源或公司内部固定标准。
AI 大模型会如何改变数据平台产品经理的工作方式和产品能力建设?
AI 大模型对数据平台产品经理的影响,不只是让 PM 写 PRD、查资料更快,而是会改变数据平台的产品形态:从“人找数据、人写 SQL、人解释指标”逐步走向“自然语言取数、指标语义统一、分析过程可追溯、治理能力内嵌到工作流”。回答时要落到数据平台能力建设,强调 PM 需要把大模型能力产品化为指标问答、语义层、数据资产治理、智能诊断和权限合规等模块,而不是泛泛说 AI 提效。
百度在 AI 产品策略方面有哪些优势和机会?
这题不适合回答成“百度很强、AI 很好”的口号题,而要用产品策略框架拆开:先判断 AI 产品策略的目标用户和高频任务,再看百度已有产品资产能否形成低成本触达、数据反馈、能力复用和商业闭环。优势可以从搜索/信息获取心智、地图和本地生活等场景入口、语音与多模态交互基础、公开产品认知中的 AI 技术品牌、企业服务与开发者生态几个维度讲;机会则应落到“把 AI 从能力展示变成任务完成工具”,例如搜索问答化、地图出行助手化、办公/营销/客服场景降本增效、跨端智能体,以及对长尾复杂问题的个性化服务。回答时要同时讲风险:不要为了 AI 而 AI,要避免场景泛化、体验不可控、成本失控和隐私合规问题。
构建 AI Agent 时,Memory 机制通常如何分层设计,短期上下文、长期记忆和检索注入分别解决什么问题?
这题考察的是候选人是否理解 Agent Memory 不是一个简单向量库,而是一套分层状态管理和检索注入机制。回答要区分短期上下文、工作记忆、长期记忆、外部知识检索和写入更新策略,并说明每层解决的问题、成本权衡、失效模式和评估方法。
大模型反欺诈项目从开发、测试到部署应如何设计流程,Agent 框架选型需要关注哪些工程约束?
这题考大模型反欺诈项目的端到端工程化能力,不是只问“用了哪个 Agent 框架”。高质量回答要从业务边界、数据合规、Agent 工具链、离线评测、测试门禁、灰度部署、监控回流和框架选型约束讲清楚,体现反欺诈场景对准确性、可解释性、安全和稳定性的要求。
代码生成大模型或 Copilot 类工具应如何评估,哪些能力维度决定是否适合业务落地?
这题不是让候选人背当前哪个代码模型排名最高,而是考能否把 Copilot 类工具评估成一个可落地的研发效能系统。高质量回答要围绕业务场景、仓库理解、生成正确性、补全/重构/修 bug/测试生成能力、IDE 体验、安全合规、延迟成本、评测集和灰度指标展开。
MCP 在 Agent 工具接入中解决什么问题,适合哪些场景,又有哪些落地边界?
这题考 MCP 在 Agent 工具接入中的协议价值和工程边界。高质量回答要说明它解决的是 Agent 与外部工具、资源、提示模板之间的标准化连接问题,并能覆盖工具发现、resources/tools/prompts、schema、跨进程接入、权限、审计、超时、版本和服务治理。
百度 AI 产品如果从问答式助手升级到 Agent,应如何定义产品差异、技术能力和布局路径?
这题考百度 AI 产品从问答助手升级到 Agent 时的产品定义能力。回答不能只说 Agent 更智能,而要从用户目标、交互形态、技术能力、评估指标、生态布局和分阶段路线讲清差异。
如何用 Coze 搭建 K12 英语批改 Agent,并通过输入输出规范控制商业化发散风险?
这题考如何把 Coze 里的英语批改 Agent 做成可商业化、可控输出的教育产品。核心不是搭一个能聊天的 Bot,而是用严格输入输出规范、评分口径、内容边界和质检闭环控制发散风险。
LLM 推理中 KV Cache 大小如何计算,哪些参数决定显存占用?
这题考 LLM 推理显存估算的基础功。高质量回答要给出 KV Cache 公式,说明 batch、上下文长度、层数、KV head 数、head_dim、数据类型、beam/并发和 GQA/MQA 都会影响显存,并区分权重显存、激活显存和 KV Cache 显存。
LLM 量化中 W4A16 表示什么,它在权重位宽和激活精度上有什么取舍?
这题考 LLM 量化命名和工程取舍。W4A16 表示权重 4 bit、激活 16 bit,通常属于 weight-only 或偏权重量化路线,核心收益是降低权重显存和内存带宽,核心代价是权重误差、反量化开销、kernel 适配和部分能力回归。
为什么 Attention 相关量化比普通权重量化更难,softmax、动态范围和误差放大会带来哪些问题?
这题考 Attention 量化为什么比静态权重量化更敏感。答案要围绕 Q/K/V 动态分布、QK logits、mask、softmax 指数放大、KV Cache 长期复用和误差跨层传播展开,并给出常见工程缓解策略。
LoRA 和 Adapter 在微调机制、参数插入位置和推理阶段开销上有什么区别?
这道题考察参数高效微调的结构理解,而不是只背 LoRA 和 Adapter 都是 PEFT。好的回答要先说明二者都冻结大部分基座模型、只训练少量新增参数;再区分 LoRA 是给已有线性层增加低秩权重增量,Adapter 是在 Transformer block 中插入小型瓶颈模块;最后落到推理开销:LoRA 可合并进原权重,单任务部署几乎无额外算子,Adapter 通常保留额外前向路径,会增加延迟、显存和 serving 复杂度。
DeepSpeed ZeRO 中哪些训练状态会占用 GPU 显存,为什么 activation 通常用 checkpoint/recompute 而不是像参数或优化器状态一样分页?
这道题考察大模型训练显存构成和 ZeRO 的边界。回答要先把 GPU 显存里的主要训练状态拆清楚:参数、梯度、优化器状态、激活、通信/临时 buffer 和碎片;再说明 ZeRO 主要分片的是模型状态,Stage 1/2/3 分别处理优化器状态、梯度和参数;最后解释 activation 为什么通常用 checkpoint/recompute:它是 batch/sequence 相关的短生命周期中间结果,反向依赖层级顺序,分页到 CPU/NVMe 会引入高带宽低延迟瓶颈,而重计算能用额外 FLOPs 换显存,通常更可控。
LLaMA 2 中的 GQA 是什么,它如何减少 KV heads、降低 KV Cache 和带宽开销,并影响训练与推理效率?
这道题考察 GQA 的注意力结构和 KV Cache 推理瓶颈。回答要先把 MHA、MQA、GQA 放在一条线上:MHA 每个 query head 有自己的 K/V head,MQA 所有 query head 共用一组 K/V,GQA 则让一组 query heads 共用一个 K/V head。它减少的是 KV heads 数量,从而降低 K/V projection 输出、KV Cache 存储、decode 阶段缓存读取带宽和跨卡通信压力。关键是不要把 GQA 只说成训练加速;它对长上下文自回归推理的内存带宽收益更直接,同时在质量和效率之间比 MQA 更折中。
如何将已有 MHA 大模型改造成 GQA?KV Head 权重合并初始化和继续训练分别解决什么问题?
这题考察的不是“GQA 是什么”这一层概念,而是如何把一个已经训练好的 MHA checkpoint 工程化迁移成 GQA,并解释初始化和继续训练各自承担的职责。核心答案应先说明结构变化:MHA 中每个 Query Head 通常有独立的 K/V Head,而 GQA 把多个 Query Head 分成一组,共享同一组 K/V 投影,从而减少 KV Cache、显存带宽和解码阶段访存。迁移时不能随机初始化 K/V,否则模型等于突然丢失大量注意力记忆能力;因此通常用 KV Head 合并做 warm start,例如按组平均、加权平均、选择代表头或用聚类合并 K/V 权重。这个初始化解决“结构对齐和功能尽量连续”的问题;继续训练或 uptraining 解决“合并带来的表达能力损失、注意力分布偏移和层间统计不匹配”的问题。高质量回答还要补充训练数据配比、学习率、冻结策略、评估指标和推理收益验证。
视频剪辑智能体的全链路架构如何设计,核心模块的职责和交互逻辑是什么?
这道题考察 AI 应用开发候选人能否把“视频剪辑智能体”设计成可落地的工程系统:从用户意图理解、素材解析、剪辑计划、工具执行、预览修正到渲染导出,拆清楚核心模块、数据结构和交互闭环。
对接多家国内大模型官方 API 时,如何设计统一调用网关来屏蔽接口差异?
这题考察的是多大模型供应商接入时的工程抽象能力,不是简单写几个 if else 适配接口。好的统一调用网关要把业务层看到的协议收敛成稳定的内部模型契约,同时把供应商差异隔离在 adapter 层:消息格式、模型名、参数范围、流式协议、错误码、限流、鉴权、计费、上下文长度、工具调用、JSON 输出能力都不能泄漏给上层。架构上通常分为统一 API、路由与策略、provider adapter、可靠性治理、观测与审计、配置和灰度几个部分。回答要强调边界:网关不是只做转发,而是承担能力抽象、故障隔离、降级切换、成本治理和可观测性;但也不能把所有模型能力抹平成最低公约数,否则会损失模型特性。因此设计上要有基础统一契约和可扩展 capability 描述,既屏蔽常见差异,又允许业务显式选择高级能力。
用 LangChain 编排 AI 工作流时,如何和原生调用、自研引擎做选型,并分析各自优缺点和瓶颈?
这题考察的是 AI 工作流编排的技术选型,而不是问 LangChain 好不好。高质量回答要先拆清楚业务复杂度:只是单轮模型调用、少量 prompt 链、RAG 检索增强、工具调用、长流程状态机、多 Agent 协作,还是需要可视化编排、回放、权限、灰度和审计。原生调用的优势是简单、可控、性能和依赖风险低,适合链路短、业务稳定、团队希望自己掌握协议的场景;LangChain 的优势是生态组件多、原型快、抽象现成,适合探索期和标准 RAG/Tool/Agent 流程,但瓶颈是抽象层厚、版本变化、调试复杂、性能和可观测性需要补强;自研引擎适合业务流程复杂、稳定性和治理要求高、需要平台化复用的场景,但成本高、周期长,容易重复造轮子。最终选型不是三选一的宗教问题,而是按阶段演进:原型期可以用框架提速,核心生产链路要收敛成自己的稳定接口和可观测执行模型。
多模态/RAG 项目上线前如何设计评价指标,如何拆分整体效果与 RAG 子模块指标?
这题考察的不是“能不能背几个指标名”,而是能否把多模态/RAG 项目上线前的评价体系拆成可决策、可归因、可监控的指标框架。来源只支持“项目上线前评价指标”和“RAG 子模块评价指标”这两个面试追问,因此回答应聚焦通用方法论,不编造任何阿里内部指标。高质量答案要先定义上线目标和风险边界,再把评价拆成三层:端到端业务效果、模型回答质量、RAG 链路子模块效果。最终要能回答三个问题:整体效果好不好、如果不好是哪一段坏了、达到什么阈值才能灰度上线。
LLM 解码中的 top-k 和 top-p 采样分别如何实现,如何影响多样性、复读和生成稳定性?
这题考的是候选人是否真正理解生成式解码,而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”,因此回答应聚焦通用 LLM 推理机制,不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样,以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。
多轮对话 Agent 做强化学习时,reward 应如何设计,如何避免 reward hacking、轮次变长和任务成功率虚高?
这题考的是 Agent 强化学习的目标建模和反作弊评估能力。来源只支持“字节/懂车帝 Agent 算法实习面试中问到多轮对话强化学习”,不支持任何内部 reward 细节,因此回答应给出通用、可验证的 reward 设计框架。核心是把 reward 从单句好坏扩展到完整轨迹:任务是否真的完成、工具和信息是否可靠、轮次成本是否受控、安全边界是否遵守,并用 verifier、人评和切片指标防止 reward hacking 与虚高成功率。
大模型训练或微调时,batch size 过大或过小分别会带来哪些收敛、泛化、吞吐和显存问题?当有效 batch size 改变时,学习率是否需要结合 scaling rule、warmup 和梯度累积一起调整?
这道题考察大模型训练/微调中 batch size 与学习率、显存、吞吐、泛化和稳定性的联动。好的回答要区分 micro batch、global batch、梯度累积,并说明 scaling rule 只能作为起点,必须配合 warmup 和验证集监控。
在检索增强或语义搜索链路中,Qwen3 Embedding 模型和 Qwen3 Reranker 模型分别解决什么问题?二者在输入输出、训练目标、召回/精排位置和延迟成本上有什么区别?
这道题考察语义检索/RAG 链路中双编码召回和交叉编码精排的差异。回答要讲清 Embedding 负责低成本召回,Reranker 负责高精度相关性重排,二者输入输出、训练目标和延迟成本不同。
微调 Qwen 这类大模型时,learning rate scheduler 应如何设计?如何确定 step 口径、warmup、cosine/linear decay、最小学习率和峰值学习率?
这题考察的不是背诵某个 scheduler,而是能否把 Qwen 微调中的学习率设计拆成训练稳定性、收敛效率、泛化效果和版本选择四件事。好的回答要明确 step 口径、warmup 比例、衰减曲线、最小学习率和峰值学习率。
面向海外 C 端生成式 AI 应用,如何选择获客渠道,并用 CAC、激活率、留存和付费转化验证渠道质量?
这题考察海外 C 端生成式 AI 应用的增长判断力。重点不是列举渠道,而是能否用 CAC、激活率、留存、付费转化和 LTV 形成渠道质量闭环,并按国家、创意、平台和用户意图做 cohort 分析。
大流量业务想利用 3B 模型效果但不能实时调用时,如何设计离线推理、特征/结果缓存、蒸馏或轻量模型接力方案,并验证效果、时延和成本?
这题考察大流量系统中如何利用 3B 模型效果而不让实时链路承担模型成本。核心方案是离线推理、特征或结果缓存、在线轻量模型接力、蒸馏和分层召回排序,并用效果、时延、成本、覆盖率和新鲜度验证。
AI 创作产品中,产品经理如何把模型能力演进拆成可执行的效果策略路线图,并按用户价值、质量提升、成本和风险确定迭代优先级?
这题考 AI 创作产品经理能否把“模型变强了”翻译成可交付、可评估、可排序的产品路线图。高质量回答要从用户场景、效果杠杆、评测体系、成本约束、风险门禁和迭代优先级展开,而不是只说跟着模型升级做功能。
把大模型 API Demo 落地到真实业务时,产品经理应如何筛选需求、接入数据、评估效果,并控制工程化上线风险?
这题考把大模型 API Demo 从“能演示”推进到“能稳定服务真实业务”的产品落地能力。回答要覆盖需求筛选、业务数据接入、效果评估、灰度上线、成本延迟、模型不确定性和工程兜底,而不是只讲调用了某个模型接口。
DPO 为什么可能导致回答过长,SimPO 如何缓解长度偏置?
这题考察对偏好优化目标的细节理解。核心不是简单说“DPO 会变啰嗦,SimPO 会变短”,而是要解释 DPO 的隐式 reward 如何由整段回答的 logprob 差构成,为什么长度、参考模型、偏好数据和评测方式会共同放大长回答倾向,以及 SimPO 如何用平均 log probability 和目标间隔缓解这种偏置。
FlashAttention 为什么更适合 Prefill,Decode 阶段的瓶颈是什么,Flash Decoding 如何优化?
这题考 GPU 推理性能分析能力。好的回答要区分 Prefill 和 Decode 的计算形态:Prefill 是长 query 的大矩阵注意力,FlashAttention 能提高 IO 效率和并行度;Decode 是单 token 迭代生成,瓶颈常在 KV cache 读取、显存带宽和 SM 利用率,Flash Decoding 通过切分 KV 序列提升并行读取和长上下文吞吐。
Function Call / Agent 工具调用不正确时,如何用 SFT 或 GRPO 设计数据与奖励函数来提升能力?
这题考 Agent 工具调用能力的训练闭环。回答要先把错误分型讲清,再说明 SFT 如何构造正负样本和多轮轨迹,GRPO 如何用可执行环境中的细粒度奖励优化工具选择、参数填写、调用顺序、结果使用和最终回答,同时要覆盖离线评测、在线灰度和安全护栏。
构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?
这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。
ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复,并评估纠错收益?
这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。
AI Agent 遇到上下文污染、任务过长或工具结果不可靠时,如何用上下文裁剪、状态机拆分和工具链治理提升稳定性?
这题考 Agent 稳定性治理。关键是把上下文污染、长任务失控和工具不可靠拆开处理:上下文裁剪保证输入干净,状态机拆分保证任务可控,工具链治理保证外部结果可验证,再用 trace、回放、评测和恢复策略形成生产闭环。
主流 Agent 框架如何选型,如何按 RAG 检索、有状态工作流、多 Agent 协作、工具/记忆/检索能力和自主性与可控性边界做取舍?
这题考 Agent 框架选型边界,而不是背框架名。好的回答应按业务需要拆分:RAG 检索优先看数据索引和检索评估,有状态工作流优先看可控状态机,多 Agent 协作优先看角色协议和收敛性,工具、记忆、检索抽象要看边界清晰度,最终在 Agent 自主性和工程可控性之间取舍。
构建复杂 LLM Agent 时最主要的挑战是什么,如何处理可靠性、规划、工具调用和可观测性?
这题考复杂 Agent 的生产可靠性理解。高质量回答要说明最大的挑战不是“会不会用框架”,而是 LLM 非确定性、规划漂移、工具误调用、上下文污染、循环失控、成本延迟和问题定位困难,并给出工程化治理方案。
AI 产品经理如何评价一次模型训练结果是否值得上线?
这题考 AI 产品经理能否把模型训练结果翻译成上线决策。回答不能只看离线准确率,要同时看业务任务、评测集代表性、badcase、成本延迟、安全风险、灰度效果和回滚条件。
大模型产品策划岗位的核心职责、能力模型和交付边界是什么?
这题考 AI 产品经理对岗位本质的理解。大模型产品策划不是只写需求或追热点,而是把模型能力、用户场景、数据闭环、体验边界、成本收益和上线风险转化成可交付的产品方案。
判断一个 AI 产品是否具备可持续商业化能力时,应看哪些标准?
这题考 AI 产品商业判断。真正能赚钱的 AI 产品不只是模型效果强,而是能解决高价值任务、进入稳定工作流、效果可量化、交付成本可控、风险可管理,并且有清晰的付费主体和规模化路径。
用 Qwen 做大模型评测裁判时,如何证明选择合理,并通过消融实验和人工一致性指标评估效果?
这题考候选人是否能把 LLM-as-judge 从“用了一个模型打分”提升到可证明、可复现、可交付的评测系统。回答要说明为什么 Qwen 适合当前评测任务,并用版本、参数、提示词、评分维度、人工一致性和交付指标证明选择不是拍脑袋。
235B MoE 模型每 token 只激活约千分之三参数时,如何估算推理 FLOPs、显存占用、KV Cache 和吞吐瓶颈?
这题考 MoE 推理部署估算。回答要区分总参数、每 token 激活参数、权重存储、专家 FLOPs、KV Cache、专家并行通信,以及 prefill 和 decode 阶段的不同瓶颈。