大语言模型面试题解析｜面试大师

标签题目

大语言模型相关面试题第 3 页

滴滴 / 后端开发

代码生成或代码定位场景中，文件过长超过 LLM 上下文窗口时如何处理？

这题考代码生成或代码定位中长文件超过 LLM 上下文窗口的工程处理，重点是检索、切片、结构化上下文和验证，而不是泛泛讨论 long context 退化。

大语言模型 AI Agent AI 编程 RAG Prompt 工程稳定性

蚂蚁集团 / 算法

Teacher forcing 为什么会带来训练和推理不一致，如何缓解 exposure bias？

这题考序列模型训练中的 teacher forcing 和 exposure bias，回答要解释训练推理输入分布不一致、误差累积和常见缓解方法。

大语言模型模型训练模型评估 SFT

腾讯 / 后端开发

金融场景下 Agent 超时、失败或中断时，如何设计安全重试和兜底？

这题考金融场景下 Agent 执行失败后的安全边界。答案必须围绕资金安全、幂等、状态机、确认、审计、对账和补偿展开，不能写成普通接口超时重试。

同公司岗位有 3 条面经记录

AI Agent 大语言模型稳定性安全幂等系统设计

腾讯 / 后端开发

RAG 知识库如何做不停服更新，并保证检索结果一致性？

这题考 RAG 知识库不停服更新和一致性，不是 RAG vs SFT。回答要覆盖版本化索引、离线构建、影子验证、别名切换、缓存失效、权限元数据和回滚。

RAG 大语言模型 Embedding 向量数据库稳定性系统设计

腾讯 / 后端开发

多 Agent 系统如何设计编排流程，并控制每个 Agent 的任务边界？

这题考多 Agent 编排流程和任务边界。回答重点是 coordinator、planner、executor、reviewer 的流程、契约、状态交接、冲突处理和可观测性，不是泛泛解释 Agent。

同题还出现在 1 个公司岗位

AI Agent 大语言模型系统设计稳定性服务治理

百度 / 前端

Agent Skill 不一定可靠时，如何用 Workflow 和 System Prompt 固定主流程？

这题考 Skill 不可靠时如何用 Workflow 和 System Prompt 固定主流程。答案要覆盖能力探测、节点契约、流程骨架、受控执行、重试降级、前端确认和提示词护栏。

AI Agent Prompt 工程大语言模型稳定性前端工程化系统设计

百度 / 前端

前端 AI 输出流式返回时，SSE 和 WebSocket 如何取舍？

这题考前端 AI 流式输出的传输取舍。答案要说明 SSE 适合单向 token 流，WebSocket 适合强双向实时控制，并覆盖重连、代理、鉴权、取消、背压和兼容性。

计算机网络大语言模型 WebSocket 前端工程化稳定性

阿里巴巴 / 后端开发

Agent 项目如何选择底层模型，依据和验证方法是什么？

这题考 Agent 项目的底层模型选型。答案要从任务类型、工具调用、结构化输出、上下文、延迟成本、安全、评测集、灰度和 fallback 路由来讲。

AI Agent 大语言模型模型评估大模型推理稳定性系统设计

阿里巴巴 / 后端开发

Agent 长期记忆功能如何设计、召回和持续优化？

这题考 Agent 长期记忆的生命周期，不是多用户隔离。答案要覆盖存什么、如何抽取、召回、更新、遗忘、删除、隐私授权和质量评估。

AI Agent 大语言模型内存管理 Embedding RAG 隐私保护

阿里巴巴 / 后端开发

大模型幻觉在 Agent 服务化中会带来哪些问题，如何治理？

这题考大模型幻觉在 Agent 服务化中的生产风险。答案要聚焦错误工具调用、虚假状态、操作控制、权限、审计、dry-run、确认和事故闭环，而不是泛泛说 RAG 和提示词。

AI Agent 大语言模型大模型幻觉稳定性服务治理系统设计

美团 / 产品

为什么不直接采用 AI-native 自动化评估，如何判断它的适用边界？

这题考为什么不直接采用 AI-native 自动化评估，以及如何判断适用边界。答案要平衡自动化收益、judge 偏差、金标校准、高风险场景、人审和混合评估。

AI 产品产品管理模型评估产品指标指标体系大语言模型

美团 / 产品

RAG 知识库来源和拆分逻辑应如何由产品目标定义？

这题考产品视角定义 RAG 知识来源和拆分逻辑。答案要从产品目标、权威来源、用户任务粒度、权限、新鲜度、生命周期、评测和 badcase 反馈展开，不能写成 PDF chunking 工程题。

同题还出现在 1 个公司岗位

AI 产品产品管理 RAG 模型评估产品指标大语言模型

京东 / 算法

LoRA 微调能否注入领域知识，应该如何验证效果边界？

这题考 LoRA 微调能否注入领域知识及其边界。答案要区分格式/风格/任务适配与事实知识注入，并比较 LoRA、SFT、继续预训练和 RAG 的验证方法。

同公司岗位有 2 条面经记录

大语言模型模型微调模型评估模型训练 SFT

拼多多 / 数据分析

如何设计 A/B 实验评估大模型智能客服是否提升用户满意度？

这题考用数据分析方法验证大模型客服是否提升满意度，重点是实验假设、随机化单位、主指标与护栏指标、样本量、显著性和长期效果判断。

数据分析 A/B 测试大语言模型 AI 产品产品指标模型评估

字节跳动 / 算法

对话摘要生成任务如何设计评估指标，并处理长度控制、角色呼应和数据增强？

这题考对话摘要生成的评估和训练细节，答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。

大语言模型模型评估模型训练文本分类 Encoder-Decoder

滴滴 / 算法

Qwen2-VL 微调时应如何处理多模态数据、视觉 token、训练参数和评估？

这题考 Qwen2-VL 微调的多模态工程思路，答案应讲数据构造、视觉 token 预算、参数策略、loss masking、训练稳定性和评估闭环，不依赖具体版本细节。

通义千问多模态学习大语言模型模型微调模型评估

美团 / 算法

多模态大模型应用中，为什么选择 Qwen2.5-VL 做 encoder，如何评估取舍？

这题考多模态模型作为 encoder 的选型取舍，答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。

通义千问多模态学习大语言模型模型评估计算机视觉

滴滴 / 测开

大模型输出准确度测试应该覆盖哪些测试点和评估口径？

这题考测试开发视角下的大模型输出准确度测试，答案要覆盖测试 oracle、评测集、规则断言、人工标注、LLM-as-judge 校准、回归测试和非确定性处理。

数据库 Oracle SQL 分析大语言模型模型评估质量工程

百度 / 产品

AI 助手的“智能感”和“拟人感”如何拆成可衡量的用户研究指标？

这题考把 AI 助手的主观体验感知转成可研究、可对比、可迭代的指标，回答重点是先定义构念，再用行为、问卷、任务观察和验证方法建立指标体系。

AI 产品产品管理产品指标指标体系模型评估大语言模型

百度 / 产品

如何用定性和定量混合方法研究用户对 AI 助手的信任建立过程？

这题考用混合研究方法解释 AI 助手信任如何形成，答案要覆盖定性探索、定量验证、行为日志、时间序列和三角互证，而不是只给满意度看板。

AI 产品产品管理产品指标指标体系模型评估大语言模型

拼多多 / 产品

小爱同学这类 AI 语音助手的大模型评测方案应如何围绕场景划分和用户满足率设计？

这题考小爱同学这类 AI 语音助手的大模型评测方案，答案要围绕语音入口的场景划分、离线评测集、线上用户满足率、badcase 回流和版本迭代设计。

AI 产品产品管理大语言模型模型评估产品指标指标体系

百度 / 产品

AI 语音助手的误响应率是什么，应该如何评估？

这题考语音助手误响应率的定义和评估边界，答案要先明确分子分母，再拆分误唤醒、误识别、意图误触发和错误生成等失败类型。

AI 产品产品管理产品指标指标体系模型评估大语言模型

小米 / 产品

小米 AI 音箱场景化指令使用率低时，如何设计指令推荐机制？

这题考 AI 音箱场景化指令使用率低时的产品推荐机制设计，重点是上下文触发、推荐内容、展示时机、频控和使用率评估。

AI 产品产品管理产品指标推荐系统用户增长大语言模型

腾讯 / 产品

AI 语音交互产品如何定位 ASR、NLP、TTS 哪一环需要优化？

这题考 AI 语音交互产品的链路定位能力，答案要把 ASR、NLP、TTS 和交互策略分阶段评估，避免把所有问题都归因给模型质量。

AI 产品产品管理模型评估产品指标大语言模型系统设计

网易 / 测开

AI 用例分析工具调用大模型时，如何选择模型并评估识别准确率？

这题考测试开发场景下 LLM 用例分析工具的模型选择和准确率评估，答案要覆盖任务定义、模型取舍、标注基准、识别指标、阈值和错误分析。

测试用例设计质量工程大语言模型模型评估模型训练

快手 / 后端开发

AI Agent 系统从通用 Agent 模式切到 Cline / Code 模式时，如何量化评估效果差异？

这题考 AI Coding Agent 从通用 Agent 模式切到 Cline / Code 模式后的工程评估方法，回答要覆盖任务成功率、代码变更正确性、工具调用稳定性、延迟成本和用户验收。

AI Agent AI 编程大语言模型模型评估系统设计稳定性

快手 / 后端开发

RAG 能力作为 Agent 工具开放后，如何评估召回质量、任务成功率和用户体验？

这题考 RAG 作为 Agent 工具后的评估体系，重点不是单纯调召回，而是同时评估检索质量、工具选择、答案可信度、端到端任务成功和用户体验。

RAG AI Agent 大语言模型模型评估产品指标向量数据库

快手 / 后端开发

强模型直连与本地模型 + RAG + Prompt 优化，应如何按成本、延迟、安全和效果取舍？

这题考强模型直连与本地模型加 RAG 和 Prompt 优化之间的架构取舍，回答要按效果、成本、延迟、安全、可控性和运维复杂度做决策，而不是给单一答案。

大语言模型 RAG Prompt 工程向量数据库大模型推理系统设计

快手 / 后端开发

LLM 服务在 500 并发下如何把 TTFT P99 从 3s 优化到 1.5s？

这题考高并发 LLM 服务的首 token 长尾优化，回答要先建立可观测性，再从排队、调度、prefill/decode、批处理、KV 缓存、prompt 长度、容量和流式链路逐层处理。

性能测试性能排查可观测性大语言模型大模型推理 TTFT

字节跳动 / 算法

RAG Embedding 召回出现误判时，如何定位并改进？

这题考 RAG 中 embedding 召回误判的诊断和改进，回答要区分误召回与漏召回，并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。

同题还出现在 1 个公司岗位

RAG Embedding 向量数据库模型评估大语言模型

字节跳动 / 后端开发

Agent 短期记忆应何时抽取、存放到哪里，并如何拼进 System Prompt？

这题考 Agent 短期记忆的工程链路，回答要区分对话缓冲、摘要、抽取事实和工具状态，并说明抽取时机、存储位置、Prompt 拼装顺序、预算控制和失效规则。

同题还出现在 2 个公司岗位

AI Agent 大语言模型内存管理 Prompt 工程系统设计

字节跳动 / 后端开发

Agent 记忆出现过期或冲突事实时，如何更新、覆盖和回溯？

这题考 Agent 记忆过期和冲突事实的治理，回答要覆盖事实版本、来源置信度、用户确认、覆盖规则、tombstone、审计回溯和 Prompt 侧只使用当前有效记忆。

同题还出现在 1 个公司岗位

AI Agent 大语言模型内存管理稳定性隐私保护系统设计

小红书 / 算法

Q-former 和 Q-fusion 在多模态大模型中有什么区别，分别如何完成视觉-语言交互？

这题考多模态大模型里视觉特征如何和语言模型交互，回答重点是 Q-Former 的查询瓶颈、Q-fusion 的融合位置、跨注意力机制、训练信号和信息压缩取舍。

多模态学习大语言模型 Transformer 注意力机制计算机视觉

小红书 / 算法

LLaVA 的整体结构如何把视觉编码器输出接入语言模型？

这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程，回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。

多模态学习大语言模型计算机视觉 Transformer Embedding

小米 / 算法

从零构建 VLA 模型时，视觉、语言和动作模块应如何设计？

这题考从零设计 Vision-Language-Action 模型的系统拆解，重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。

多模态学习计算机视觉大语言模型模型训练强化学习

小米 / 算法

VLA 模型和世界模型有什么区别，VLA+RL 适合哪些具身智能场景？

这题考 VLA、世界模型和强化学习在具身智能中的边界，回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。

多模态学习强化学习模型训练大语言模型计算机视觉

滴滴 / 算法

多模态 Agentic RL 中用 VERL 做强化学习时，如何判断训练进度和收敛质量？

这题考多模态 Agentic RL 训练过程的可观测和收敛判断，回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。

同题还出现在 1 个公司岗位

多模态学习 AI Agent 强化学习模型训练模型评估大语言模型

滴滴 / 算法

医疗手写表格场景中，如何提升多模态模型对字段和值的识别准确度？

这题考医疗手写表格的多模态识别链路，重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。

多模态学习计算机视觉模型评估特征工程大语言模型质量工程

百度 / 算法

GRPO 中序列级 reward / loss 如何分配到 token，为什么这是信用分配问题？

这题考 GRPO 里序列级奖励如何影响 token 级更新，重点是序列 reward、token log-prob、组内相对优势、信用分配歧义和训练稳定性。

强化学习大语言模型模型训练 RLHF 模型评估

美团 / 算法

DeepResearch 类 Agent 如何和 RL 后训练结合，整体训练流程是什么？

这题考 DeepResearch 类 Agent 的 RL 后训练流程，重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。

AI Agent 大语言模型强化学习模型训练模型评估

美团 / 产品

AIGC 周末出行短攻略或美食探店笔记功能如何快速设计 MVP 并上线测试？

这题考本地生活 AIGC 内容功能如何快速做 MVP 并上线测试，回答要覆盖场景选择、最小功能、质量安全、指标和迭代闭环。

AI 产品产品管理大语言模型 A/B 测试产品指标

腾讯 / 产品

机器发文产品创造力不足时，如何设计功能价值并区分人工创作？

这题考机器发文产品在创造力不足时如何定位功能价值，并说明机器写作与人工创作的差异、协作方式和评价指标。

AI 产品产品管理大语言模型产品指标

快手 / 后端开发

Agent 中上下文工程如何设计，如何组织 System Prompt、工具结果和记忆？

这题考 Agent 上下文工程的结构化设计，回答重点是如何组织 System Prompt、用户任务、工具结果、记忆、约束和截断策略，让模型拿到必要信息而不过载。

同题还出现在 2 个公司岗位

AI Agent 大语言模型 Prompt 工程系统设计

快手 / 后端开发

LangGraph 相比 LangChain 在多 Agent 编排中有什么优势，状态快照机制解决什么问题？

这题考多 Agent 编排中框架选型和状态管理能力，回答重点是图式编排、可恢复状态、调试回放、人工介入和长流程可靠性。

同题还出现在 1 个公司岗位

AI Agent 大语言模型系统设计稳定性

快手 / 后端开发

生产级 Agent 如何设计敏感词过滤、停止生成和死循环防护？

这题考生产级 Agent 的运行时安全控制，回答重点是敏感内容过滤、停止生成、工具切换约束、死循环防护、观测告警和人工接管。

AI Agent 大语言模型稳定性安全服务治理

快手 / 后端开发

基于 LangGraph 和 RAG 的内容生成 Agent，应如何设计检索、生成和审核流程？

这题考用 LangGraph 和 RAG 设计内容生成 Agent 的端到端流程，回答重点是检索、证据整理、生成、审核、重试和发布前控制，而不是只讲向量召回。

AI Agent RAG 大语言模型 Prompt 工程系统设计

快手 / 算法

PagedAttention 如何改善 LLM 长上下文推理的 KV Cache 管理？

这题考 PagedAttention 如何改善长上下文 LLM 推理中的 KV Cache 管理，回答重点是块化分页、减少碎片、支持连续批处理和提升显存利用率。

同题还出现在 1 个公司岗位

大语言模型大模型推理 vLLM

快手 / 算法

LLM 多卡并行推理中，显存占用和通信开销如何影响吞吐与延迟？

这题考 LLM 多卡并行推理的性能瓶颈，回答重点是权重显存、KV Cache、prefill/decode 差异、并行切分通信、批处理调度和长尾延迟。

性能测试性能排查可观测性大语言模型大模型推理分布式系统

大语言模型面试题解析第 3 页

大语言模型相关面试题第 3 页