标签题目
大语言模型相关面试题第 3 页
代码生成或代码定位场景中,文件过长超过 LLM 上下文窗口时如何处理?
这题考代码生成或代码定位中长文件超过 LLM 上下文窗口的工程处理,重点是检索、切片、结构化上下文和验证,而不是泛泛讨论 long context 退化。
Teacher forcing 为什么会带来训练和推理不一致,如何缓解 exposure bias?
这题考序列模型训练中的 teacher forcing 和 exposure bias,回答要解释训练推理输入分布不一致、误差累积和常见缓解方法。
金融场景下 Agent 超时、失败或中断时,如何设计安全重试和兜底?
这题考金融场景下 Agent 执行失败后的安全边界。答案必须围绕资金安全、幂等、状态机、确认、审计、对账和补偿展开,不能写成普通接口超时重试。
同公司岗位有 3 条面经记录
RAG 知识库如何做不停服更新,并保证检索结果一致性?
这题考 RAG 知识库不停服更新和一致性,不是 RAG vs SFT。回答要覆盖版本化索引、离线构建、影子验证、别名切换、缓存失效、权限元数据和回滚。
多 Agent 系统如何设计编排流程,并控制每个 Agent 的任务边界?
这题考多 Agent 编排流程和任务边界。回答重点是 coordinator、planner、executor、reviewer 的流程、契约、状态交接、冲突处理和可观测性,不是泛泛解释 Agent。
同题还出现在 1 个公司岗位
Agent Skill 不一定可靠时,如何用 Workflow 和 System Prompt 固定主流程?
这题考 Skill 不可靠时如何用 Workflow 和 System Prompt 固定主流程。答案要覆盖能力探测、节点契约、流程骨架、受控执行、重试降级、前端确认和提示词护栏。
前端 AI 输出流式返回时,SSE 和 WebSocket 如何取舍?
这题考前端 AI 流式输出的传输取舍。答案要说明 SSE 适合单向 token 流,WebSocket 适合强双向实时控制,并覆盖重连、代理、鉴权、取消、背压和兼容性。
Agent 项目如何选择底层模型,依据和验证方法是什么?
这题考 Agent 项目的底层模型选型。答案要从任务类型、工具调用、结构化输出、上下文、延迟成本、安全、评测集、灰度和 fallback 路由来讲。
Agent 长期记忆功能如何设计、召回和持续优化?
这题考 Agent 长期记忆的生命周期,不是多用户隔离。答案要覆盖存什么、如何抽取、召回、更新、遗忘、删除、隐私授权和质量评估。
大模型幻觉在 Agent 服务化中会带来哪些问题,如何治理?
这题考大模型幻觉在 Agent 服务化中的生产风险。答案要聚焦错误工具调用、虚假状态、操作控制、权限、审计、dry-run、确认和事故闭环,而不是泛泛说 RAG 和提示词。
为什么不直接采用 AI-native 自动化评估,如何判断它的适用边界?
这题考为什么不直接采用 AI-native 自动化评估,以及如何判断适用边界。答案要平衡自动化收益、judge 偏差、金标校准、高风险场景、人审和混合评估。
RAG 知识库来源和拆分逻辑应如何由产品目标定义?
这题考产品视角定义 RAG 知识来源和拆分逻辑。答案要从产品目标、权威来源、用户任务粒度、权限、新鲜度、生命周期、评测和 badcase 反馈展开,不能写成 PDF chunking 工程题。
同题还出现在 1 个公司岗位
LoRA 微调能否注入领域知识,应该如何验证效果边界?
这题考 LoRA 微调能否注入领域知识及其边界。答案要区分格式/风格/任务适配与事实知识注入,并比较 LoRA、SFT、继续预训练和 RAG 的验证方法。
同公司岗位有 2 条面经记录
如何设计 A/B 实验评估大模型智能客服是否提升用户满意度?
这题考用数据分析方法验证大模型客服是否提升满意度,重点是实验假设、随机化单位、主指标与护栏指标、样本量、显著性和长期效果判断。
对话摘要生成任务如何设计评估指标,并处理长度控制、角色呼应和数据增强?
这题考对话摘要生成的评估和训练细节,答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。
Qwen2-VL 微调时应如何处理多模态数据、视觉 token、训练参数和评估?
这题考 Qwen2-VL 微调的多模态工程思路,答案应讲数据构造、视觉 token 预算、参数策略、loss masking、训练稳定性和评估闭环,不依赖具体版本细节。
多模态大模型应用中,为什么选择 Qwen2.5-VL 做 encoder,如何评估取舍?
这题考多模态模型作为 encoder 的选型取舍,答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。
大模型输出准确度测试应该覆盖哪些测试点和评估口径?
这题考测试开发视角下的大模型输出准确度测试,答案要覆盖测试 oracle、评测集、规则断言、人工标注、LLM-as-judge 校准、回归测试和非确定性处理。
AI 助手的“智能感”和“拟人感”如何拆成可衡量的用户研究指标?
这题考把 AI 助手的主观体验感知转成可研究、可对比、可迭代的指标,回答重点是先定义构念,再用行为、问卷、任务观察和验证方法建立指标体系。
如何用定性和定量混合方法研究用户对 AI 助手的信任建立过程?
这题考用混合研究方法解释 AI 助手信任如何形成,答案要覆盖定性探索、定量验证、行为日志、时间序列和三角互证,而不是只给满意度看板。
小爱同学这类 AI 语音助手的大模型评测方案应如何围绕场景划分和用户满足率设计?
这题考小爱同学这类 AI 语音助手的大模型评测方案,答案要围绕语音入口的场景划分、离线评测集、线上用户满足率、badcase 回流和版本迭代设计。
AI 语音助手的误响应率是什么,应该如何评估?
这题考语音助手误响应率的定义和评估边界,答案要先明确分子分母,再拆分误唤醒、误识别、意图误触发和错误生成等失败类型。
小米 AI 音箱场景化指令使用率低时,如何设计指令推荐机制?
这题考 AI 音箱场景化指令使用率低时的产品推荐机制设计,重点是上下文触发、推荐内容、展示时机、频控和使用率评估。
AI 语音交互产品如何定位 ASR、NLP、TTS 哪一环需要优化?
这题考 AI 语音交互产品的链路定位能力,答案要把 ASR、NLP、TTS 和交互策略分阶段评估,避免把所有问题都归因给模型质量。
AI 用例分析工具调用大模型时,如何选择模型并评估识别准确率?
这题考测试开发场景下 LLM 用例分析工具的模型选择和准确率评估,答案要覆盖任务定义、模型取舍、标注基准、识别指标、阈值和错误分析。
AI Agent 系统从通用 Agent 模式切到 Cline / Code 模式时,如何量化评估效果差异?
这题考 AI Coding Agent 从通用 Agent 模式切到 Cline / Code 模式后的工程评估方法,回答要覆盖任务成功率、代码变更正确性、工具调用稳定性、延迟成本和用户验收。
RAG 能力作为 Agent 工具开放后,如何评估召回质量、任务成功率和用户体验?
这题考 RAG 作为 Agent 工具后的评估体系,重点不是单纯调召回,而是同时评估检索质量、工具选择、答案可信度、端到端任务成功和用户体验。
强模型直连与本地模型 + RAG + Prompt 优化,应如何按成本、延迟、安全和效果取舍?
这题考强模型直连与本地模型加 RAG 和 Prompt 优化之间的架构取舍,回答要按效果、成本、延迟、安全、可控性和运维复杂度做决策,而不是给单一答案。
LLM 服务在 500 并发下如何把 TTFT P99 从 3s 优化到 1.5s?
这题考高并发 LLM 服务的首 token 长尾优化,回答要先建立可观测性,再从排队、调度、prefill/decode、批处理、KV 缓存、prompt 长度、容量和流式链路逐层处理。
RAG Embedding 召回出现误判时,如何定位并改进?
这题考 RAG 中 embedding 召回误判的诊断和改进,回答要区分误召回与漏召回,并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。
同题还出现在 1 个公司岗位
Agent 短期记忆应何时抽取、存放到哪里,并如何拼进 System Prompt?
这题考 Agent 短期记忆的工程链路,回答要区分对话缓冲、摘要、抽取事实和工具状态,并说明抽取时机、存储位置、Prompt 拼装顺序、预算控制和失效规则。
同题还出现在 2 个公司岗位
Agent 记忆出现过期或冲突事实时,如何更新、覆盖和回溯?
这题考 Agent 记忆过期和冲突事实的治理,回答要覆盖事实版本、来源置信度、用户确认、覆盖规则、tombstone、审计回溯和 Prompt 侧只使用当前有效记忆。
同题还出现在 1 个公司岗位
Q-former 和 Q-fusion 在多模态大模型中有什么区别,分别如何完成视觉-语言交互?
这题考多模态大模型里视觉特征如何和语言模型交互,回答重点是 Q-Former 的查询瓶颈、Q-fusion 的融合位置、跨注意力机制、训练信号和信息压缩取舍。
LLaVA 的整体结构如何把视觉编码器输出接入语言模型?
这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程,回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。
从零构建 VLA 模型时,视觉、语言和动作模块应如何设计?
这题考从零设计 Vision-Language-Action 模型的系统拆解,重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。
VLA 模型和世界模型有什么区别,VLA+RL 适合哪些具身智能场景?
这题考 VLA、世界模型和强化学习在具身智能中的边界,回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。
多模态 Agentic RL 中用 VERL 做强化学习时,如何判断训练进度和收敛质量?
这题考多模态 Agentic RL 训练过程的可观测和收敛判断,回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。
同题还出现在 1 个公司岗位
医疗手写表格场景中,如何提升多模态模型对字段和值的识别准确度?
这题考医疗手写表格的多模态识别链路,重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。
GRPO 中序列级 reward / loss 如何分配到 token,为什么这是信用分配问题?
这题考 GRPO 里序列级奖励如何影响 token 级更新,重点是序列 reward、token log-prob、组内相对优势、信用分配歧义和训练稳定性。
DeepResearch 类 Agent 如何和 RL 后训练结合,整体训练流程是什么?
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
AIGC 周末出行短攻略或美食探店笔记功能如何快速设计 MVP 并上线测试?
这题考本地生活 AIGC 内容功能如何快速做 MVP 并上线测试,回答要覆盖场景选择、最小功能、质量安全、指标和迭代闭环。
机器发文产品创造力不足时,如何设计功能价值并区分人工创作?
这题考机器发文产品在创造力不足时如何定位功能价值,并说明机器写作与人工创作的差异、协作方式和评价指标。
Agent 中上下文工程如何设计,如何组织 System Prompt、工具结果和记忆?
这题考 Agent 上下文工程的结构化设计,回答重点是如何组织 System Prompt、用户任务、工具结果、记忆、约束和截断策略,让模型拿到必要信息而不过载。
同题还出现在 2 个公司岗位
LangGraph 相比 LangChain 在多 Agent 编排中有什么优势,状态快照机制解决什么问题?
这题考多 Agent 编排中框架选型和状态管理能力,回答重点是图式编排、可恢复状态、调试回放、人工介入和长流程可靠性。
同题还出现在 1 个公司岗位
生产级 Agent 如何设计敏感词过滤、停止生成和死循环防护?
这题考生产级 Agent 的运行时安全控制,回答重点是敏感内容过滤、停止生成、工具切换约束、死循环防护、观测告警和人工接管。
基于 LangGraph 和 RAG 的内容生成 Agent,应如何设计检索、生成和审核流程?
这题考用 LangGraph 和 RAG 设计内容生成 Agent 的端到端流程,回答重点是检索、证据整理、生成、审核、重试和发布前控制,而不是只讲向量召回。
PagedAttention 如何改善 LLM 长上下文推理的 KV Cache 管理?
这题考 PagedAttention 如何改善长上下文 LLM 推理中的 KV Cache 管理,回答重点是块化分页、减少碎片、支持连续批处理和提升显存利用率。
同题还出现在 1 个公司岗位
LLM 多卡并行推理中,显存占用和通信开销如何影响吞吐与延迟?
这题考 LLM 多卡并行推理的性能瓶颈,回答重点是权重显存、KV Cache、prefill/decode 差异、并行切分通信、批处理调度和长尾延迟。