大语言模型面试题解析第 4 页

LLM 流式输出如何设计断点续传、停止生成和 Token 计费？

这题考 LLM 流式输出的服务端语义设计，回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。

同题还出现在 1 个公司岗位

计算机网络大语言模型大模型推理稳定性系统设计

Agent 沙箱中承载 Skill 时，如何避免工具调用幻觉和多工具切换混乱？

这题考 Agent 沙箱中 Skill 的可靠调用，回答重点是能力声明、工具选择约束、沙箱权限、调用确认、错误恢复和防止模型编造工具能力。

AI Agent 大语言模型稳定性系统设计

Agent Memory 为什么不能简单塞进 Prompt，渐进式披露如何减少上下文污染？

这题考 Agent Memory 的上下文污染控制，回答重点是为什么不能把全部记忆塞进 Prompt，以及如何通过渐进式披露按任务阶段加载必要记忆。

同题还出现在 1 个公司岗位

AI Agent 大语言模型 Prompt 工程稳定性

Agent 沙箱运行上下文如何封装用户配置、能力定义和可执行工具？

这题考 Agent 沙箱运行上下文的封装方式，回答重点是用户配置、能力定义、权限边界、可执行工具、工作目录、环境变量和可观测状态如何统一管理。

同题还出现在 1 个公司岗位

AI Agent 大语言模型系统设计安全

Agent 项目选用 OpenAI Agents SDK 时，应如何和自研或开源框架做选型？

这题考 Agent 框架选型方法，回答重点是用任务复杂度、编排需求、工具集成、可观测性、评测、锁定风险、生态成熟度和迁移成本做理性比较。

Java 并发并发多线程 AI Agent 大语言模型系统设计

Agent 任务中 Human-in-the-Loop 应如何设计确认、纠错和中断流程？

这题考 Agent 任务中的 Human-in-the-Loop 控制点设计，回答重点是确认、纠错、中断、恢复、审计和人机责任边界。

AI Agent 大语言模型稳定性

Agent 系统中 Multi-Agent、One-Agent 和 LLM+Workflow 应如何选型？

这题考 Agent 架构模式选型，回答重点是 Multi-Agent、One-Agent 和 LLM+Workflow 在复杂度、可控性、成本、延迟、可观测性和适用场景上的取舍。

同题还出现在 2 个公司岗位

AI Agent 大语言模型系统设计稳定性

Agent 系统如何把用户反馈接入 DPO/PPO 训练，并用 ELO 评估版本效果？

这题考 Agent 反馈闭环和版本评估，回答重点是如何把用户反馈转成偏好数据、用于 DPO/PPO 优化，并用 ELO 或对战评估做版本选择。

AI Agent 大语言模型模型训练模型评估强化学习

字节跳动 / 后端开发

Agent 中模型调用、本地函数调用、MCP 调用和 Skill 调用有什么区别？

这题考 Agent 调用边界设计，回答重点是模型调用、本地函数调用、MCP 调用和 Skill 调用在调用方、协议、信任边界、生命周期和失败处理上的区别。

同题还出现在 1 个公司岗位

AI Agent 大语言模型系统设计

字节跳动 / 后端开发

Claude Code 类代码 Agent 的 Memory 三层设计如何区分短期上下文、项目知识和长期偏好？

这题考代码 Agent 的记忆分层设计，回答重点是短期工作上下文、项目知识和长期偏好三层如何分工，以及如何更新、检索、隔离和防污染。

AI Agent AI 编程大语言模型 Prompt 工程

PPO 和 GRPO 有什么区别，PPO 中的 Critic 模型如何训练？

这题考 PPO、GRPO 在大模型 RL 后训练中的优化框架差异，以及 PPO 里 Critic 如何用 rollout 回报学习价值估计。

同题还出现在 1 个公司岗位

大语言模型强化学习 RLHF 模型训练

RLHF/PPO 中为什么要用 KL 散度约束，过强或过弱会带来什么问题？

这题考 RLHF/PPO 中 KL 约束的作用，核心是限制策略偏离参考模型，平衡 reward 优化、语言质量、安全边界和训练稳定性。

大语言模型强化学习 RLHF 模型训练

大模型强化学习中 Reward 什么时候用规则，什么时候用奖励模型？

这题考大模型 RL 后训练中奖励信号的选型，重点是按可验证性、主观性、成本、覆盖范围和被投机风险决定用规则还是奖励模型。

大语言模型强化学习模型训练模型评估

大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩？

这题考 RL 后训练的失效模式，回答重点是识别训练 reward 与真实质量背离，并用 reward 审计、约束、数据更新和独立评测缓解。

同题还出现在 2 个公司岗位

大语言模型强化学习模型训练模型评估

Agentic RL 项目中，如何判断 SFT 阶段已经可以进入 RL 后训练？

这题考 Agentic RL 的训练阶段判断，重点是 SFT 是否已经让模型具备稳定轨迹、工具协议、基础成功率和可评估 reward，再决定进入 RL。

大语言模型 AI Agent 强化学习 SFT 模型训练模型评估

美团 / 算法

GRPO 的 loss 如何计算，训练数据应如何组织？

这题考 GRPO 的目标函数直觉和训练样本组织方式，重点是同 prompt 多回答、组内相对优势、token logprob 更新和 KL 约束。

大语言模型强化学习模型训练

如何用多模态大模型识别商品图片并生成可靠的商品描述？

这题考用多模态大模型从商品图片生成可靠商品描述的完整链路，回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。

多模态学习计算机视觉大语言模型模型评估

多模态大模型遇到未见过的商品或对象时，如何识别不确定性并兜底？

这题考多模态大模型遇到未见过商品或对象时的风险控制，回答重点是不确定性识别、OOD 检测、检索或人工兜底，以及避免把猜测说成事实。

多模态学习计算机视觉大语言模型模型评估

BGE/GTE 这类 Embedding 模型如何训练，为什么不能直接用 BERT-base 余弦召回？

这题考检索向量模型的训练目标差异，重点是 BGE/GTE 这类 embedding 模型面向语义召回训练，而原始 BERT-base 不天然适合直接做余弦检索。

Embedding 模型训练 RAG 大语言模型

Video-LLaMA 如何把视频、音频和语言模块连接成多模态理解模型？

这题考 Video-LLaMA 类视频多模态模型的模块连接方式，回答重点是视频帧编码、时间信息聚合、音频分支、投影对齐和语言模型生成。

多模态学习计算机视觉大语言模型 Transformer

LoRA 初始化和 rank 应如何选择，rank 过大或过小有什么影响？

这题考 LoRA 的低秩增量参数如何初始化和选 rank，重点是保持初始等价、控制容量成本，并用验证集判断欠拟合或过拟合。

大语言模型模型微调模型训练

BLIP-2 的两阶段训练流程和损失函数如何把视觉编码器接入语言模型？

这题考 BLIP-2 如何用两阶段训练把冻结视觉编码器接入冻结语言模型，回答重点是 Q-Former、图文对齐损失和语言建模损失的职责分工。

多模态学习计算机视觉大语言模型模型训练