标签题目
大语言模型相关面试题第 4 页
LLM 流式输出如何设计断点续传、停止生成和 Token 计费?
这题考 LLM 流式输出的服务端语义设计,回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。
同题还出现在 1 个公司岗位
Agent 沙箱中承载 Skill 时,如何避免工具调用幻觉和多工具切换混乱?
这题考 Agent 沙箱中 Skill 的可靠调用,回答重点是能力声明、工具选择约束、沙箱权限、调用确认、错误恢复和防止模型编造工具能力。
Agent Memory 为什么不能简单塞进 Prompt,渐进式披露如何减少上下文污染?
这题考 Agent Memory 的上下文污染控制,回答重点是为什么不能把全部记忆塞进 Prompt,以及如何通过渐进式披露按任务阶段加载必要记忆。
同题还出现在 1 个公司岗位
Agent 沙箱运行上下文如何封装用户配置、能力定义和可执行工具?
这题考 Agent 沙箱运行上下文的封装方式,回答重点是用户配置、能力定义、权限边界、可执行工具、工作目录、环境变量和可观测状态如何统一管理。
同题还出现在 1 个公司岗位
Agent 项目选用 OpenAI Agents SDK 时,应如何和自研或开源框架做选型?
这题考 Agent 框架选型方法,回答重点是用任务复杂度、编排需求、工具集成、可观测性、评测、锁定风险、生态成熟度和迁移成本做理性比较。
Agent 任务中 Human-in-the-Loop 应如何设计确认、纠错和中断流程?
这题考 Agent 任务中的 Human-in-the-Loop 控制点设计,回答重点是确认、纠错、中断、恢复、审计和人机责任边界。
Agent 系统中 Multi-Agent、One-Agent 和 LLM+Workflow 应如何选型?
这题考 Agent 架构模式选型,回答重点是 Multi-Agent、One-Agent 和 LLM+Workflow 在复杂度、可控性、成本、延迟、可观测性和适用场景上的取舍。
同题还出现在 2 个公司岗位
Agent 系统如何把用户反馈接入 DPO/PPO 训练,并用 ELO 评估版本效果?
这题考 Agent 反馈闭环和版本评估,回答重点是如何把用户反馈转成偏好数据、用于 DPO/PPO 优化,并用 ELO 或对战评估做版本选择。
Agent 中模型调用、本地函数调用、MCP 调用和 Skill 调用有什么区别?
这题考 Agent 调用边界设计,回答重点是模型调用、本地函数调用、MCP 调用和 Skill 调用在调用方、协议、信任边界、生命周期和失败处理上的区别。
同题还出现在 1 个公司岗位
Claude Code 类代码 Agent 的 Memory 三层设计如何区分短期上下文、项目知识和长期偏好?
这题考代码 Agent 的记忆分层设计,回答重点是短期工作上下文、项目知识和长期偏好三层如何分工,以及如何更新、检索、隔离和防污染。
PPO 和 GRPO 有什么区别,PPO 中的 Critic 模型如何训练?
这题考 PPO、GRPO 在大模型 RL 后训练中的优化框架差异,以及 PPO 里 Critic 如何用 rollout 回报学习价值估计。
同题还出现在 1 个公司岗位
RLHF/PPO 中为什么要用 KL 散度约束,过强或过弱会带来什么问题?
这题考 RLHF/PPO 中 KL 约束的作用,核心是限制策略偏离参考模型,平衡 reward 优化、语言质量、安全边界和训练稳定性。
大模型强化学习中 Reward 什么时候用规则,什么时候用奖励模型?
这题考大模型 RL 后训练中奖励信号的选型,重点是按可验证性、主观性、成本、覆盖范围和被投机风险决定用规则还是奖励模型。
大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩?
这题考 RL 后训练的失效模式,回答重点是识别训练 reward 与真实质量背离,并用 reward 审计、约束、数据更新和独立评测缓解。
同题还出现在 2 个公司岗位
Agentic RL 项目中,如何判断 SFT 阶段已经可以进入 RL 后训练?
这题考 Agentic RL 的训练阶段判断,重点是 SFT 是否已经让模型具备稳定轨迹、工具协议、基础成功率和可评估 reward,再决定进入 RL。
GRPO 的 loss 如何计算,训练数据应如何组织?
这题考 GRPO 的目标函数直觉和训练样本组织方式,重点是同 prompt 多回答、组内相对优势、token logprob 更新和 KL 约束。
如何用多模态大模型识别商品图片并生成可靠的商品描述?
这题考用多模态大模型从商品图片生成可靠商品描述的完整链路,回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。
多模态大模型遇到未见过的商品或对象时,如何识别不确定性并兜底?
这题考多模态大模型遇到未见过商品或对象时的风险控制,回答重点是不确定性识别、OOD 检测、检索或人工兜底,以及避免把猜测说成事实。
BGE/GTE 这类 Embedding 模型如何训练,为什么不能直接用 BERT-base 余弦召回?
这题考检索向量模型的训练目标差异,重点是 BGE/GTE 这类 embedding 模型面向语义召回训练,而原始 BERT-base 不天然适合直接做余弦检索。
Video-LLaMA 如何把视频、音频和语言模块连接成多模态理解模型?
这题考 Video-LLaMA 类视频多模态模型的模块连接方式,回答重点是视频帧编码、时间信息聚合、音频分支、投影对齐和语言模型生成。
LoRA 初始化和 rank 应如何选择,rank 过大或过小有什么影响?
这题考 LoRA 的低秩增量参数如何初始化和选 rank,重点是保持初始等价、控制容量成本,并用验证集判断欠拟合或过拟合。
BLIP-2 的两阶段训练流程和损失函数如何把视觉编码器接入语言模型?
这题考 BLIP-2 如何用两阶段训练把冻结视觉编码器接入冻结语言模型,回答重点是 Q-Former、图文对齐损失和语言建模损失的职责分工。
大模型基础训练阶段为什么不能直接用 SFT 代替预训练?
这题考基础预训练和 SFT 的目标差异,重点是预训练用海量多样语料学习通用能力,SFT 只是在已有底座上教指令格式和偏好行为。
从产品经理视角看,垂类大模型训练中能贡献哪些数据、场景、评测和业务闭环?
这题考产品经理在垂类大模型训练中的贡献边界,重点不是讲训练算法细节,而是讲场景定义、数据建设、评测体系和业务闭环。
MCP 的传输层有哪些方式,stdio 和 Streamable HTTP 分别适合什么场景?
这题考 MCP 的通信协议和传输层取舍,回答重点是 MCP 定义的是客户端、服务器和工具的上下文协议,传输上要区分本地 stdio、当前远程 Streamable HTTP,以及旧 HTTP+SSE 的历史或兼容语境。
前端或应用侧调用大模型 API 时,Prompt 安全设计要覆盖哪些风险和链路?
这题考前端或应用侧调用大模型 API 时的安全链路,回答重点是不要把密钥和权限放到浏览器,Prompt 安全要覆盖注入、越权、敏感信息和输出治理。
前端如何用 SSE 实现 AI 流式输出,并做好增量渲染和吐字动画?
这题考前端如何用 SSE 承接 AI 流式输出并实现稳定的吐字动画,回答重点是流解析、增量状态、渲染节流、取消重连和边界处理。
LLM 推理中 Continuous Batching 和 Prefix Caching 如何影响请求切分、batch 维度和吞吐/延迟取舍?
这题考 LLM 推理调度中的 Continuous Batching 和 Prefix Caching,回答重点是请求在 prefill/decode 阶段如何切分、按什么维度组 batch,以及吞吐和延迟如何取舍。
LLM 训练或推理中 FP8 和 BF16 如何按吞吐、显存和稳定性取舍?
这题考 LLM 训练或推理中 FP8 和 BF16 的精度格式取舍,回答重点是显存、带宽、吞吐、数值稳定性和工程校准,不应断言所有 DeepSeek 或 Qwen 版本的内部实现。
给定输入 shape 为 (b, s, h),如何估算 Multi-Head Attention 的计算量?
这题考给定输入 shape 为 (b, s, h) 时如何估算 MHA 计算量,回答重点是 QKV 投影、注意力矩阵、加权求和和输出投影,其中长序列瓶颈来自 O(b s^2 h)。
FlashAttention 的核心原理是什么,为什么能降低长序列 attention 的显存和 IO 开销?
这题考 FlashAttention 的 IO-aware 原理,回答重点是它不改变标准 attention 数学结果,而是通过分块、在线 softmax 和重计算减少显存读写。
同题还出现在 1 个公司岗位
为什么 RMSNorm 在大模型中比 LayerNorm 更常见?
这题考 RMSNorm 为什么在大模型中常见,回答重点是它去掉均值中心化,只按均方根做尺度归一化,计算更简单且通常足够稳定。
如何手写 Beam Search,并处理候选扩展、剪枝和停止条件?
这题考如何手写 Beam Search,回答重点是维护 beam 候选、逐步扩展、按累计分数 top-k 剪枝、处理 EOS 停止并返回最优序列。
分布式 MoE 中 Gate 网络如何完成路由通信,容易出现哪些通信瓶颈?
这题考分布式 MoE 的真实执行链路,重点不是只说 Gate 选专家,而是讲清 token 路由、all-to-all dispatch、专家计算、结果回传以及负载不均带来的通信瓶颈。
当 MoE 专家数量增至上千时,如何优化路由决策延迟?
这题考 MoE 专家规模扩大后的路由扩展性,回答要把 router 计算、top-k 选择、候选专家缩小、设备映射和 dispatch 准备放在一条低延迟链路里分析。
MoE 专家数量远超过 GPU 数量时,专家调度和放置策略如何设计?
这题考专家并行的资源放置和运行时调度,回答要围绕专家驻留、冷热专家、token 分桶、负载均衡、通信拓扑和训练推理差异展开。
Soft MoE 和 Hard MoE 有什么区别,为什么工程上更常见 Hard MoE?
这题考 MoE 路由形式和工程取舍,重点是区分软混合的平滑训练优势与硬路由的稀疏计算优势,并解释为什么大模型部署更偏向 Hard MoE。
Transformer FFN 为什么通常先升维再降维,这对表达能力和计算量有什么影响?
这题考 Transformer MLP/FFN 的基本机制:逐 token 的非线性变换、扩展中间维提升表达能力,再投回 hidden size 以便残差连接和层间堆叠。
训练长文本翻译模型时,数据集应如何构建以保证上下文一致性和译文质量?
这题考开放场景下的 document-level translation 数据构建。回答重点是文档级平行语料、分段对齐、上下文窗口、术语一致性、质量过滤和长文评估。
LLM 推理算子优化中,Memory Coalescing 和 Bank Conflict 分别是什么,如何影响显存访问效率?
这题考 CUDA 访存优化在 LLM 推理算子里的基本功。回答要把 GMEM 的连续合并访问、SMEM 的 bank 并行访问、warp 级访问模式和 profiling 现象连起来,而不是只背两个定义。
LLM 推理算子中,Tensor Core、WMMA 和 MMA 分别是什么,工程上如何选择使用层级?
这题考候选人是否理解 NVIDIA GPU 矩阵乘加的硬件、CUDA C++ 抽象和更底层指令接口。回答要能说明 Tensor Core 是硬件单元,WMMA 是较高层 CUDA API,MMA 是更贴近指令和 PTX 的矩阵乘加操作。
LLM 推理算子变慢时,如何判断瓶颈是 Memory Bound 还是 Compute Bound?
这题考算子性能诊断方法。回答要从理论 roofline、算术强度、实际 profiler 指标、stall reason 和优化方向闭环判断,而不是只说“看 GPU 利用率”。
单机多卡 LLM 推理中的分布式 GEMM 如何切分矩阵,并完成跨 GPU 通信?
这题考 tensor parallel 下 GEMM 切分和 collective communication 的基本工程理解。回答要能把矩阵维度切分、局部计算、AllReduce/AllGather/ReduceScatter、通信计算重叠和推理场景约束讲清楚。
LLM 推理服务如何做流量调度,兼顾模型副本、队列长度、KV 资源和延迟 SLO?
这题考 LLM 推理服务的请求路由和服务治理。回答要围绕模型副本选择、prefill/decode 队列、KV cache 资源、batching、优先级、SLO 和故障降级展开,避免泛泛而谈负载均衡。
AI 创作产品如何把模型 API 参数、上下文和链路配置转成产品可控的效果杠杆?
这题考产品经理是否能把模型能力翻译成可控产品体验。优秀答案要说明:不要把底层参数裸露给用户,而要按任务场景封装成模式、预设、质量档位、创作约束、成本/时延策略和安全策略,并通过离线评测、A/B 实验、监控和版本治理形成闭环。
大模型内容运营如何搭建标注规范、数据集和质量评测闭环?
这题考内容运营能否把大模型评测从零散打标升级为可复用的质量生产系统。高质量回答应覆盖目标定义、标注规范、样本集建设、标注质检、一致性度量、Prompt 评测和问题回流迭代。
客户对大模型生成文案不满意时,AIGC 产品经理如何定位问题并推动改进?
这题考 AIGC 产品经理面对客户负反馈时的闭环能力。好的回答要先稳定客户和收集证据,再把不满意拆成质量、场景、输入、知识、合规、风格和预期管理问题,最后用评测集、产品能力和交付沟通推动改进。
LLM 长上下文推理中,KV Cache 压缩如何降低显存占用,和 Prefix Cache 的作用有什么区别?
这题考长上下文 LLM 推理中的显存管理。回答要把 Prefix Cache 的跨请求前缀复用和 KV Cache 压缩的单次/多次请求显存降载区分开,再说明压缩策略、精度损失、服务集成和评估指标。