岗位题目
AI 应用开发相关面试题
Agent 开发框架通常由哪些核心组件组成,Planner、Memory、Tools、Executor 和 Evaluator 分别负责什么?
这题考察候选人是否能把 Agent 从“调用大模型的应用”拆成可工程化的运行系统。好的回答应说明 Planner 负责把目标拆成步骤,Memory 负责保留和检索上下文,Tools 负责连接外部能力,Executor 负责按计划执行并处理状态,Evaluator 负责判断结果质量和是否需要重试、修正或终止。重点不是背组件名,而是讲清楚组件之间的数据流、控制流、失败兜底和可观测性。
知识卡片抽取 Prompt 中为什么要同时写好示例和坏示例,如何用正反 few-shot 稳定结构化输出?
这题考察 Prompt Engineering 在结构化抽取任务中的设计能力。知识卡片抽取不是泛泛总结,而是把原始内容稳定映射到字段、格式和质量标准。好示例告诉模型什么是合格输出,坏示例和反例告诉模型哪些边界、误抽、过度概括和格式错误不能接受。优秀回答应覆盖 schema 约束、正反 few-shot、错误类型、评估指标和迭代方法。
Agent Skill 如何用渐进式披露按需加载能力说明、执行步骤和工具细节?
这题考察 Agent Skill 的核心机制,以及如何通过渐进式披露降低上下文负担。Skill 不是简单工具函数,而是一组可被 Agent 发现、选择和执行的能力包,通常包含能力说明、适用条件、输入输出、执行步骤、工具依赖和失败处理。渐进式披露的关键是先暴露轻量索引和选择信号,只有命中时再加载详细说明、示例和执行细节。
Agent 上下文压缩应该在什么时候触发,如何在 token 预算、信息损失和任务连续性之间取舍?
这题考上下文压缩的运行时策略:触发点不能只看 token 快满,而要结合任务阶段、信息密度、工具结果、记忆状态、失败风险和可恢复性来决定。
同题还出现在 1 个公司岗位
Agent 短期记忆应何时抽取、存放到哪里,并如何拼进 System Prompt?
这题考 Agent 短期记忆的工程链路,回答要区分对话缓冲、摘要、抽取事实和工具状态,并说明抽取时机、存储位置、Prompt 拼装顺序、预算控制和失效规则。
同题还出现在 2 个公司岗位
AI Coding Agent 如何从人工逐步确认切换到自主执行,权限、审批策略、风险护栏和回滚机制应如何设计?
这题考 Agent 自主化的安全工程:不是简单关闭确认按钮,而是用风险分级、最小权限、策略审批、沙箱执行、自动验证和回滚审计来决定哪些动作可以自动做。
同题还出现在 1 个公司岗位
Agent 系统中 Multi-Agent、One-Agent 和 LLM+Workflow 应如何选型?
这题考 Agent 架构模式选型,回答重点是 Multi-Agent、One-Agent 和 LLM+Workflow 在复杂度、可控性、成本、延迟、可观测性和适用场景上的取舍。
同题还出现在 2 个公司岗位
大模型 SFT 从数据构建到训练通常怎么做,SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题?
这题考察候选人是否真正理解大模型对齐训练链路,而不是只会背 SFT、DPO、RLHF 这些名词。好的回答要先讲 SFT 的数据构建、清洗、格式化、训练和评估流程,再解释 SFT 主要让模型学会按指令输出,DPO/RLHF/PPO 等 Post-Training 进一步处理偏好对齐、安全边界、复杂任务奖励和人类反馈优化。面试重点是区分每个阶段解决的问题、依赖的数据形态和带来的风险。
多工具 Agent 如何设计工具选择与调用调度链路,并在超时、参数错误或工具失败时做 fallback?
这题考察多工具 Agent 的工程调度能力。好的回答不能停在“让模型选择工具”,而要说明工具注册、候选召回、参数生成、权限校验、执行编排、状态记录、错误分类和 fallback 策略。面试官重点看你是否能把不稳定的 LLM 工具调用变成可观测、可恢复、可降级的业务链路。
Agent 评估体系应该覆盖哪些维度,如何分别衡量规划能力、任务成功率和幻觉率?
这题考察 Agent 评估体系设计。好的回答要把评估拆成任务成功、规划质量、工具调用质量、事实一致性、幻觉率、安全合规、成本延迟和用户体验等维度。规划能力和幻觉率不能都靠主观打分,应该结合离线任务集、步骤级 trace、工具结果、证据对齐、人工标注和线上指标。
多轮对话中 Attention 为什么可能导致历史信息衰减?
多轮对话中历史信息衰减,不是 Attention 单一机制的错误,而是注意力权重竞争、上下文窗口容量、位置距离、长文本噪声、摘要压缩、KV cache 截断等因素叠加后的结果。核心现象是:随着新轮次不断加入,早期信息虽然可能仍在上下文中,但在模型计算当前 token 时获得的有效影响力下降,甚至被截断、压缩或检索失败,从而表现为遗忘、答非所问或前后不一致。
同题还出现在 1 个公司岗位
Agent 的计划模式是什么?如何把用户目标拆成步骤、工具调用和可恢复执行状态?
这题考 Agent 运行机制:计划模式不是让模型多想一会儿,而是把开放目标转成可执行、可观测、可重试、可恢复的任务状态机或工作流。
同题还出现在 1 个公司岗位
大模型 Function Call 为什么会产生工具调用幻觉,工程上如何用 schema、权限、校验和反馈闭环降低误调用?
这题考 Function Call 的工程治理能力:工具调用幻觉不只靠 prompt 解决,还要靠工具契约、调用门禁、参数校验、执行反馈、回退策略和评测闭环共同降低。
同题还出现在 3 个公司岗位
Agent 中上下文工程如何设计,如何组织 System Prompt、工具结果和记忆?
这题考 Agent 上下文工程的结构化设计,回答重点是如何组织 System Prompt、用户任务、工具结果、记忆、约束和截断策略,让模型拿到必要信息而不过载。
同题还出现在 2 个公司岗位
Agent 记忆出现过期或冲突事实时,如何更新、覆盖和回溯?
这题考 Agent 记忆过期和冲突事实的治理,回答要覆盖事实版本、来源置信度、用户确认、覆盖规则、tombstone、审计回溯和 Prompt 侧只使用当前有效记忆。
同题还出现在 1 个公司岗位
Agent 工具服务为什么要独立部署并注册到 Nacos,而不是直接用 MCP 暴露工具?
这题考 Agent 工具服务的工程化部署边界:Nacos 解决服务发现和治理,MCP 解决模型侧工具协议,二者不是同一层能力,不能简单互相替代。回答时要强调在已有微服务治理体系下,Nacos 更适合管理真实工具服务的实例、健康、配置和流量,MCP 更适合统一工具契约、schema 和 Agent 侧调用方式。
AI 应用开发中的原子状态机是什么?如何用有限状态、原子转移和异常状态约束执行流程,避免状态错乱、重复执行和异常无法收敛?
这道题考察 AI 应用或 Agent runtime 的流程约束能力。原子状态机不是让大模型自由决定下一步,而是把执行拆成有限状态、受控事件和原子转移:每次转移都校验前置状态、写入持久状态、绑定幂等键或执行记录,再推进任务或恢复异常。它解决的是状态错乱、重复执行、异常恢复、并发竞争和流程无法收敛问题。好的回答要能讲出状态集合、转移表、异常状态、幂等、锁/CAS、step budget、可观测性和验证指标。
Agent Memory 为什么不能简单塞进 Prompt,渐进式披露如何减少上下文污染?
这题考 Agent Memory 的上下文污染控制,回答重点是为什么不能把全部记忆塞进 Prompt,以及如何通过渐进式披露按任务阶段加载必要记忆。
同题还出现在 1 个公司岗位
视频剪辑智能体的全链路架构如何设计,核心模块的职责和交互逻辑是什么?
这道题考察 AI 应用开发候选人能否把“视频剪辑智能体”设计成可落地的工程系统:从用户意图理解、素材解析、剪辑计划、工具执行、预览修正到渲染导出,拆清楚核心模块、数据结构和交互闭环。
对接多家国内大模型官方 API 时,如何设计统一调用网关来屏蔽接口差异?
这题考察的是多大模型供应商接入时的工程抽象能力,不是简单写几个 if else 适配接口。好的统一调用网关要把业务层看到的协议收敛成稳定的内部模型契约,同时把供应商差异隔离在 adapter 层:消息格式、模型名、参数范围、流式协议、错误码、限流、鉴权、计费、上下文长度、工具调用、JSON 输出能力都不能泄漏给上层。架构上通常分为统一 API、路由与策略、provider adapter、可靠性治理、观测与审计、配置和灰度几个部分。回答要强调边界:网关不是只做转发,而是承担能力抽象、故障隔离、降级切换、成本治理和可观测性;但也不能把所有模型能力抹平成最低公约数,否则会损失模型特性。因此设计上要有基础统一契约和可扩展 capability 描述,既屏蔽常见差异,又允许业务显式选择高级能力。
用 LangChain 编排 AI 工作流时,如何和原生调用、自研引擎做选型,并分析各自优缺点和瓶颈?
这题考察的是 AI 工作流编排的技术选型,而不是问 LangChain 好不好。高质量回答要先拆清楚业务复杂度:只是单轮模型调用、少量 prompt 链、RAG 检索增强、工具调用、长流程状态机、多 Agent 协作,还是需要可视化编排、回放、权限、灰度和审计。原生调用的优势是简单、可控、性能和依赖风险低,适合链路短、业务稳定、团队希望自己掌握协议的场景;LangChain 的优势是生态组件多、原型快、抽象现成,适合探索期和标准 RAG/Tool/Agent 流程,但瓶颈是抽象层厚、版本变化、调试复杂、性能和可观测性需要补强;自研引擎适合业务流程复杂、稳定性和治理要求高、需要平台化复用的场景,但成本高、周期长,容易重复造轮子。最终选型不是三选一的宗教问题,而是按阶段演进:原型期可以用框架提速,核心生产链路要收敛成自己的稳定接口和可观测执行模型。
LLM 流式输出如何设计断点续传、停止生成和 Token 计费?
这题考 LLM 流式输出的服务端语义设计,回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。
同题还出现在 1 个公司岗位
Agent 调用外部工具失败时,如何区分短暂网络抖动、工具服务不可用和业务错误,并设计超时、重试、熔断与降级策略?
这道题考察 AI Agent 工具调用的工程可靠性设计。好的回答不能只说失败就重试,而要先把失败分类,再为不同错误配置超时、退避重试、幂等、防风暴、熔断、降级和观测告警。
AI Agent 在故障排查场景中生成错误建议时,如何用证据约束、置信度、人审/拒答、工具校验和回归评测避免误导用户?
这道题考察故障排查 Agent 的安全边界和质量治理。高质量回答要把错误建议看成高风险输出,通过证据约束、工具校验、置信度、拒答、人审和回归评测降低误导用户的概率。
AI/自动化 Agent 平台如何结合 Jenkins 调度执行、Linux 日志采集解析和配置规则治理,实现状态回传、参数校验,并从拉日志演进到自动排障?
这题考 AI/自动化 Agent 平台的工程落地能力,重点是 Jenkins 调度、Linux 多机日志采集、配置规则治理、状态回传、参数校验,以及从拉日志工具演进到自动诊断和受控排障的路线。
微调 Qwen 这类大模型时,learning rate scheduler 应如何设计?如何确定 step 口径、warmup、cosine/linear decay、最小学习率和峰值学习率?
这题考察的不是背诵某个 scheduler,而是能否把 Qwen 微调中的学习率设计拆成训练稳定性、收敛效率、泛化效果和版本选择四件事。好的回答要明确 step 口径、warmup 比例、衰减曲线、最小学习率和峰值学习率。
RAG 检索召回无关内容时,如何从 query rewrite、混合检索、rerank、过滤和拒答机制处理?
这题考察候选人能否把 RAG 无关召回拆成可诊断、可治理、可评估的检索链路问题,而不是只说调提示词或换模型。
同题还出现在 1 个公司岗位
Function Call / Agent 工具调用不正确时,如何用 SFT 或 GRPO 设计数据与奖励函数来提升能力?
这题考 Agent 工具调用能力的训练闭环。回答要先把错误分型讲清,再说明 SFT 如何构造正负样本和多轮轨迹,GRPO 如何用可执行环境中的细粒度奖励优化工具选择、参数填写、调用顺序、结果使用和最终回答,同时要覆盖离线评测、在线灰度和安全护栏。
AI Agent 遇到上下文污染、任务过长或工具结果不可靠时,如何用上下文裁剪、状态机拆分和工具链治理提升稳定性?
这题考 Agent 稳定性治理。关键是把上下文污染、长任务失控和工具不可靠拆开处理:上下文裁剪保证输入干净,状态机拆分保证任务可控,工具链治理保证外部结果可验证,再用 trace、回放、评测和恢复策略形成生产闭环。
主流 Agent 框架如何选型,如何按 RAG 检索、有状态工作流、多 Agent 协作、工具/记忆/检索能力和自主性与可控性边界做取舍?
这题考 Agent 框架选型边界,而不是背框架名。好的回答应按业务需要拆分:RAG 检索优先看数据索引和检索评估,有状态工作流优先看可控状态机,多 Agent 协作优先看角色协议和收敛性,工具、记忆、检索抽象要看边界清晰度,最终在 Agent 自主性和工程可控性之间取舍。
构建复杂 LLM Agent 时最主要的挑战是什么,如何处理可靠性、规划、工具调用和可观测性?
这题考复杂 Agent 的生产可靠性理解。高质量回答要说明最大的挑战不是“会不会用框架”,而是 LLM 非确定性、规划漂移、工具误调用、上下文污染、循环失控、成本延迟和问题定位困难,并给出工程化治理方案。
Agent 批量任务并发执行时,如何设计动态限流、优先级调度、背压机制和故障隔离,避免系统雪崩?
这题考生产级 Agent 批量任务的稳定性治理。回答要覆盖容量评估、动态限流、优先级调度、背压、隔离、降级和观测,而不是只说加队列或重试。
生产级 Agent 如何工程化实现自我校验、链路复盘、错误归因和动态修正?
这题考生产级 Agent 的质量闭环工程化。重点是把自我校验、链路复盘、错误归因和动态修正落到运行时、数据、评测和前后端体验中,而不是让模型简单反思一句。
客服场景中,Expert Agent 应如何按业务维度拆分,并通过 Prompt 输入、输出约束和预设 Workflow 降低幻觉与泛化损失?
这题考客服 Agent 架构拆分能力。回答要讲清 Expert Agent 的划分维度、Prompt 输入、输出约束、预设 Workflow,以及如何用证据和边界降低幻觉与泛化损失。
客服 Agent 从通用 Agent 拆成 Expert Agent 后,如何设计 A/B 测试与指标归因,判断提升来自路由、Prompt 还是 Workflow,并监控是否引入泛化损失?
这题考架构改造后的实验归因能力。回答要说明如何设计 A/B 测试、拆指标、定位 Expert Agent 带来的收益,同时监控幻觉下降和泛化性损失。
多 Agent 运行时如何基于任务复杂度、风险等级和运行时信号,在单 Agent、规划-执行、并行候选和监督校验之间动态切换,并保证状态迁移和幂等一致?
这题考多 Agent 策略路由与运行时切换。回答要说明哪些策略可选、切换信号是什么、如何保持状态一致,以及如何评估策略选择是否有效。
Agent 异步任务通过消息队列处理时,如何将处理结果与原请求关联,为什么不直接用数据库通信?
这题考 Agent 异步任务的工程链路。回答要讲 correlation id、状态表、幂等、回调、超时和消息队列与数据库的职责边界。
Agent 中多个工具语义相近且副作用不同,如何设计工具命名、description 和 JSON Schema,避免误选、漏参和高风险误触发?
这题考 Function Calling/Agent 工具契约设计。回答要讲工具命名做候选粗筛,description 划清使用/禁用边界,JSON Schema 约束参数和缺失处理,再配合权限、示例和评测降低误调用。
Agent 推理链路中多个工具串行调用导致响应变慢时,如何优化延迟并保证结果可靠?
这题考 Agent 多工具链路性能优化。回答要覆盖依赖分析、并行化、缓存、批处理、模型调用压缩、流式反馈、降级和可靠性校验。
高并发场景下如何设计 Agent 服务的弹性伸缩、核心监控指标和告警策略?
这题考生产级 Agent 服务治理。回答要把弹性伸缩、监控指标、告警策略和容量保护结合起来,而不是只讲加机器。
RAG 文档发生局部更新时,如何通过增量索引避免全量重新向量化,并保证检索结果一致?
这题考生产级 RAG 数据更新。回答要讲文档版本、chunk 变更检测、增量 embedding、索引原子切换、删除 tombstone 和检索一致性。
Agent 按需加载工具说明、规则和上下文的渐进式披露架构下,是否还需要 RAG?二者如何分工与协同?
这题考 Agent 上下文架构和知识检索的边界。回答要说明渐进式披露管工具说明、规则和上下文的按需加载,RAG 管外部事实证据检索,并给出二者协同的执行链路。
电商客服 Agent 覆盖商品咨询、售后咨询和投诉安抚时,如何设计离线评测集、线上指标、用户满意度和提效口径来判断效果好坏?
这题考电商客服 Agent 的评测体系。回答要覆盖离线样本、线上指标、满意度、提效口径、风险指标和数据闭环。