岗位索引

AI 应用开发工程师面试题库

AI 应用开发面试题解析,覆盖 Agent、RAG、工具调用、Prompt 工程和大模型应用落地。

43 道题 10 个公司 46 个知识点

AI 应用开发相关面试题

Agent 开发框架通常由哪些核心组件组成,Planner、Memory、Tools、Executor 和 Evaluator 分别负责什么?

这题考察候选人是否能把 Agent 从“调用大模型的应用”拆成可工程化的运行系统。好的回答应说明 Planner 负责把目标拆成步骤,Memory 负责保留和检索上下文,Tools 负责连接外部能力,Executor 负责按计划执行并处理状态,Evaluator 负责判断结果质量和是否需要重试、修正或终止。重点不是背组件名,而是讲清楚组件之间的数据流、控制流、失败兜底和可观测性。

知识卡片抽取 Prompt 中为什么要同时写好示例和坏示例,如何用正反 few-shot 稳定结构化输出?

这题考察 Prompt Engineering 在结构化抽取任务中的设计能力。知识卡片抽取不是泛泛总结,而是把原始内容稳定映射到字段、格式和质量标准。好示例告诉模型什么是合格输出,坏示例和反例告诉模型哪些边界、误抽、过度概括和格式错误不能接受。优秀回答应覆盖 schema 约束、正反 few-shot、错误类型、评估指标和迭代方法。

Agent Skill 如何用渐进式披露按需加载能力说明、执行步骤和工具细节?

这题考察 Agent Skill 的核心机制,以及如何通过渐进式披露降低上下文负担。Skill 不是简单工具函数,而是一组可被 Agent 发现、选择和执行的能力包,通常包含能力说明、适用条件、输入输出、执行步骤、工具依赖和失败处理。渐进式披露的关键是先暴露轻量索引和选择信号,只有命中时再加载详细说明、示例和执行细节。

大模型 SFT 从数据构建到训练通常怎么做,SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题?

这题考察候选人是否真正理解大模型对齐训练链路,而不是只会背 SFT、DPO、RLHF 这些名词。好的回答要先讲 SFT 的数据构建、清洗、格式化、训练和评估流程,再解释 SFT 主要让模型学会按指令输出,DPO/RLHF/PPO 等 Post-Training 进一步处理偏好对齐、安全边界、复杂任务奖励和人类反馈优化。面试重点是区分每个阶段解决的问题、依赖的数据形态和带来的风险。

多工具 Agent 如何设计工具选择与调用调度链路,并在超时、参数错误或工具失败时做 fallback?

这题考察多工具 Agent 的工程调度能力。好的回答不能停在“让模型选择工具”,而要说明工具注册、候选召回、参数生成、权限校验、执行编排、状态记录、错误分类和 fallback 策略。面试官重点看你是否能把不稳定的 LLM 工具调用变成可观测、可恢复、可降级的业务链路。

Agent 评估体系应该覆盖哪些维度,如何分别衡量规划能力、任务成功率和幻觉率?

这题考察 Agent 评估体系设计。好的回答要把评估拆成任务成功、规划质量、工具调用质量、事实一致性、幻觉率、安全合规、成本延迟和用户体验等维度。规划能力和幻觉率不能都靠主观打分,应该结合离线任务集、步骤级 trace、工具结果、证据对齐、人工标注和线上指标。

多轮对话中 Attention 为什么可能导致历史信息衰减?

多轮对话中历史信息衰减,不是 Attention 单一机制的错误,而是注意力权重竞争、上下文窗口容量、位置距离、长文本噪声、摘要压缩、KV cache 截断等因素叠加后的结果。核心现象是:随着新轮次不断加入,早期信息虽然可能仍在上下文中,但在模型计算当前 token 时获得的有效影响力下降,甚至被截断、压缩或检索失败,从而表现为遗忘、答非所问或前后不一致。

同题还出现在 1 个公司岗位

Agent 工具服务为什么要独立部署并注册到 Nacos,而不是直接用 MCP 暴露工具?

这题考 Agent 工具服务的工程化部署边界:Nacos 解决服务发现和治理,MCP 解决模型侧工具协议,二者不是同一层能力,不能简单互相替代。回答时要强调在已有微服务治理体系下,Nacos 更适合管理真实工具服务的实例、健康、配置和流量,MCP 更适合统一工具契约、schema 和 Agent 侧调用方式。

AI 应用开发中的原子状态机是什么?如何用有限状态、原子转移和异常状态约束执行流程,避免状态错乱、重复执行和异常无法收敛?

这道题考察 AI 应用或 Agent runtime 的流程约束能力。原子状态机不是让大模型自由决定下一步,而是把执行拆成有限状态、受控事件和原子转移:每次转移都校验前置状态、写入持久状态、绑定幂等键或执行记录,再推进任务或恢复异常。它解决的是状态错乱、重复执行、异常恢复、并发竞争和流程无法收敛问题。好的回答要能讲出状态集合、转移表、异常状态、幂等、锁/CAS、step budget、可观测性和验证指标。

对接多家国内大模型官方 API 时,如何设计统一调用网关来屏蔽接口差异?

这题考察的是多大模型供应商接入时的工程抽象能力,不是简单写几个 if else 适配接口。好的统一调用网关要把业务层看到的协议收敛成稳定的内部模型契约,同时把供应商差异隔离在 adapter 层:消息格式、模型名、参数范围、流式协议、错误码、限流、鉴权、计费、上下文长度、工具调用、JSON 输出能力都不能泄漏给上层。架构上通常分为统一 API、路由与策略、provider adapter、可靠性治理、观测与审计、配置和灰度几个部分。回答要强调边界:网关不是只做转发,而是承担能力抽象、故障隔离、降级切换、成本治理和可观测性;但也不能把所有模型能力抹平成最低公约数,否则会损失模型特性。因此设计上要有基础统一契约和可扩展 capability 描述,既屏蔽常见差异,又允许业务显式选择高级能力。

用 LangChain 编排 AI 工作流时,如何和原生调用、自研引擎做选型,并分析各自优缺点和瓶颈?

这题考察的是 AI 工作流编排的技术选型,而不是问 LangChain 好不好。高质量回答要先拆清楚业务复杂度:只是单轮模型调用、少量 prompt 链、RAG 检索增强、工具调用、长流程状态机、多 Agent 协作,还是需要可视化编排、回放、权限、灰度和审计。原生调用的优势是简单、可控、性能和依赖风险低,适合链路短、业务稳定、团队希望自己掌握协议的场景;LangChain 的优势是生态组件多、原型快、抽象现成,适合探索期和标准 RAG/Tool/Agent 流程,但瓶颈是抽象层厚、版本变化、调试复杂、性能和可观测性需要补强;自研引擎适合业务流程复杂、稳定性和治理要求高、需要平台化复用的场景,但成本高、周期长,容易重复造轮子。最终选型不是三选一的宗教问题,而是按阶段演进:原型期可以用框架提速,核心生产链路要收敛成自己的稳定接口和可观测执行模型。

AI/自动化 Agent 平台如何结合 Jenkins 调度执行、Linux 日志采集解析和配置规则治理,实现状态回传、参数校验,并从拉日志演进到自动排障?

这题考 AI/自动化 Agent 平台的工程落地能力,重点是 Jenkins 调度、Linux 多机日志采集、配置规则治理、状态回传、参数校验,以及从拉日志工具演进到自动诊断和受控排障的路线。

微调 Qwen 这类大模型时,learning rate scheduler 应如何设计?如何确定 step 口径、warmup、cosine/linear decay、最小学习率和峰值学习率?

这题考察的不是背诵某个 scheduler,而是能否把 Qwen 微调中的学习率设计拆成训练稳定性、收敛效率、泛化效果和版本选择四件事。好的回答要明确 step 口径、warmup 比例、衰减曲线、最小学习率和峰值学习率。

Function Call / Agent 工具调用不正确时,如何用 SFT 或 GRPO 设计数据与奖励函数来提升能力?

这题考 Agent 工具调用能力的训练闭环。回答要先把错误分型讲清,再说明 SFT 如何构造正负样本和多轮轨迹,GRPO 如何用可执行环境中的细粒度奖励优化工具选择、参数填写、调用顺序、结果使用和最终回答,同时要覆盖离线评测、在线灰度和安全护栏。

AI Agent 遇到上下文污染、任务过长或工具结果不可靠时,如何用上下文裁剪、状态机拆分和工具链治理提升稳定性?

这题考 Agent 稳定性治理。关键是把上下文污染、长任务失控和工具不可靠拆开处理:上下文裁剪保证输入干净,状态机拆分保证任务可控,工具链治理保证外部结果可验证,再用 trace、回放、评测和恢复策略形成生产闭环。

主流 Agent 框架如何选型,如何按 RAG 检索、有状态工作流、多 Agent 协作、工具/记忆/检索能力和自主性与可控性边界做取舍?

这题考 Agent 框架选型边界,而不是背框架名。好的回答应按业务需要拆分:RAG 检索优先看数据索引和检索评估,有状态工作流优先看可控状态机,多 Agent 协作优先看角色协议和收敛性,工具、记忆、检索抽象要看边界清晰度,最终在 Agent 自主性和工程可控性之间取舍。