公司岗位题库

阿里巴巴 AI 应用开发面经

14 道题 21 个标签 14 条出现记录

AI 应用开发工程师相关题目

大模型 SFT 从数据构建到训练通常怎么做,SFT 之后 DPO、RLHF/PPO、RL 等 Post-Training 分别解决什么问题?

这题考察候选人是否真正理解大模型对齐训练链路,而不是只会背 SFT、DPO、RLHF 这些名词。好的回答要先讲 SFT 的数据构建、清洗、格式化、训练和评估流程,再解释 SFT 主要让模型学会按指令输出,DPO/RLHF/PPO 等 Post-Training 进一步处理偏好对齐、安全边界、复杂任务奖励和人类反馈优化。面试重点是区分每个阶段解决的问题、依赖的数据形态和带来的风险。

多工具 Agent 如何设计工具选择与调用调度链路,并在超时、参数错误或工具失败时做 fallback?

这题考察多工具 Agent 的工程调度能力。好的回答不能停在“让模型选择工具”,而要说明工具注册、候选召回、参数生成、权限校验、执行编排、状态记录、错误分类和 fallback 策略。面试官重点看你是否能把不稳定的 LLM 工具调用变成可观测、可恢复、可降级的业务链路。

Agent 评估体系应该覆盖哪些维度,如何分别衡量规划能力、任务成功率和幻觉率?

这题考察 Agent 评估体系设计。好的回答要把评估拆成任务成功、规划质量、工具调用质量、事实一致性、幻觉率、安全合规、成本延迟和用户体验等维度。规划能力和幻觉率不能都靠主观打分,应该结合离线任务集、步骤级 trace、工具结果、证据对齐、人工标注和线上指标。

多轮对话中 Attention 为什么可能导致历史信息衰减?

多轮对话中历史信息衰减,不是 Attention 单一机制的错误,而是注意力权重竞争、上下文窗口容量、位置距离、长文本噪声、摘要压缩、KV cache 截断等因素叠加后的结果。核心现象是:随着新轮次不断加入,早期信息虽然可能仍在上下文中,但在模型计算当前 token 时获得的有效影响力下降,甚至被截断、压缩或检索失败,从而表现为遗忘、答非所问或前后不一致。

同题还出现在 1 个公司岗位

微调 Qwen 这类大模型时,learning rate scheduler 应如何设计?如何确定 step 口径、warmup、cosine/linear decay、最小学习率和峰值学习率?

这题考察的不是背诵某个 scheduler,而是能否把 Qwen 微调中的学习率设计拆成训练稳定性、收敛效率、泛化效果和版本选择四件事。好的回答要明确 step 口径、warmup 比例、衰减曲线、最小学习率和峰值学习率。

主流 Agent 框架如何选型,如何按 RAG 检索、有状态工作流、多 Agent 协作、工具/记忆/检索能力和自主性与可控性边界做取舍?

这题考 Agent 框架选型边界,而不是背框架名。好的回答应按业务需要拆分:RAG 检索优先看数据索引和检索评估,有状态工作流优先看可控状态机,多 Agent 协作优先看角色协议和收敛性,工具、记忆、检索抽象要看边界清晰度,最终在 Agent 自主性和工程可控性之间取舍。