Agent 场景下 Prompt 自动优化应如何工程化设计？｜百度后端开发面经解析

60 秒回答模板

Agent 场景下做 Prompt 自动优化，不能让模型随便改 prompt 后直接上线。我会把 prompt 当成版本化配置，先定义目标指标和回归集，例如任务成功率、工具调用正确率、格式合规率、澄清质量、安全拒答、延迟和成本。然后生成候选 prompt，可以由 LLM 基于 badcase 总结改写，也可以用规则模板、参数化片段或进化搜索生成多版本。候选必须先过离线评测：固定输入集、标准答案或 rubric、工具调用模拟、安全样本和成本统计，和当前线上版本做差分。通过后再小流量 canary 或 A/B，监控成功率、投诉、人工审核、安全告警和延迟。任何版本都要可追踪、可解释、可回滚；高风险 prompt 还要人工 review。核心是自动化提出候选和评测排序，但上线决策必须有门禁和回滚机制。它和系统 Prompt 设计不同，重点不在手写边界和缺槽策略，而在如何安全地搜索、评估和发布 prompt 变更。

考点 prompt 版本库

难度 真实面经题

回答目标 讲清自动优化的评测和发布闭环

深入解析

先把 Prompt 版本化

自动优化的前提是 prompt 可管理。每个 prompt 版本要记录内容、适用 Agent、工具 schema 版本、变更原因、作者或生成器、评测结果和上线范围。否则自动生成的候选一多，就很难知道哪次改动导致效果变化。

目标指标不能只看好看

Agent prompt 的指标应覆盖任务成功率、工具选择准确率、参数正确率、输出格式、澄清质量、安全拒答、幻觉率、人工修正率、延迟和 token 成本。不同任务可以有不同权重，但必须提前固定，否则自动优化会追逐单一分数，牺牲安全和稳定性。

候选生成要受约束

候选 prompt 可以来自 LLM 对 badcase 的反思改写、模板参数搜索、few-shot 示例替换、规则片段组合或进化式搜索。但生成器必须遵守不改工具权限、不删除安全规则、不改变输出 schema 等硬约束。自动优化不是让模型自由重写系统边界。

离线评测做第一道门禁

每个候选要在固定回归集上和基线比较，样本要覆盖正常任务、边界意图、缺槽位、工具失败、提示注入和安全拒答。评测可以包含规则检查、模型裁判、人工标注和工具模拟，但必须防止过拟合评测集，最好有开发集、验证集和保留测试集。

线上灰度验证真实效果

离线通过不代表线上有效。上线前应做 shadow、canary 或 A/B，观察真实用户分布下的成功率、负反馈、人工介入、安全告警、工具错误、延迟和成本。灰度要有停止条件，不能让坏 prompt 长时间影响用户。

回滚和人工 review 是底线

Prompt 自动优化适合提高迭代效率，但不能取消治理。高风险领域要人工 review；每次发布要保留上一稳定版本；异常指标触发自动回滚；所有输入输出和评测结论要可审计。面试回答要体现候选生成、评测、上线和回滚是一个闭环。

易错点

把自动优化说成让 LLM 写一个更好的 prompt，没有候选、评测和发布闭环。
只看回答是否更像人话，不看工具调用、格式、安全、成本和延迟。
让候选 prompt 随意改系统边界，可能删除权限和安全约束。
离线评测集太小或反复调同一批样本，造成过拟合。
没有灰度、监控和回滚，坏 prompt 一上线就影响全部用户。
把模型裁判当成绝对真值，忽略人工抽检和业务标注。

面试官追问

Prompt 自动优化最容易出什么风险？

最常见是过拟合评测集、删除安全约束、改变输出格式、提高单项指标但损害工具调用或成本。必须有硬约束和回归评测。

候选 prompt 如何生成？

可以让 LLM 根据 badcase 生成改写，也可以用模板参数、few-shot 选择、规则片段组合或进化搜索。关键是生成空间要受业务和安全约束。

模型裁判能不能完全替代人工评审？

不能。模型裁判适合规模化初筛，但高风险、安全边界、复杂业务正确性仍需要人工抽检或专家标注。

如何避免自动优化过拟合固定样本？

把样本分成开发、验证和保留测试集，定期加入新 badcase，限制针对单个样本的改写，并用线上灰度验证真实分布。

什么时候不应该自动上线最优 prompt？

安全样本失败、输出 schema 改变、工具权限边界变化、延迟成本超预算、人工审核未通过或线上灰度异常时，都不应该自动全量上线。

Prompt 优化和模型微调怎么取舍？

Prompt 优化适合快速调整任务说明、工具边界、格式和少量示例；如果大量样本都需要改变稳定行为或模型能力不足，再考虑微调。