真实面经题目 · 原创解析
创作 Agent 的效果评估指标如何同时覆盖任务成功率、创作质量和用户信任?
这题考创作 Agent 的效果评估体系,回答要同时覆盖任务成功、创作质量、用户信任、安全合规、效率成本和反馈闭环。
真实面经题目 · 原创解析
这题考创作 Agent 的效果评估体系,回答要同时覆盖任务成功、创作质量、用户信任、安全合规、效率成本和反馈闭环。
评估创作 Agent 不能只看任务是否跑完,因为创作结果还涉及质量、风格和信任。我会分三层设计指标。第一层是任务成功率,看 Agent 是否正确理解 brief、调用工具、完成素材生成、编辑、导出等步骤,指标包括任务完成率、失败率、重试率、人工接管率和流程耗时。第二层是创作质量,用人工 rubric 或评测集评估主题契合、原创性、审美、风格一致性、可编辑性、事实准确性和安全合规,也看用户的采纳率、编辑率和导出率。第三层是用户信任,看用户是否愿意复用、是否接受 Agent 的中间决策、是否撤销或投诉、是否给出明确负反馈。最后要把 badcase 分到理解错误、规划错误、工具错误、生成质量差、安全问题和交互不可控,形成迭代闭环。
创作 Agent 首先要完成用户交给它的任务,例如理解需求、拆解步骤、选择工具、生成素材、修改结果和导出成品。基础指标包括任务完成率、步骤成功率、工具调用成功率、失败率、重试次数、人工接管率、平均耗时和超时率。
创作结果不是简单对错题,需要建立评价 rubric。可以评估主题契合度、信息完整性、创意程度、审美质量、风格一致性、可读性或可观看性、品牌或语气一致性、事实准确性和可编辑性。高价值样本最好有人审或专家审,LLM 评审只能作为辅助。
创作质量最终要看用户是否愿意使用结果。可以看生成结果采纳率、编辑率、编辑距离、撤销率、导出率、发布率、复用率、收藏率和付费转化。编辑率不是单纯负面,少量编辑可能表示结果可用,大量推翻式编辑才说明质量问题。
Agent 有自主规划和工具调用能力,用户信任来自过程可控和结果可靠。可以看用户是否查看中间步骤、是否频繁打断、是否回退到手动模式、是否允许 Agent 继续执行、是否对建议点接受,以及投诉、举报和安全拦截情况。
创作 Agent 可能生成侵权、敏感、低俗、虚假或品牌不一致内容,也可能误用用户素材。护栏指标包括安全违规率、版权风险、敏感内容拦截、事实错误、品牌规范命中、隐私泄露和人工审核通过率。没有护栏的高完成率没有意义。
评估不是一次打分。要把失败样本按原因拆分:需求理解错、计划不合理、工具调用失败、素材质量差、风格不符、用户控制感弱或安全问题。不同原因对应提示词、工具、模型、交互和审核策略的不同改法。
任务成功率关注 Agent 是否完成用户目标,例如是否生成了完整方案、是否按约束调用工具、是否交付可用结果。创作质量关注内容新颖性、审美、风格一致、可编辑性和品牌匹配,二者需要分开评分。
可以把信任拆成可控性、可解释性、稳定性、安全性和可恢复性。指标包括用户撤销率、人工审核通过率、引用/步骤可追溯、越权操作次数、投诉率、复用率和用户是否愿意授权更高权限。
要避免用单一自动分数决定创作好坏。可以用人工 Rubric、专家评审、用户采纳、编辑距离、发布表现和自动质量检查组合评估,并按场景区分营销、设计、文案或视频创作。
这说明点击兴趣不等于产出价值。要检查结果是否可直接使用、编辑成本是否过高、生成过程是否太慢、用户是否不信任,或入口是否吸引了非目标用户。
不一定。创作类任务有主观性,但仍可用 Rubric 拆维度:是否满足 brief、是否符合风格、是否新颖、是否安全、是否可编辑。主观维度需要人工校准和用户行为反馈共同判断。
建立 badcase 标签,例如目标误解、工具调用错、风格偏离、事实错误、版权/安全风险、过度自主和结果不可编辑。按类型决定是改 prompt、加约束、优化工具还是降低权限。