企业协作场景的 AI 智能伙伴如何设计评测集和指标体系？｜字节跳动产品面经解析

60 秒回答模板

我会先按企业协作助手的核心任务建评测集，而不是只收一批闲聊问题。数据集应覆盖信息检索、会议或文档总结、任务拆解、日程和待办处理、消息草稿、跨应用操作、权限受限请求、多人协作上下文和异常输入。每条样本要有用户意图、可见上下文、权限身份、期望结果、可接受动作、不可触碰信息和评分标准。指标上分几层：第一是任务完成率，看是否真正帮用户完成目标；第二是事实性和引用准确率，看总结、检索和回答是否基于给定资料；第三是权限与安全，看是否越权读取、泄露隐私、误执行高风险动作；第四是效率，看响应时延、交互轮数、人工编辑量和自动化节省时间；第五是用户满意度和线上反馈，看采纳率、撤销率、差评原因、复用率和人工纠错。离线评测用于回归和模型比较，线上指标用于观察真实场景效果，两者要通过 badcase 标注持续互相补充。

考点 按协作任务建集

难度 真实面经题

回答目标 设计评测集和指标分层

深入解析

先定义任务边界

企业协作 AI 智能伙伴不是泛聊天机器人，它的价值来自帮助用户完成协作任务。评测集要按任务类型覆盖：查找组织内信息、总结会议或长文档、生成回复和文案、拆解项目任务、安排日程、跟进待办、跨工具执行操作、解释制度流程、提醒风险和协助多人对齐。每类任务都要明确输入、上下文、允许动作和成功标准，否则指标会变成泛泛的好不好用。

构造分层评测集

评测集应由真实样本、人工设计样本和对抗样本组成。真实样本来自脱敏后的用户请求、线上 badcase 和高频工作流；人工样本补齐关键能力和边界条件；对抗样本覆盖越权访问、提示注入、隐私泄露、错误身份、冲突指令和高风险操作。样本 metadata 要包含任务类型、用户角色、权限范围、上下文来源、难度、是否需要工具、是否有标准答案，以及评分 rubric。这样才能按场景切片比较模型和策略。

任务完成指标

任务完成率是顶层指标，但不能只看模型有没有回答。对检索类任务，看是否找到正确信息并给出可追溯依据；对总结类任务，看是否覆盖关键结论、行动项、负责人和时间；对执行类任务，看是否调用正确工具、参数正确、是否需要确认；对创作类任务，看是否符合收件人、语气、事实和格式。复杂任务还要看首轮完成率、澄清问题质量和多轮完成率。

事实性和一致性

企业协作场景非常怕把内部信息总结错或编造不存在的结论。事实性指标应包括答案与来源一致性、引用准确率、关键信息覆盖率、数字和日期正确率、行动项抽取准确率、冲突信息处理能力和不知道时拒答率。对于没有唯一标准答案的总结或草稿，可以用人工评审和校准过的 LLM judge 结合，但必须保留人工抽检，避免评测器偏好流畅但不真实的输出。

权限安全指标

企业协作助手必须把权限安全作为独立指标，而不是藏在满意度里。要评估是否只访问当前用户有权查看的文档、消息和人员信息，是否拒绝跨权限请求，是否在高风险操作前二次确认，是否抵抗上下文里的提示注入，是否泄露个人隐私或敏感业务信息。执行类能力还要看误操作率、撤销率、审计日志完整性和最小权限调用。

效率与体验指标

AI 助手的价值还体现在减少协作成本。效率指标可以看响应时延、任务完成耗时、平均交互轮数、人工编辑距离、用户是否采纳建议、是否减少搜索和切换工具的次数。体验指标可以看满意度、点赞点踩、追问率、重新生成率、人工接管率、次日或周留存、同类任务复用率。效率指标要和质量护栏一起看，不能用更快但更错的答案换表面效率。

线上反馈闭环

离线评测集很难覆盖所有企业协作上下文，因此线上反馈必须进入闭环。需要记录用户是否采纳、编辑了哪些内容、是否撤销工具调用、是否投诉或举报、人工纠错原因、失败发生在哪类任务。线上 badcase 经过脱敏和权限处理后进入回归集，形成按版本比较的固定样本。这样每次模型、prompt、RAG 或工具策略变更，都能证明核心任务没有回退。

易错点

把企业协作助手评测写成通用 AI 产品指标，只谈 DAU、留存和满意度，不评估任务完成和权限安全。
只做通用问答评测集，缺少会议总结、文档检索、待办执行、日程协同和跨工具任务样本。
用一个总分评价模型，掩盖越权访问、敏感信息泄露和误执行这类硬失败。
只看回答是否流畅，不检查事实是否来自给定上下文、引用是否准确、日期和负责人是否正确。
离线评测集一次性建设后不更新，线上 badcase、用户编辑和撤销反馈没有进入回归闭环。

面试官追问

企业协作 AI 助手的评测集和普通聊天机器人有什么不同？

企业协作评测集更强调任务完成、上下文依据、权限边界和工具执行。普通闲聊可以看有用性和流畅度，但协作助手必须证明它没有越权、没有编造内部事实，并且真的减少了工作成本。

没有标准答案的总结类任务怎么评估？

可以用 rubric 拆成关键信息覆盖、事实一致性、行动项准确、结构清晰、无臆造等维度，由人工标注小样本校准，再用 LLM judge 做规模化辅助评分，并保留人工抽检。

权限安全指标为什么要单独列出来？

因为一次越权或泄露的风险远高于一次普通回答不满意。平均质量分可能掩盖安全失败，所以权限、隐私、提示注入和高风险操作确认必须作为硬性护栏指标。

线上反馈如何进入离线评测集？

把点踩、撤销、人工改写、投诉、工具失败和高频追问做脱敏归因，标注失败类型和期望行为，再加入回归集。后续每次模型或策略变更都跑这些 badcase，防止同类问题复发。