真实面经题目 · 原创解析
内容安全类 Agent 需求如何从“万能问答”拆成可评测的原子能力、输入输出契约和停止条件?
这题考的是把模糊的内容安全 Agent 需求工程化。不能把它做成什么都能问、什么都回答的聊天助手,而要拆成可独立评测的能力单元,例如分类、证据抽取、规则匹配、风险解释、处置建议和人工复核触发,并为每个能力定义输入、输出、置信度和停止条件。
真实面经题目 · 原创解析
这题考的是把模糊的内容安全 Agent 需求工程化。不能把它做成什么都能问、什么都回答的聊天助手,而要拆成可独立评测的能力单元,例如分类、证据抽取、规则匹配、风险解释、处置建议和人工复核触发,并为每个能力定义输入、输出、置信度和停止条件。
内容安全类 Agent 最怕一开始被定义成“万能问答”,因为内容安全需要稳定、可审计、可评测,而不是随意聊天。我会先把需求拆成任务链:输入内容接入和归一化、风险分类、证据片段定位、规则或政策匹配、严重程度判断、处置建议、解释生成、人工复核触发和结果记录。每个环节都定义成原子能力,例如“判断文本是否涉违规类别”“抽取触发风险的证据片段”“把证据映射到规则条款”“给出处置等级和置信度”“判断是否需要人工复核”。然后给每个能力写输入输出契约:输入包括内容类型、文本或多模态解析结果、上下文、用户或场景元数据、策略版本;输出必须结构化,包括 label、risk_level、evidence_spans、policy_ids、confidence、action、reason、need_review 和 error。停止条件也要明确:高置信度安全可放行,高置信度违规可建议处置,置信度低、规则冲突、证据不足、超出支持类型或高风险类别必须停止自动回答并转人工或返回无法判定。评测上要按能力拆指标,看分类准确率、证据命中率、规则映射正确率、误杀率、漏放率、复核触发率、解释一致性和延迟成本。这样 Agent 才能从模糊问答变成可治理的内容安全工作流。
内容安全系统的核心目标不是回答所有问题,而是对具体内容做风险识别和处置辅助。要先限定支持的内容类型、风险类别、业务场景、策略版本、输出责任和自动化边界。没有边界的问答会导致同一输入每次解释不同,也很难对误杀和漏放负责。
可以把能力拆成接入归一化、内容理解、风险分类、证据抽取、规则匹配、严重程度判断、处置建议、解释生成、人工复核触发和审计记录。每个能力都应能单独运行、单独评测、单独替换。这样某一层效果不好时可以定位,而不是只看到最终结论错。
内容安全判断往往依赖上下文。输入契约除了正文,还应包含内容类型、语言、场景、用户可见上下文、历史对话、图片或视频解析结果、业务线、地区、年龄或权限约束、策略版本和请求渠道。缺少这些字段时,Agent 应进入补充、降级或人工复核,而不是臆测。
输出不能只有一句“违规”。应包含风险类别、严重程度、证据片段、命中规则、置信度、建议动作、解释、是否需要人工复核、错误或无法判定原因。结构化输出便于评测、复核、申诉、报表和策略迭代,也能避免生成式解释和实际处置标签不一致。
内容安全 Agent 要知道什么时候不继续自动判断。典型停止条件包括置信度低、规则冲突、证据不足、输入超出支持类型、解析失败、高风险类别、疑似对抗样本、需要法律或人工策略判断。停止后可以转人工、请求更多上下文或返回无法判定,而不是强行给结论。
分类能力看 precision、recall、漏放和误杀;证据抽看看 span 命中和覆盖;规则映射看 policy id 正确率;处置建议看动作一致性;复核触发看高风险召回和人工负担;解释生成看是否忠实于证据和规则。拆开评测才能知道该优化模型、规则、prompt 还是流程。
内容安全不是一次性模型判断。Agent 输出要进入人工复核、申诉、策略更新和样本回流流程。人工纠正结果应能标注到具体能力层,例如分类错、证据错、规则错或解释错。策略版本变化后,要用历史样本做再评测,确认新策略没有不可接受的误杀和漏放。
内容安全需要稳定的标签、证据、规则依据和审计链路。万能问答容易输出风格化解释,但标签不稳定、责任边界不清,也无法系统评估误杀、漏放和复核成本。
会增加编排成本,但换来可测、可定位和可替换。可以先围绕核心链路拆最必要的能力,例如分类、证据、规则、处置和复核,避免为了形式把每个小步骤都服务化。
证据片段连接了模型判断和审核依据。没有证据,人工复核难以判断,申诉难以处理,策略迭代也不知道模型因为哪段内容判错。证据还可以约束解释,减少模型编造理由。
先看业务风险。低风险场景可以保守放行或请求更多上下文;高风险场景应转人工或进入更严格模型复核。关键是把低置信度作为状态输出,而不是让模型强行给确定结论。
要按风险类别和业务场景设不同阈值。高危违规更关注召回和漏放,普通内容更关注误杀和用户体验。评测报告应分层展示 precision、recall、FPR、FNR、复核量和策略成本,而不是只有一个总准确率。
规则适合表达明确政策和硬约束,模型适合理解语义、上下文和变体。工程上可以让模型做候选分类和证据抽取,再映射到规则;硬规则和高风险边界仍应作为强约束,而不是完全交给生成式判断。