大模型观点总结产品如何防范幻觉，并定义可上线的准确率与验收标准？｜网易产品面经解析

60 秒回答模板

观点总结产品的幻觉防范要从答案必须受输入证据约束开始。它总结的对象通常是评论、帖子、问卷、客服反馈或用户讨论，模型不能凭常识补充未出现的观点，也不能把少数意见说成多数意见。产品上我会要求输出结构化结果：观点主题、情感倾向、代表性证据、样本数量或占比、置信度和不确定说明；证据不足时只说样本不足，不强行总结。技术和流程上要做输入去重、分群抽样、敏感过滤、证据引用、事实一致性校验、人工抽检和 badcase 回归。上线标准不能只有一个准确率数字，而要按风险分层：严重幻觉和越权内容必须为 0；普通 unsupported claim 控制在很低水平；主题召回、情感判断、证据引用、实体事实、格式稳定和拒答能力都要达标。参考门槛可以是核心观点准确率和证据一致性达到 90% 以上、引用正确率 95% 以上、严重幻觉 0、普通幻觉低于 1%-2%，但这些只是低风险试点的示例口径，高风险场景要更严格并保留人工复核。最终是否发布还要看线上投诉、人工复核、延迟、成本和回滚能力。

考点 准确率先定义

难度 真实面经题

回答目标 展示你能把观点总结的幻觉治理做成可验证的产品质量门禁，既有证据约束，也有分级上线指标和回滚机制。

深入解析

先定义观点总结边界

观点总结不是自由写报告，而是对给定语料中的观点做归纳。它可以总结高频主题、正负情绪、代表性理由和少数派意见，但不能引入语料外事实，不能凭经验推断用户没有表达过的动机，也不能把单条极端评论包装成整体结论。

把幻觉拆成类型

观点总结里的幻觉包括编造不存在的观点、夸大观点占比、错配情绪、把 A 用户观点归到 B 群体、引用不存在的证据、错误总结实体或数字、遗漏关键反对意见。拆清类型后，才能针对性设计评测和上线门禁。

证据约束输出

输出应绑定来源证据，例如每个观点附代表性原文、评论 id、样本数量、占比区间或置信度。Prompt 和 schema 要明确禁止无证据扩写，要求无法判断时返回证据不足。前端也应展示基于多少条样本总结，让用户能回看依据。

评测集和准确率口径

准确率必须先定义分母和判定标准。可以建立人工标注 gold set，标注主题、情绪、观点归属、证据句和重要性。指标包括主题准确率、关键观点召回率、情感/立场准确率、证据引用正确率、unsupported claim 率、严重幻觉率、少数观点保留率和格式合法率。

上线阈值要分级

低风险内部分析可以先小流量试点，但仍应要求严重幻觉为 0、引用正确率接近 95% 或更高、核心观点准确率约 90% 以上、关键观点召回率 85%-90% 以上、格式合法率 99% 以上、普通无证据结论低于 1%-2%。这些数字只能作为示例门槛，真正发布要按对外程度、决策影响和用户损失重新设定。

线上监控和回滚

上线后要持续抽检，监控用户纠错、投诉、低置信输出、证据缺失、观点分布漂移和新领域表现。模型、Prompt、语料清洗和聚类策略都要版本化；一旦幻觉率或投诉超阈值，应能降级到抽取式摘要、只展示证据列表或转人工复核。

易错点

只说在 Prompt 里写不要幻觉，不设计证据绑定、拒答、评测和人工抽检。
用一个笼统准确率决定上线，没区分主题、情感、证据、事实和格式指标。
把少数样本总结成多数观点，或把输入里不存在的观点写进结论。
把示例阈值说成公司固定上线标准；题源 evidence 只支持给出通用验收框架和参考门槛。

面试官追问

用户给的样本很少，还要不要生成观点总结？

可以生成轻量摘要，但必须标注样本量不足和置信度低，避免输出多数用户认为这类总体结论。必要时只展示原始观点列表和可观察到的少量主题。

自动评估能替代人工评审吗？

不能完全替代。规则和 LLM judge 可用于批量初筛结构、引用和语义一致性，但上线门禁需要人工标注集校准，尤其是高风险、争议观点和边界样本。

观点冲突时模型应该怎么总结？

应保留冲突而不是强行合并，分别列出正反观点、各自证据和大致占比或样本数。无法判断主流观点时，应明确说明分歧存在。

准确率 90% 够不够上线？

要看场景风险和错误类型。内部低风险分析可作为灰度起点，但对外发布或影响决策的场景，严重幻觉必须为 0，证据引用和关键事实应接近更高标准，并配人工复核。