60 秒回答模板

对话摘要评估不能只看 ROUGE,因为对话里有多人角色、指代、省略和口语化信息。我的评估会分五类:第一是内容覆盖,关键事件、结论、待办和约束是否被保留;第二是事实一致,摘要不能编造对话里没有的信息,也不能改变时间、数量、立场和因果;第三是角色归因,谁说了什么、谁提出需求、谁承诺行动要对应正确;第四是长度控制,摘要要满足字数或 token 预算,既不能超长,也不能为了压缩丢核心信息;第五是可读性和结构,是否清晰、去噪、适合下游使用。自动指标可以用 ROUGE、语义相似度、事实一致性打分或 LLM-as-judge 辅助,但要用人工标注集校准。训练上,长度控制可以通过训练样本分布、显式长度指令、解码预算和输出后校验实现;角色呼应要保留 speaker 标签和上下文窗口;EDA 这类数据增强只能用于不破坏事实和角色的轻量扰动,必须做增强前后标签一致性检查和消融验证。

考点 评估五维度
难度 真实面经题
回答目标 评估对话摘要质量

深入解析

01

对话摘要不同于普通长文摘要

对话摘要的难点在于多轮、多角色、口语化、省略和指代。摘要不仅要保留主题,还要保留谁提出了问题、谁给出了承诺、最后形成了什么结论或待办。回答时要先点明这些边界,否则容易把它答成普通文章摘要。

02

评估指标要覆盖内容和事实

评估可以拆成内容覆盖、事实一致、角色归因、长度合规和可读性。内容覆盖看关键信息是否保留;事实一致看是否出现幻觉、数字错误、时间错误和因果反转;角色归因看说话人和行动责任是否对应;可读性看摘要是否结构清楚、去掉废话且适合下游阅读。

03

ROUGE 有用但不能单独作为结论

ROUGE 能衡量 n-gram 重叠,对早期回归和模型对比有价值,但它不擅长判断事实一致、角色错误和语义等价表达。一个摘要可能 ROUGE 高但把承诺人写错,也可能 ROUGE 低但语义正确。因此要结合人工评测、事实一致性检查、角色标注和 badcase 分析。

04

长度控制要在训练和解码两端做

长度控制不能只靠事后截断。更稳的做法是在数据中保留不同长度目标,在 prompt 或任务标签里给出明确预算,训练时让模型学习压缩强度,解码时设置合理长度约束,输出后再检查核心信息是否因为压缩丢失。截断式压缩容易把结论、责任人或关键数字删掉。

05

角色呼应和数据增强都要防止语义漂移

角色呼应需要保留 speaker 标签、轮次关系和上下文窗口,必要时把角色相关错误单独评测。EDA 这类增强如果随意替换、删除或打乱词语,可能改变事实、情绪和责任归属。增强样本要做标签一致性检查,并通过消融验证是否真的提升泛化,而不是制造噪声。

易错点

  • 只回答 ROUGE、BLEU 等自动指标,没有讲事实一致和角色归因。
  • 把对话摘要当成长文摘要,忽略多角色、指代和轮次关系。
  • 用截断解决长度控制,导致结论、数字或责任人丢失。
  • 随意做 EDA 增强,破坏原始对话事实和摘要标签。

面试官追问

ROUGE 高但人工觉得摘要不好,可能是什么原因?

可能词面重叠高但事实错误、角色归因错误、逻辑不清或遗漏关键结论。ROUGE 不足以判断对话摘要的可用性。

长度控制除了限制 max tokens 还能怎么做?

可以在训练数据中构造不同压缩比例,加入明确长度指令或长度标签,解码时控制预算,并在输出后检查核心信息是否被保留。

角色呼应错误为什么严重?

对话摘要经常用于会议纪要、客服记录或任务流转。如果把提出需求或承诺执行的人写错,会直接影响责任归属和后续行动。

EDA 用在摘要任务上要注意什么?

只能做不改变事实和角色关系的轻量增强,增强后要检查标签一致性,并用消融实验确认对核心指标有正向收益。