对话摘要生成任务如何设计评估指标，并处理长度控制、角色呼应和数据增强？｜字节跳动算法面经解析

60 秒回答模板

对话摘要评估不能只看 ROUGE，因为对话里有多人角色、指代、省略和口语化信息。我的评估会分五类：第一是内容覆盖，关键事件、结论、待办和约束是否被保留；第二是事实一致，摘要不能编造对话里没有的信息，也不能改变时间、数量、立场和因果；第三是角色归因，谁说了什么、谁提出需求、谁承诺行动要对应正确；第四是长度控制，摘要要满足字数或 token 预算，既不能超长，也不能为了压缩丢核心信息；第五是可读性和结构，是否清晰、去噪、适合下游使用。自动指标可以用 ROUGE、语义相似度、事实一致性打分或 LLM-as-judge 辅助，但要用人工标注集校准。训练上，长度控制可以通过训练样本分布、显式长度指令、解码预算和输出后校验实现；角色呼应要保留 speaker 标签和上下文窗口；EDA 这类数据增强只能用于不破坏事实和角色的轻量扰动，必须做增强前后标签一致性检查和消融验证。

考点 评估五维度

难度 真实面经题

回答目标 评估对话摘要质量

深入解析

对话摘要不同于普通长文摘要

对话摘要的难点在于多轮、多角色、口语化、省略和指代。摘要不仅要保留主题，还要保留谁提出了问题、谁给出了承诺、最后形成了什么结论或待办。回答时要先点明这些边界，否则容易把它答成普通文章摘要。

评估指标要覆盖内容和事实

评估可以拆成内容覆盖、事实一致、角色归因、长度合规和可读性。内容覆盖看关键信息是否保留；事实一致看是否出现幻觉、数字错误、时间错误和因果反转；角色归因看说话人和行动责任是否对应；可读性看摘要是否结构清楚、去掉废话且适合下游阅读。

ROUGE 有用但不能单独作为结论

ROUGE 能衡量 n-gram 重叠，对早期回归和模型对比有价值，但它不擅长判断事实一致、角色错误和语义等价表达。一个摘要可能 ROUGE 高但把承诺人写错，也可能 ROUGE 低但语义正确。因此要结合人工评测、事实一致性检查、角色标注和 badcase 分析。

长度控制要在训练和解码两端做

长度控制不能只靠事后截断。更稳的做法是在数据中保留不同长度目标，在 prompt 或任务标签里给出明确预算，训练时让模型学习压缩强度，解码时设置合理长度约束，输出后再检查核心信息是否因为压缩丢失。截断式压缩容易把结论、责任人或关键数字删掉。

角色呼应和数据增强都要防止语义漂移

角色呼应需要保留 speaker 标签、轮次关系和上下文窗口，必要时把角色相关错误单独评测。EDA 这类增强如果随意替换、删除或打乱词语，可能改变事实、情绪和责任归属。增强样本要做标签一致性检查，并通过消融验证是否真的提升泛化，而不是制造噪声。

易错点

只回答 ROUGE、BLEU 等自动指标，没有讲事实一致和角色归因。
把对话摘要当成长文摘要，忽略多角色、指代和轮次关系。
用截断解决长度控制，导致结论、数字或责任人丢失。
随意做 EDA 增强，破坏原始对话事实和摘要标签。

面试官追问

ROUGE 高但人工觉得摘要不好，可能是什么原因？

可能词面重叠高但事实错误、角色归因错误、逻辑不清或遗漏关键结论。ROUGE 不足以判断对话摘要的可用性。

长度控制除了限制 max tokens 还能怎么做？

可以在训练数据中构造不同压缩比例，加入明确长度指令或长度标签，解码时控制预算，并在输出后检查核心信息是否被保留。

角色呼应错误为什么严重？

对话摘要经常用于会议纪要、客服记录或任务流转。如果把提出需求或承诺执行的人写错，会直接影响责任归属和后续行动。

EDA 用在摘要任务上要注意什么？

只能做不改变事实和角色关系的轻量增强，增强后要检查标签一致性，并用消融实验确认对核心指标有正向收益。