真实面经题目 · 原创解析
对话摘要生成任务如何设计评估指标,并处理长度控制、角色呼应和数据增强?
这题考对话摘要生成的评估和训练细节,答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。
真实面经题目 · 原创解析
这题考对话摘要生成的评估和训练细节,答案要同时覆盖内容覆盖、事实一致、角色归因、长度控制、ROUGE 局限和数据增强风险。
对话摘要评估不能只看 ROUGE,因为对话里有多人角色、指代、省略和口语化信息。我的评估会分五类:第一是内容覆盖,关键事件、结论、待办和约束是否被保留;第二是事实一致,摘要不能编造对话里没有的信息,也不能改变时间、数量、立场和因果;第三是角色归因,谁说了什么、谁提出需求、谁承诺行动要对应正确;第四是长度控制,摘要要满足字数或 token 预算,既不能超长,也不能为了压缩丢核心信息;第五是可读性和结构,是否清晰、去噪、适合下游使用。自动指标可以用 ROUGE、语义相似度、事实一致性打分或 LLM-as-judge 辅助,但要用人工标注集校准。训练上,长度控制可以通过训练样本分布、显式长度指令、解码预算和输出后校验实现;角色呼应要保留 speaker 标签和上下文窗口;EDA 这类数据增强只能用于不破坏事实和角色的轻量扰动,必须做增强前后标签一致性检查和消融验证。
对话摘要的难点在于多轮、多角色、口语化、省略和指代。摘要不仅要保留主题,还要保留谁提出了问题、谁给出了承诺、最后形成了什么结论或待办。回答时要先点明这些边界,否则容易把它答成普通文章摘要。
评估可以拆成内容覆盖、事实一致、角色归因、长度合规和可读性。内容覆盖看关键信息是否保留;事实一致看是否出现幻觉、数字错误、时间错误和因果反转;角色归因看说话人和行动责任是否对应;可读性看摘要是否结构清楚、去掉废话且适合下游阅读。
ROUGE 能衡量 n-gram 重叠,对早期回归和模型对比有价值,但它不擅长判断事实一致、角色错误和语义等价表达。一个摘要可能 ROUGE 高但把承诺人写错,也可能 ROUGE 低但语义正确。因此要结合人工评测、事实一致性检查、角色标注和 badcase 分析。
长度控制不能只靠事后截断。更稳的做法是在数据中保留不同长度目标,在 prompt 或任务标签里给出明确预算,训练时让模型学习压缩强度,解码时设置合理长度约束,输出后再检查核心信息是否因为压缩丢失。截断式压缩容易把结论、责任人或关键数字删掉。
角色呼应需要保留 speaker 标签、轮次关系和上下文窗口,必要时把角色相关错误单独评测。EDA 这类增强如果随意替换、删除或打乱词语,可能改变事实、情绪和责任归属。增强样本要做标签一致性检查,并通过消融验证是否真的提升泛化,而不是制造噪声。
可能词面重叠高但事实错误、角色归因错误、逻辑不清或遗漏关键结论。ROUGE 不足以判断对话摘要的可用性。
可以在训练数据中构造不同压缩比例,加入明确长度指令或长度标签,解码时控制预算,并在输出后检查核心信息是否被保留。
对话摘要经常用于会议纪要、客服记录或任务流转。如果把提出需求或承诺执行的人写错,会直接影响责任归属和后续行动。
只能做不改变事实和角色关系的轻量增强,增强后要检查标签一致性,并用消融实验确认对核心指标有正向收益。