60 秒回答模板

我会先把目标定义为文档级翻译,而不是句子级翻译。数据集构建可以分六步:第一,收集有版权和领域标注的长文平行语料,例如书籍、报告、论文、产品文档、字幕或网页文档,并保留文档结构、标题、段落、表格和元数据。第二,做文档、段落、句子多粒度对齐,处理漏译、增译、顺序变化和一对多/多对一。第三,切训练样本时不能只随机截句,要构造带上下文的窗口,例如前后段、章节摘要、术语表和历史翻译,使模型学习指代、术语和风格一致性。第四,做质量过滤,包括语言识别、去重、长度比、对齐分数、机器翻译痕迹、敏感内容、格式损坏和人工抽检。第五,按长度、领域、语言方向和难度分层采样,可以混合人工翻译、可信平行语料和经强模型审核的合成数据。第六,建立文档级评测集,看句子准确率之外的术语一致、指代一致、上下文连贯、格式保持和人工偏好。核心是让数据保留长文本结构,而不是把长文拆碎后当普通句对训练。

考点 保留结构
难度 真实面经题
回答目标 讲清长文本翻译数据构建和质量控制

深入解析

01

目标是文档级翻译

长文本翻译的问题不只是单句准确,还包括跨段指代、术语一致、语气风格、章节结构、标题表格和上下文省略。构建数据集前要明确语言方向、领域、最大长度、是否需要保留格式,以及模型是直接整篇翻译还是分块翻译。

02

收集文档级平行语料

优先选择质量可靠、授权清晰、结构完整的长文平行材料,如技术文档、论文摘要和正文、书籍、新闻专题、字幕、法规或产品说明。采集时保留 document id、章节、段落、标题、列表、表格、领域、语言方向和来源质量。

03

多粒度对齐

真实长文常有段落拆分不同、译者重排、删减或补充。需要先做文档匹配,再做段落和句子对齐,允许一对多、多对一和局部跳过。可以用长度比、embedding 相似度、词典锚点、时间戳或版面对齐辅助,并把低置信对齐样本送复审。

04

样本要带上下文

训练样本不应只剩孤立句对。可以构造前后段上下文、章节标题、文档摘要、术语表、已翻译历史片段和目标风格标签,让模型学习代词消解、术语复用、称谓一致和跨段衔接。窗口切分要避免把关键信息切断。

05

过滤质量和风险

过滤包括语言识别、乱码和格式损坏、重复和近重复、长度比例异常、对齐分数低、未翻译片段、机器翻译低质痕迹、术语错误、敏感和版权风险。长文本还要检查段落缺失、顺序错乱和上下文不连续。

06

评测要文档级

除了 BLEU、COMET 等句级或段级指标,还要设计文档级评测:术语一致率、代词和实体指代准确、跨段一致、格式保持、漏译/重复译、人工偏好和领域专家评审。评测集应按长度、领域和语言方向分桶,避免只优化短文本。

易错点

  • 把长文本翻译数据集讲成普通句对机器翻译数据集,完全丢掉文档结构。
  • 只说收集更多平行语料,不讲授权、领域、长度分布和质量来源。
  • 忽略段落重排、一对多、多对一和漏译补译,默认行级对齐天然正确。
  • 训练样本不带上下文,导致模型学不到术语一致、指代和跨段衔接。
  • 只用 BLEU 或句级指标评估,忽略文档级一致性和人工偏好。
  • 把合成翻译数据直接混入高质量语料,没有标记来源、过滤和 ablation。

面试官追问

为什么不能把长文本拆成很多句对直接训练?

拆成孤立句对会丢掉前后文、术语复用、指代关系和文档风格。模型可能单句翻得对,但整篇出现称谓不一致、术语漂移、漏译重复和段落衔接差。

长文本平行语料对齐难点是什么?

译文可能重排、合并、拆分、删减或补充内容,所以不能只按行号对齐。需要结合文档结构、长度比、语义相似度、锚点词和人工抽检处理一对多、多对一和低置信对齐。

可以用机器翻译生成合成数据吗?

可以,但要标记来源并做严格过滤。合成数据适合扩充领域和长尾样本,但需要强模型或人工审核,避免把机器翻译错误、僵硬风格和术语不一致固化进训练集。

长文本翻译评估集怎么设计?

按领域、长度、语言方向和难度分桶,保留完整文档;除了句级指标,还要人工评估术语一致、指代、上下文连贯、格式保持、漏译重复和整体可读性。