Qwen 这类大模型做多语言支持时，数据配比、分词、对齐训练和评估应如何设计？｜阿里巴巴算法面经解析

60 秒回答模板

可以按数据、分词、训练、评估四块回答：数据上先做语言覆盖和质量分层，使用温度采样控制高低资源语言比例，避免高资源语言压制低资源语言；分词上采用统一 tokenizer、Unicode 规范化、byte fallback，并监控各语言 token 膨胀率；训练上先用多语言预训练建立基础表示，再用多语言 SFT、偏好学习或 DPO/RLHF 做指令对齐，并加入跨语言一致性和安全数据；评估上不能只翻译英文 benchmark，要用原生多语言任务、人工评审、低资源语言、混合语言、领域数据和安全集来验证。对于 Qwen 这类具体模型，除公开信息外要用常见做法和设计原则表述，不臆断内部数据比例。

考点 数据采样要防止高资源语言垄断

难度 真实面经题

回答目标 让候选人从数据、tokenizer、预训练、对齐、安全和评估六个维度系统说明多语言大模型设计，并能用谨慎方式讨论 Qwen 这类模型的常见工程取舍。

深入解析

目标先定义清楚

多语言支持可以有不同目标：只是能读写多种语言、能跨语言问答、能翻译、能在本地文化语境下遵循指令，还是要在低资源语言上也具备专业知识。不同目标会影响数据配比和评估方式。面试中应先说明多语言不是语言列表越长越好，而是要定义覆盖范围、质量等级、业务优先级和安全边界。

数据配比的基本矛盾

高资源语言语料多、质量高、知识密度大，过少会损失通用能力；低资源语言语料少，如果按自然频率采样会几乎学不到。常见做法是按语言或语系做温度采样，对低资源语言适度上采样，对重复、模板化、机器翻译噪声和网页垃圾进行严格过滤。配比不是固定公式，而是要结合 tokenizer 效率、验证集表现和目标市场迭代。

数据质量比语种数量更重要

多语言语料容易混入错语种、乱码、重复页面、机器翻译腔、低质量论坛文本和版权风险内容。需要语言识别、去重、质量打分、毒性和隐私过滤，并按领域保留高价值数据，例如百科、教材、代码文档、新闻、问答、专业文档和多轮对话。对低资源语言，合成数据和翻译增强可以补量，但必须控制错误传播和单一风格问题。

tokenizer 的设计权衡

统一 tokenizer 有利于跨语言共享表示和工程简化，但不同文字系统的 token 压缩率差异很大。中文、日文、泰文、阿拉伯文、印地语、黏着语和带重音字符的欧洲语言都可能出现切分效率差异。设计时要做 Unicode 规范化、保留 byte fallback，监控每种语言字符到 token 的膨胀率，避免某些语言因为 token 过长而实际可用上下文缩短、训练成本变高。

预训练和指令对齐

预训练阶段负责建立多语言表示和知识基础，指令微调阶段负责让模型用目标语言理解任务并按本地表达习惯回答。如果 SFT 数据主要是英文或中文，模型可能会出现听懂低资源语言但回答转回高资源语言、格式遵循下降、礼貌策略不匹配等问题。因此需要覆盖多语言 instruction、翻译、摘要、抽取、推理、工具使用和多轮对话。

偏好训练与安全对齐

偏好数据不能只来自单一语言，否则 reward 或偏好模型会把某种语言的表达风格误认为质量标准。多语言偏好训练要关注事实性、指令遵循、礼貌程度、拒答边界、文化敏感内容和法律合规差异。对于安全对齐，也要覆盖多语言越狱、隐晦表达、音译、混合语言和地区性敏感话题，否则模型可能在非主语言上安全能力明显变弱。

跨语言一致性

强多语言模型不仅要单语表现好，还要能在语言之间迁移知识。可以用平行问题、翻译一致性、跨语言检索问答、同一事实多语言回答一致性来训练和评估。需要注意的是，完全逐字一致不是目标，因为不同语言有不同表达方式；更重要的是事实、推理链、指令约束和安全决策保持一致。

评估体系

评估应包含自动指标和人工评审。自动评估可以覆盖多语言 MMLU 类知识题、翻译、摘要、阅读理解、数学、代码、检索问答和长文本任务；人工评审要看流畅度、地道性、文化适配、事实错误和拒答合理性。还要加入低资源语言、方言、code-switch、同形异义词、脚本混用和领域文档，避免模型只在翻译版 benchmark 上看起来好。

易错点

把多语言支持理解为简单收集更多语种语料，不讨论配比、质量和目标。
忽略 tokenizer 对不同文字系统的 token 膨胀率差异。
认为机器翻译数据可以完全替代原生语料和人工评审。
只做英文 benchmark 翻译版评估，缺少原生多语言任务。
忽略偏好训练和安全对齐在低资源语言上的退化风险。
没有考虑 code-switch、音译、脚本混用和本地文化语境。
武断描述 Qwen 的内部语料比例或训练细节，而没有用谨慎表述。
只关注语言流畅度，不评估事实性、指令遵循和跨语言一致性。

面试官追问

低资源语言数据少，应该怎么补？

可以结合低资源语料上采样、高质量网页和书面材料挖掘、人工标注、小规模专家数据、机器翻译、回译和跨语言指令生成。关键是补量后要做质量过滤和人工抽检，避免重复噪声被过度放大。

统一 tokenizer 和多 tokenizer 哪个更好？

大模型通常倾向统一 tokenizer，便于共享表示、跨语言迁移和统一部署。但它必须通过足够词表、byte fallback 和语言级压缩率评估来避免某些文字系统被严重碎片化。多 tokenizer 可以提升局部效率，但会增加模型结构和工程复杂度。

如何发现模型在某些语言上只是翻译腔？

需要原生说话者评审、开放式写作任务、本地知识问答和对话任务。翻译腔通常表现为词序不自然、礼貌程度错位、习惯表达不符合当地语境，自动 benchmark 很难完全发现。

多语言安全为什么更难？

因为风险表达可以通过低资源语言、音译、错拼、混合语言或文化隐喻绕开英文安全数据。安全训练和红队评估必须覆盖多语言攻击样式，否则模型会出现主语言安全、其他语言薄弱的短板。

如何评估跨语言一致性？

可以构造同一问题的多语言版本，比较事实结论、推理步骤、格式约束和拒答决策是否一致。也可以让模型读一种语言的材料、用另一种语言回答，验证跨语言理解和生成能力。