ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复，并评估纠错收益？｜商汤科技算法面经解析

60 秒回答模板

我会先把 ASR 错误分成几类：同音或近音错字、专名和热词错、领域术语错、分词断句错、重复漏字、数字单位错，以及噪声导致的整句低置信错误。纠错时不能只把文本丢给 LLM 改写，因为它可能改变语义。第一层先用 ASR 侧信号：token 置信度、时间戳、声学分数、语言模型分数、N-best、lattice 或 confusion network，定位哪些位置可疑，并保留候选词。第二层引入专名词典和 hotword lexicon，比如人名、品牌、地点、药品、商品、会议术语或业务实体，对候选进行偏置，但要防止把普通词强行改成热词。第三层做上下文纠错，可以用 n-gram、神经语言模型、BERT 类 mask correction、seq2seq correction 或领域语言模型，在可疑位置结合前后文选择更自然且发音一致的候选。第四层再用 LLM 做受约束后处理：要求只修错别字、专名和标点，不扩写、不总结、不改变事实，并把修改点、理由和置信度输出，必要时对低置信修改回退。评估上，离线看 WER/CER、实体准确率、专名召回、语义保持、过纠率和欠纠率；线上看搜索命中、客服意图识别、人工修改率、用户投诉、业务转化和延迟成本。最终目标不是让文字更漂亮，而是在语义不变的条件下提升下游可用性。

考点 错误分层

难度 真实面经题

回答目标 让候选人展示 ASR 纠错的多证据融合能力：用声学候选定位错误，用词典和上下文选择修正，用 LLM 做受控后处理，并用过纠率和下游指标证明收益。

深入解析

先识别 ASR 错误类型

ASR 错字往往不是普通拼写错误，而是由声学相似、口音、噪声、断句、领域词缺失和上下文歧义造成的。常见错误包括同音字、近音字、专名错、数字单位错、英文缩写错、标点断句错、漏字和重复字。不同错误需要不同证据，不能只用通用文本纠错模型统一处理。

置信度用于定位而非直接决策

ASR token 置信度、声学分数和语言模型分数能帮助定位可疑片段，但低置信不一定错，高置信也可能错。更可靠的是结合 N-best、lattice 或 confusion network，知道某个位置有哪些发音相近候选，再让上下文模型或词典在候选范围内选择。这样比无约束改写更能保持原始语音含义。

专名词典解决领域实体召回

专名错误通常对业务影响最大，例如人名、地名、公司名、商品名、药品名、会议项目名和行业术语。可以构建热词词典、拼音索引、别名库和实体上下文规则，在 ASR 解码阶段或后处理阶段增强候选。但词典要有权重和场景约束，否则会把相似发音的普通词过度纠成专名。

上下文纠错要约束语义

上下文模型的作用是判断一句话在语境中是否合理，例如前后主题、句法搭配、实体类型和业务流程是否匹配。可以用 masked LM 做局部替换，用 seq2seq 做整句纠错，也可以用领域语言模型重排 N-best。关键是只修改有证据的位置，并保留原句意图、否定、数字、时间和实体关系。

LLM 后处理适合做高层校验

LLM 擅长利用长上下文和业务背景识别明显错别字、专名和断句问题，但也容易把口语改写成更顺的书面语，甚至补充不存在的信息。因此应给 LLM 明确边界：只纠错，不润色，不扩写；优先依据 ASR 候选、热词和上下文；输出修改列表和置信度；低置信修改需要回退或人工确认。

评估要同时看纠错收益和伤害

离线评估不能只看纠错后文本是否更通顺。要对比纠错前后的 CER/WER、实体准确率、热词召回、过纠率、欠纠率、语义一致性和下游任务效果。线上还要看延迟、成本、搜索命中、意图识别准确率、人工修改率和用户反馈。任何纠错系统都要特别监控把正确词改错的比例。

易错点

把 ASR 错别字当成普通文本错别字，不利用置信度、N-best 或 lattice。
无约束调用 LLM 改写，导致原始语音的数字、否定、实体或事实被改变。
热词词典全局强匹配，造成大量普通词被错误替换成专名。
只报告 WER 下降，不看实体准确率、过纠率、语义保持和下游任务收益。
忽略延迟和成本，让纠错模块在实时字幕或语音交互场景不可用。
没有 badcase 回流机制，新专名、新口音和新业务词反复出错。

面试官追问

为什么不能直接用 LLM 把 ASR 文本润色一遍？

因为 ASR 后处理的目标是忠实恢复语音内容，不是生成更漂亮的文字。LLM 无约束润色可能改变否定、数字、实体、语气和业务事实，导致下游意图识别或记录留痕出错。

N-best 和 lattice 在纠错里有什么价值？

它们保留了 ASR 对同一语音片段的多个候选和分数。纠错模型可以在发音合理的候选里选择，而不是凭文本相似度凭空替换，这能显著降低语义漂移和过纠。

热词词典如何避免误伤？

热词要按场景、用户、会话主题、实体类型和置信度加权，不能全局强制替换。还要设置编辑距离、拼音相似、上下文触发和黑名单规则，并统计热词替换后的过纠率。

ASR 纠错的离线评估集怎么构建？

应包含真实音频、人工转写文本、ASR 原始输出、实体标注和场景标签。样本要覆盖口音、噪声、远场、热词、新词、数字单位和多领域语料，并单独维护高价值专名和历史 badcase。

如何判断纠错是否真正带来业务收益？

除 WER/CER 外，要看下游任务，比如搜索召回、客服意图识别、会议纪要实体准确、表单填充正确率、人工修改率和用户负反馈。纠错收益必须扣除延迟、成本和过纠带来的伤害。