真实面经题目 · 原创解析

ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复,并评估纠错收益?

这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。

出现于:商汤科技 · 算法

60 秒回答模板

我会先把 ASR 错误分成几类:同音或近音错字、专名和热词错、领域术语错、分词断句错、重复漏字、数字单位错,以及噪声导致的整句低置信错误。纠错时不能只把文本丢给 LLM 改写,因为它可能改变语义。第一层先用 ASR 侧信号:token 置信度、时间戳、声学分数、语言模型分数、N-best、lattice 或 confusion network,定位哪些位置可疑,并保留候选词。第二层引入专名词典和 hotword lexicon,比如人名、品牌、地点、药品、商品、会议术语或业务实体,对候选进行偏置,但要防止把普通词强行改成热词。第三层做上下文纠错,可以用 n-gram、神经语言模型、BERT 类 mask correction、seq2seq correction 或领域语言模型,在可疑位置结合前后文选择更自然且发音一致的候选。第四层再用 LLM 做受约束后处理:要求只修错别字、专名和标点,不扩写、不总结、不改变事实,并把修改点、理由和置信度输出,必要时对低置信修改回退。评估上,离线看 WER/CER、实体准确率、专名召回、语义保持、过纠率和欠纠率;线上看搜索命中、客服意图识别、人工修改率、用户投诉、业务转化和延迟成本。最终目标不是让文字更漂亮,而是在语义不变的条件下提升下游可用性。

考点 错误分层
难度 真实面经题
回答目标 让候选人展示 ASR 纠错的多证据融合能力:用声学候选定位错误,用词典和上下文选择修正,用 LLM 做受控后处理,并用过纠率和下游指标证明收益。

深入解析

01

先识别 ASR 错误类型

ASR 错字往往不是普通拼写错误,而是由声学相似、口音、噪声、断句、领域词缺失和上下文歧义造成的。常见错误包括同音字、近音字、专名错、数字单位错、英文缩写错、标点断句错、漏字和重复字。不同错误需要不同证据,不能只用通用文本纠错模型统一处理。

02

置信度用于定位而非直接决策

ASR token 置信度、声学分数和语言模型分数能帮助定位可疑片段,但低置信不一定错,高置信也可能错。更可靠的是结合 N-best、lattice 或 confusion network,知道某个位置有哪些发音相近候选,再让上下文模型或词典在候选范围内选择。这样比无约束改写更能保持原始语音含义。

03

专名词典解决领域实体召回

专名错误通常对业务影响最大,例如人名、地名、公司名、商品名、药品名、会议项目名和行业术语。可以构建热词词典、拼音索引、别名库和实体上下文规则,在 ASR 解码阶段或后处理阶段增强候选。但词典要有权重和场景约束,否则会把相似发音的普通词过度纠成专名。

04

上下文纠错要约束语义

上下文模型的作用是判断一句话在语境中是否合理,例如前后主题、句法搭配、实体类型和业务流程是否匹配。可以用 masked LM 做局部替换,用 seq2seq 做整句纠错,也可以用领域语言模型重排 N-best。关键是只修改有证据的位置,并保留原句意图、否定、数字、时间和实体关系。

05

LLM 后处理适合做高层校验

LLM 擅长利用长上下文和业务背景识别明显错别字、专名和断句问题,但也容易把口语改写成更顺的书面语,甚至补充不存在的信息。因此应给 LLM 明确边界:只纠错,不润色,不扩写;优先依据 ASR 候选、热词和上下文;输出修改列表和置信度;低置信修改需要回退或人工确认。

06

评估要同时看纠错收益和伤害

离线评估不能只看纠错后文本是否更通顺。要对比纠错前后的 CER/WER、实体准确率、热词召回、过纠率、欠纠率、语义一致性和下游任务效果。线上还要看延迟、成本、搜索命中、意图识别准确率、人工修改率和用户反馈。任何纠错系统都要特别监控把正确词改错的比例。

易错点

  • 把 ASR 错别字当成普通文本错别字,不利用置信度、N-best 或 lattice。
  • 无约束调用 LLM 改写,导致原始语音的数字、否定、实体或事实被改变。
  • 热词词典全局强匹配,造成大量普通词被错误替换成专名。
  • 只报告 WER 下降,不看实体准确率、过纠率、语义保持和下游任务收益。
  • 忽略延迟和成本,让纠错模块在实时字幕或语音交互场景不可用。
  • 没有 badcase 回流机制,新专名、新口音和新业务词反复出错。

面试官追问

为什么不能直接用 LLM 把 ASR 文本润色一遍?

因为 ASR 后处理的目标是忠实恢复语音内容,不是生成更漂亮的文字。LLM 无约束润色可能改变否定、数字、实体、语气和业务事实,导致下游意图识别或记录留痕出错。

N-best 和 lattice 在纠错里有什么价值?

它们保留了 ASR 对同一语音片段的多个候选和分数。纠错模型可以在发音合理的候选里选择,而不是凭文本相似度凭空替换,这能显著降低语义漂移和过纠。

热词词典如何避免误伤?

热词要按场景、用户、会话主题、实体类型和置信度加权,不能全局强制替换。还要设置编辑距离、拼音相似、上下文触发和黑名单规则,并统计热词替换后的过纠率。

ASR 纠错的离线评估集怎么构建?

应包含真实音频、人工转写文本、ASR 原始输出、实体标注和场景标签。样本要覆盖口音、噪声、远场、热词、新词、数字单位和多领域语料,并单独维护高价值专名和历史 badcase。

如何判断纠错是否真正带来业务收益?

除 WER/CER 外,要看下游任务,比如搜索召回、客服意图识别、会议纪要实体准确、表单填充正确率、人工修改率和用户负反馈。纠错收益必须扣除延迟、成本和过纠带来的伤害。