真实面经题目 · 原创解析
ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复,并评估纠错收益?
这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。
真实面经题目 · 原创解析
这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。
我会先把 ASR 错误分成几类:同音或近音错字、专名和热词错、领域术语错、分词断句错、重复漏字、数字单位错,以及噪声导致的整句低置信错误。纠错时不能只把文本丢给 LLM 改写,因为它可能改变语义。第一层先用 ASR 侧信号:token 置信度、时间戳、声学分数、语言模型分数、N-best、lattice 或 confusion network,定位哪些位置可疑,并保留候选词。第二层引入专名词典和 hotword lexicon,比如人名、品牌、地点、药品、商品、会议术语或业务实体,对候选进行偏置,但要防止把普通词强行改成热词。第三层做上下文纠错,可以用 n-gram、神经语言模型、BERT 类 mask correction、seq2seq correction 或领域语言模型,在可疑位置结合前后文选择更自然且发音一致的候选。第四层再用 LLM 做受约束后处理:要求只修错别字、专名和标点,不扩写、不总结、不改变事实,并把修改点、理由和置信度输出,必要时对低置信修改回退。评估上,离线看 WER/CER、实体准确率、专名召回、语义保持、过纠率和欠纠率;线上看搜索命中、客服意图识别、人工修改率、用户投诉、业务转化和延迟成本。最终目标不是让文字更漂亮,而是在语义不变的条件下提升下游可用性。
ASR 错字往往不是普通拼写错误,而是由声学相似、口音、噪声、断句、领域词缺失和上下文歧义造成的。常见错误包括同音字、近音字、专名错、数字单位错、英文缩写错、标点断句错、漏字和重复字。不同错误需要不同证据,不能只用通用文本纠错模型统一处理。
ASR token 置信度、声学分数和语言模型分数能帮助定位可疑片段,但低置信不一定错,高置信也可能错。更可靠的是结合 N-best、lattice 或 confusion network,知道某个位置有哪些发音相近候选,再让上下文模型或词典在候选范围内选择。这样比无约束改写更能保持原始语音含义。
专名错误通常对业务影响最大,例如人名、地名、公司名、商品名、药品名、会议项目名和行业术语。可以构建热词词典、拼音索引、别名库和实体上下文规则,在 ASR 解码阶段或后处理阶段增强候选。但词典要有权重和场景约束,否则会把相似发音的普通词过度纠成专名。
上下文模型的作用是判断一句话在语境中是否合理,例如前后主题、句法搭配、实体类型和业务流程是否匹配。可以用 masked LM 做局部替换,用 seq2seq 做整句纠错,也可以用领域语言模型重排 N-best。关键是只修改有证据的位置,并保留原句意图、否定、数字、时间和实体关系。
LLM 擅长利用长上下文和业务背景识别明显错别字、专名和断句问题,但也容易把口语改写成更顺的书面语,甚至补充不存在的信息。因此应给 LLM 明确边界:只纠错,不润色,不扩写;优先依据 ASR 候选、热词和上下文;输出修改列表和置信度;低置信修改需要回退或人工确认。
离线评估不能只看纠错后文本是否更通顺。要对比纠错前后的 CER/WER、实体准确率、热词召回、过纠率、欠纠率、语义一致性和下游任务效果。线上还要看延迟、成本、搜索命中、意图识别准确率、人工修改率和用户反馈。任何纠错系统都要特别监控把正确词改错的比例。
因为 ASR 后处理的目标是忠实恢复语音内容,不是生成更漂亮的文字。LLM 无约束润色可能改变否定、数字、实体、语气和业务事实,导致下游意图识别或记录留痕出错。
它们保留了 ASR 对同一语音片段的多个候选和分数。纠错模型可以在发音合理的候选里选择,而不是凭文本相似度凭空替换,这能显著降低语义漂移和过纠。
热词要按场景、用户、会话主题、实体类型和置信度加权,不能全局强制替换。还要设置编辑距离、拼音相似、上下文触发和黑名单规则,并统计热词替换后的过纠率。
应包含真实音频、人工转写文本、ASR 原始输出、实体标注和场景标签。样本要覆盖口音、噪声、远场、热词、新词、数字单位和多领域语料,并单独维护高价值专名和历史 badcase。
除 WER/CER 外,要看下游任务,比如搜索召回、客服意图识别、会议纪要实体准确、表单填充正确率、人工修改率和用户负反馈。纠错收益必须扣除延迟、成本和过纠带来的伤害。