知识点标签

语音识别面试题解析

语音识别相关面试题,覆盖 ASR、声学建模、解码搜索和识别效果评估。

3 道题 1 个岗位 3 个公司

语音识别相关面试题

ASR 语音识别流程中,WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题?

这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线:语音识别不是一个单一模型,而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列;GMM-HMM 用高斯混合建模每个声学状态的观测概率;DNN-HMM 用神经网络替代 GMM 做更强的声学判别;WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图;CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐,弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。

ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复,并评估纠错收益?

这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。