语音识别面试题解析

标签题目

语音识别相关面试题

ASR 语音识别流程中，WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题？

这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线：语音识别不是一个单一模型，而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列；GMM-HMM 用高斯混合建模每个声学状态的观测概率；DNN-HMM 用神经网络替代 GMM 做更强的声学判别；WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图；CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐，弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。

语音识别算法模型训练神经网络

虎牙 / 算法

RNN-T 和 CTC 在 ASR 建模、对齐假设、流式解码和语言依赖上有什么区别？

这道题考察 ASR 中 CTC 与 RNN-T 的建模假设和流式解码差异。回答要讲清 CTC 条件独立、blank 折叠、RNN-T prediction network、联合网络和语言依赖。

语音识别模型评估

商汤科技 / 算法

ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复，并评估纠错收益？

这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理，在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别，并用离线和线上指标证明收益。

语音识别大语言模型模型评估