标签题目
语音识别相关面试题
ASR 语音识别流程中,WFST、HMM、GMM-HMM、DNN-HMM 和 CTC 分别解决什么问题?
这道题考察候选人是否理解传统 ASR 到深度学习 ASR 的主线:语音识别不是一个单一模型,而是从声学信号到文字序列的建模与搜索问题。HMM 负责把连续语音拆成带隐状态的时间序列;GMM-HMM 用高斯混合建模每个声学状态的观测概率;DNN-HMM 用神经网络替代 GMM 做更强的声学判别;WFST 把发音词典、语言模型、上下文相关音素和解码约束组合成可搜索图;CTC 则用 blank 和条件独立假设直接学习帧到标签序列的对齐,弱化了 HMM 依赖的人工状态对齐。高质量答案要能讲清“各模块解决的问题、它们在链路中的位置、为什么从 GMM-HMM 演进到 DNN-HMM/CTC、以及评估时如何看 WER、RTF、延迟和 OOV”等指标。
RNN-T 和 CTC 在 ASR 建模、对齐假设、流式解码和语言依赖上有什么区别?
这道题考察 ASR 中 CTC 与 RNN-T 的建模假设和流式解码差异。回答要讲清 CTC 条件独立、blank 折叠、RNN-T prediction network、联合网络和语言依赖。
ASR 识别文本中的错别字如何结合置信度、上下文纠错、专名词典、语言模型或 LLM 后处理修复,并评估纠错收益?
这题考 ASR 后处理纠错的系统设计。重点是利用识别置信度、N-best 或 lattice、上下文语言模型、专名热词词典和 LLM 后处理,在不改变原意的前提下修复同音错字、专名错误、断句和领域词误识别,并用离线和线上指标证明收益。