AI 语音交互的技术流程是什么？｜高频面试题解析

60 秒回答模板

AI 语音交互可以按“听见、听清、听懂、决策、回答、播报、反馈”来讲。第一步是音频采集和前端处理，设备通过麦克风采集声音，做唤醒词检测、回声消除、降噪、增益控制和端点检测，判断什么时候开始听、什么时候一句话结束。第二步是 ASR，也就是自动语音识别，把音频流转成文本，同时可能输出时间戳、置信度、标点、说话人或热词命中。第三步是语义理解，可以是传统 NLU 的意图识别和槽位抽取，也可以由 LLM 结合上下文理解用户目标。第四步是对话管理和业务决策，根据用户当前意图、历史轮次、权限、设备状态和业务规则，决定是直接回答、追问澄清、调用工具、执行指令还是拒绝。第五步是回答生成，把业务结果转成自然语言或结构化动作，并做安全、长度、语气和可播报性控制。第六步是 TTS，把文本合成为语音，控制音色、语速、情绪和流式播放，同时支持用户打断、续说和多轮交互。最后还要有日志和反馈闭环，记录 ASR 文本、置信度、意图、耗时、失败原因和用户纠错，用于评测和迭代。面试中要讲清每一环负责什么，不要只背 ASR、NLP、TTS 三个缩写。

考点 入口处理

难度 真实面经题

回答目标 让候选人能按端到端链路讲清 AI 语音交互中音频前处理、ASR、语义理解、对话管理、业务执行、回答生成、TTS 和反馈日志的职责边界。

深入解析

整体链路先按职责分层

完整语音交互不是简单的“语音转文字再读出来”，而是一条实时人机交互链路。前端音频模块负责采集和判断语音边界，ASR 负责把声音转成文本，语义和对话模块负责理解目标与上下文，业务模块负责查询或执行动作，生成模块负责组织答复，TTS 负责播报，日志反馈负责后续评估。这样分层能避免把所有问题都混到一个模型里。

音频采集决定系统何时开始听

语音入口通常包含麦克风采集、唤醒词、回声消除、降噪、自动增益控制、语音活动检测和端点检测。唤醒词避免系统一直响应环境音；端点检测判断用户一句话何时结束；回声消除和降噪降低播放声音、背景噪声和远场拾音对识别的影响。这一层输出的是可送入识别模型的音频片段或音频流。

ASR 把音频转换为可处理文本

ASR 的职责是把连续音频流转换成文字结果，常见输出包括中间识别结果、最终文本、时间戳、置信度、标点、热词和可能的说话人信息。ASR 只解决“用户说了什么字面内容”，不等于理解用户真实意图。比如“帮我打开那个”被准确转写出来后，仍然需要后续模块结合上下文判断“那个”指什么。

语义理解和对话管理负责听懂

语义层可以用意图识别、槽位抽取、规则系统、检索模型或 LLM 来实现。它要识别用户想查询、控制、闲聊、改写、确认还是取消，并提取关键参数。对话管理进一步维护多轮状态、上下文引用、澄清问题、用户权限、设备状态和任务进度。它决定下一步是直接执行、补问信息、调用工具还是结束对话。

业务执行和回答生成负责可用结果

很多语音交互不是只回答文本，而是要查天气、控制设备、创建提醒、搜索内容、下单或调用企业系统。业务执行层要处理接口调用、权限校验、参数补全和异常返回。回答生成层再把结果转成用户能听懂的话，控制长度、口语化程度、敏感内容、确认语和结构化动作，避免生成不适合播报或无法执行的内容。

TTS 和播放控制完成闭环

TTS 将回复文本合成为语音，需要考虑音色、语速、停顿、情绪、数字读法、多语言和专业词读音。播放层还要支持流式合成、边生成边播、用户打断、继续追问和错误提示。最后通过日志记录各阶段耗时、置信度、用户取消、重说、纠错和成功率，形成后续评估和迭代的数据基础。

易错点

只背 ASR、NLP、TTS 三个词，没有说明每一层的输入、输出和责任边界。
把 ASR 当成理解模块，以为文字识别正确就等于用户意图理解正确。
忽略唤醒、VAD、端点检测、降噪和回声消除，导致流程从识别阶段才开始讲。
把 TTS 放在回答生成之前，或没有说明业务执行结果如何变成可播报回复。
忽略对话状态和多轮上下文，无法解释指代、省略、确认和取消等自然交互。
把流程题答成“哪里效果不好就优化哪里”的诊断题，偏离组件职责和链路说明。
不提日志、置信度、失败原因和用户反馈，缺少产品迭代所需的闭环。

面试官追问

ASR 和语义理解的区别是什么？

ASR 解决的是声音到文字的问题，目标是识别用户说了哪些词。语义理解解决的是文字到意图和参数的问题，目标是知道用户想做什么、缺哪些信息、是否需要调用业务能力。

LLM 在语音交互里通常放在哪一层？

LLM 可以放在语义理解、对话管理、回答生成或工具编排层，帮助理解复杂指令、维护上下文和生成自然回复。它通常不直接替代麦克风处理、ASR 和 TTS，而是和这些模块组成完整链路。

为什么需要唤醒词和端点检测？

唤醒词用于判断系统什么时候应该开始响应，减少误触发和隐私风险；端点检测用于判断用户一句话是否结束，影响识别完整性和响应时机。没有这些模块，系统容易漏听、抢答或把环境音当成指令。

流式语音交互和非流式有什么区别？

非流式通常等用户说完、识别完成、生成完再播放；流式会边收音边识别、边生成边合成，响应更快，但对打断处理、状态同步、错误修正和模块协同要求更高。

语音交互日志应该记录什么？

至少记录音频阶段耗时、ASR 文本与置信度、语义结果、对话状态、业务调用结果、TTS 播放状态、用户打断或重说、错误码和最终是否完成任务。注意日志要遵守隐私和权限要求。