真实面经题目 · 原创解析
意图识别有哪些分类方式,如何实现?
意图识别可以按标签数量、业务层级、开放程度、是否结合槽位和决策阶段分类。实现上要从标签体系、数据标注、模型方案、置信度治理和线上闭环五个层面设计,而不是只训练一个分类器。
真实面经题目 · 原创解析
意图识别可以按标签数量、业务层级、开放程度、是否结合槽位和决策阶段分类。实现上要从标签体系、数据标注、模型方案、置信度治理和线上闭环五个层面设计,而不是只训练一个分类器。
意图识别的分类方式很多。按标签数量可分为单标签、多标签和层级分类;按业务边界可分为域内意图、域外拒识和未知意图发现;按粒度可分为粗粒度路由和细粒度动作;按任务结构可分为纯意图分类、意图加槽位联合抽取、检索增强意图识别。实现时先定义互斥关系和标签层级,再收集真实用户表达、构造正负样本和困难样本。模型可以从规则词典、传统机器学习、BERT 类编码器、向量检索加分类器,到 LLM 提示词或微调逐步演进。上线时要做置信度阈值、拒识策略、人工兜底、AB 测试和误判回流,指标除了准确率,还要看宏平均 F1、召回率、拒识准确率、混淆矩阵和业务转化。
最常见的划分是单标签、多标签和层级分类。单标签假设一句话只有一个主意图,适合路由到唯一流程;多标签允许一句话同时包含多个独立诉求,例如查询订单并修改地址;层级分类把大类和小类分开,先判断领域,再判断具体动作。标签关系决定损失函数、标注规范、阈值策略和评估方法。
真实系统不能只识别已知意图,还要处理域外输入、闲聊、噪声和新意图。闭集分类默认输入一定属于某个已知类,准确率容易虚高;开放集识别需要给低置信度或语义距离较远的样本拒识;新意图发现则通过聚类、检索和人工归并,把高频未知表达沉淀为新标签。这一层决定系统能否在生产环境稳定运行。
粗粒度意图常用于第一层路由,例如售前咨询、售后服务、内容搜索、任务执行。细粒度意图面向具体动作,例如退款进度、发票补开、密码重置。也可以按决策阶段拆成候选召回、重排、确认和执行。复杂系统通常不会把所有标签摊平成一个巨大分类问题,而是用分层或级联结构降低混淆。
低复杂度场景可以用规则、关键词、正则和词典快速覆盖高精度意图;数据量足够后,用向量编码器或文本分类模型处理泛化表达;当标签说明复杂、需要利用业务文档或需要解释时,可以引入 LLM 进行少样本分类、链式判断或候选重排。工程上常见组合是规则兜底高精度、检索召回候选、模型给出概率、阈值控制拒识。
意图识别不是离线训练结束就完成。需要持续观察低置信度样本、人工改判样本、用户二次追问和业务失败链路,定期更新标签定义和训练集。评价时要看整体准确率,也要看长尾意图召回、域外拒识、混淆高发对、人工转接率和最终任务完成率。否则模型离线分数高,线上仍可能误导用户进入错误流程。
高精度、低歧义、强合规的意图适合规则优先,例如明确命令词或固定格式;泛化表达交给模型处理;冲突时可按置信度、优先级和业务风险决策。规则要可审计,模型要可回流迭代。
需要域外检测和拒识阈值。可以结合分类概率、向量相似度、能量分数、最近邻距离和 LLM 自检,低置信度时进入澄清、人工或通用回答,而不是强行分到最相近的已知类。
不一定。层级分类能减少大规模标签混淆,也更符合业务结构,但上层错误会传递到下层。适合标签多、领域边界清楚的场景;标签少且互斥明确时,扁平分类更简单。
风险包括输出格式不稳定、成本和延迟较高、对标签描述敏感、可能编造不存在的标签。通常要限制候选标签、使用结构化输出、做置信度校验,并用离线集和线上日志持续评估。