真实面经题目 · 原创解析
转化率不达标时,如何把用户行为会话整理成大模型意图识别输入,并输出可分析的结构化标签?
这题考 AI 应用工程和数据分析的结合:转化率不达标只是结果,补数据给大模型做意图识别的目标是把用户会话从行为流水转成可分群、可诊断、可回流实验的结构化标签。
真实面经题目 · 原创解析
这题考 AI 应用工程和数据分析的结合:转化率不达标只是结果,补数据给大模型做意图识别的目标是把用户会话从行为流水转成可分群、可诊断、可回流实验的结构化标签。
我会先解释为什么要补这批数据:转化率不达标只能说明漏斗结果不好,不能直接告诉我们用户是在找商品、比价、犹豫、遇到履约顾虑、找不到入口、被推荐误导,还是被价格/库存/物流/信任问题卡住。把用户行为会话整理给大模型做意图识别,是为了把分散的点击、搜索、浏览、加购、停留、退出、客服文本等上下文转成结构化意图和阻塞原因,方便按人群、场景和漏斗节点分析。具体做法我会分成六步:第一,定义分析目标和标签 schema,例如主意图、购买阶段、阻塞原因、证据事件、置信度和是否需要人工复核;第二,重构 session,把时间窗口内的曝光、点击、搜索词、商品/类目、价格、活动、加购、下单失败、退出等事件按时间线组织;第三,做抽样和隐私处理,覆盖转化/未转化、不同入口、类目、国家地区、设备和新老用户,同时脱敏 PII;第四,设计 LLM 输入,把长行为压缩成可读摘要和关键事件表,并要求输出固定 JSON,避免自由文本不可分析;第五,用人工标注、小样本 gold set、规则校验和一致性检查验证标签质量;第六,把识别结果回连漏斗指标,分析哪些意图人群转化差、在哪些节点掉队,再用于产品改版、推荐策略、客服话术、实验分层或数据集迭代。这里的重点不是宣称一定要微调模型,而是构建一个可靠的数据包、标签体系和反馈闭环。
转化率是聚合指标,它只能告诉团队结果没有达标,不能解释原因。用户可能有明确购买意图但被价格卡住,也可能只是浏览、比价、找优惠、查物流、验证商品可信度或误入流量。补充行为会话给大模型做意图识别,是为了把不可直接分析的行为序列转成可分组的诊断标签。
标签不应只有一个粗糙的 intent。更实用的 schema 可以包含主意图、购买阶段、阻塞原因、关键证据事件、漏斗节点、置信度、是否多意图、是否需要人工复核等字段。标签必须能回答业务下一步问题:哪类用户值得优化、在哪个环节卡住、可以采取什么干预。
数据包需要把分散事件按用户会话组织起来,例如入口来源、曝光、点击、搜索词、筛选、商品页停留、收藏、加购、优惠券、支付失败、退出、客服咨询等。要保留时间顺序、关键上下文和漏斗节点,去掉无关噪声,避免把单个点击孤立地交给模型判断。
长行为流水不能直接塞给模型。可以把事件压缩成时间线摘要、关键事件表和必要上下文,再用 prompt 明确标签定义、判定边界和输出 JSON schema。输出要固定字段、枚举值、证据引用和置信度,方便落库、统计、抽样复核和后续 BI 分析。
样本要覆盖转化和未转化、不同入口、类目、国家地区、设备、新老用户、长短会话和异常路径,否则模型标签会偏向高频场景。用户 ID、联系方式、地址、支付信息等敏感内容要脱敏或不进入 LLM 输入;数据保留、访问权限和审计也要明确。
意图识别的价值不在生成标签本身,而在把标签与漏斗指标连接起来。比如按意图看点击到加购、加购到支付、支付失败、退出率、复访率和客单价,找到高意图低转化人群,再通过产品改版、推荐重排、优惠策略、客服入口或 A/B 实验验证改进。
规则适合明确行为,例如加购后支付失败;但很多意图要结合搜索词、停留、反复比较、客服文本和上下文。LLM 可以处理更复杂的弱结构会话,但仍需要 schema、规则校验和人工复核约束。
要求模型输出证据事件和置信度,限制可选标签,给出判定边界;再用人工 gold set、抽样复核、一致性检查和异常规则过滤。没有证据的原因不应进入高置信标签。
要分层覆盖转化/未转化、不同入口、类目、用户类型、设备、地区、会话长度和异常路径,并适当过采样高价值但低转化人群,避免只看总体高频样本。
先按标签看漏斗差异,找出高意图低转化的细分人群和卡点,再设计动作,例如信息补充、推荐重排、价格/优惠提示、支付链路修复或客服触达,并通过实验验证。
不一定。它可以用于离线标注、prompt few-shot、规则/模型对齐、诊断分析或后续训练。题目重点是数据包和意图标签闭环,不能默认成专有微调流程。