转化率不达标时，如何把用户行为会话整理成大模型意图识别输入，并输出可分析的结构化标签？｜Shopee 后端开发面经解析

60 秒回答模板

我会先解释为什么要补这批数据：转化率不达标只能说明漏斗结果不好，不能直接告诉我们用户是在找商品、比价、犹豫、遇到履约顾虑、找不到入口、被推荐误导，还是被价格/库存/物流/信任问题卡住。把用户行为会话整理给大模型做意图识别，是为了把分散的点击、搜索、浏览、加购、停留、退出、客服文本等上下文转成结构化意图和阻塞原因，方便按人群、场景和漏斗节点分析。具体做法我会分成六步：第一，定义分析目标和标签 schema，例如主意图、购买阶段、阻塞原因、证据事件、置信度和是否需要人工复核；第二，重构 session，把时间窗口内的曝光、点击、搜索词、商品/类目、价格、活动、加购、下单失败、退出等事件按时间线组织；第三，做抽样和隐私处理，覆盖转化/未转化、不同入口、类目、国家地区、设备和新老用户，同时脱敏 PII；第四，设计 LLM 输入，把长行为压缩成可读摘要和关键事件表，并要求输出固定 JSON，避免自由文本不可分析；第五，用人工标注、小样本 gold set、规则校验和一致性检查验证标签质量；第六，把识别结果回连漏斗指标，分析哪些意图人群转化差、在哪些节点掉队，再用于产品改版、推荐策略、客服话术、实验分层或数据集迭代。这里的重点不是宣称一定要微调模型，而是构建一个可靠的数据包、标签体系和反馈闭环。

考点 转化问题要先诊断意图

难度 真实面经题

回答目标 让候选人把“补数据给大模型做意图识别”回答成可落地的数据产品流程：会话重构、标签 schema、结构化输出、质量验证、隐私保护和转化分析闭环。

深入解析

先说明为什么补数据

转化率是聚合指标，它只能告诉团队结果没有达标，不能解释原因。用户可能有明确购买意图但被价格卡住，也可能只是浏览、比价、找优惠、查物流、验证商品可信度或误入流量。补充行为会话给大模型做意图识别，是为了把不可直接分析的行为序列转成可分组的诊断标签。

标签 schema 要服务诊断

标签不应只有一个粗糙的 intent。更实用的 schema 可以包含主意图、购买阶段、阻塞原因、关键证据事件、漏斗节点、置信度、是否多意图、是否需要人工复核等字段。标签必须能回答业务下一步问题：哪类用户值得优化、在哪个环节卡住、可以采取什么干预。

session 重构决定输入质量

数据包需要把分散事件按用户会话组织起来，例如入口来源、曝光、点击、搜索词、筛选、商品页停留、收藏、加购、优惠券、支付失败、退出、客服咨询等。要保留时间顺序、关键上下文和漏斗节点，去掉无关噪声，避免把单个点击孤立地交给模型判断。

LLM 输入输出要结构化

长行为流水不能直接塞给模型。可以把事件压缩成时间线摘要、关键事件表和必要上下文，再用 prompt 明确标签定义、判定边界和输出 JSON schema。输出要固定字段、枚举值、证据引用和置信度，方便落库、统计、抽样复核和后续 BI 分析。

采样和隐私不能省

样本要覆盖转化和未转化、不同入口、类目、国家地区、设备、新老用户、长短会话和异常路径，否则模型标签会偏向高频场景。用户 ID、联系方式、地址、支付信息等敏感内容要脱敏或不进入 LLM 输入；数据保留、访问权限和审计也要明确。

结果要回到转化分析闭环

意图识别的价值不在生成标签本身，而在把标签与漏斗指标连接起来。比如按意图看点击到加购、加购到支付、支付失败、退出率、复访率和客单价，找到高意图低转化人群，再通过产品改版、推荐重排、优惠策略、客服入口或 A/B 实验验证改进。

易错点

只说“多收集数据给模型训练”，没有说明转化率低到底需要识别什么意图和阻塞原因。
把单个点击或单条搜索词当成完整输入，忽略会话时间线和漏斗上下文。
输出自由文本总结，不能落库统计、分群分析或连接转化指标。
不做人工复核和 gold set，只相信 LLM 标签，导致错误归因进入业务决策。
忽略隐私脱敏、访问控制和敏感字段过滤，把用户个人信息直接送入模型。
编造 Shopee 内部数据资产、模型训练链路或指标；来源只支持“补一批数据给大模型做意图识别”这一方向。

面试官追问

为什么不用规则直接判断意图？

规则适合明确行为，例如加购后支付失败；但很多意图要结合搜索词、停留、反复比较、客服文本和上下文。LLM 可以处理更复杂的弱结构会话，但仍需要 schema、规则校验和人工复核约束。

如何避免模型把原因乱归因？

要求模型输出证据事件和置信度，限制可选标签，给出判定边界；再用人工 gold set、抽样复核、一致性检查和异常规则过滤。没有证据的原因不应进入高置信标签。

样本应该怎么抽？

要分层覆盖转化/未转化、不同入口、类目、用户类型、设备、地区、会话长度和异常路径，并适当过采样高价值但低转化人群，避免只看总体高频样本。

输出标签怎么用于提升转化？

先按标签看漏斗差异，找出高意图低转化的细分人群和卡点，再设计动作，例如信息补充、推荐重排、价格/优惠提示、支付链路修复或客服触达，并通过实验验证。

这批数据一定是拿来微调大模型吗？

不一定。它可以用于离线标注、prompt few-shot、规则/模型对齐、诊断分析或后续训练。题目重点是数据包和意图标签闭环，不能默认成专有微调流程。