真实面经题目 · 原创解析

转化率不达标时,如何把用户行为会话整理成大模型意图识别输入,并输出可分析的结构化标签?

这题考 AI 应用工程和数据分析的结合:转化率不达标只是结果,补数据给大模型做意图识别的目标是把用户会话从行为流水转成可分群、可诊断、可回流实验的结构化标签。

出现于:Shopee · 后端开发

60 秒回答模板

我会先解释为什么要补这批数据:转化率不达标只能说明漏斗结果不好,不能直接告诉我们用户是在找商品、比价、犹豫、遇到履约顾虑、找不到入口、被推荐误导,还是被价格/库存/物流/信任问题卡住。把用户行为会话整理给大模型做意图识别,是为了把分散的点击、搜索、浏览、加购、停留、退出、客服文本等上下文转成结构化意图和阻塞原因,方便按人群、场景和漏斗节点分析。具体做法我会分成六步:第一,定义分析目标和标签 schema,例如主意图、购买阶段、阻塞原因、证据事件、置信度和是否需要人工复核;第二,重构 session,把时间窗口内的曝光、点击、搜索词、商品/类目、价格、活动、加购、下单失败、退出等事件按时间线组织;第三,做抽样和隐私处理,覆盖转化/未转化、不同入口、类目、国家地区、设备和新老用户,同时脱敏 PII;第四,设计 LLM 输入,把长行为压缩成可读摘要和关键事件表,并要求输出固定 JSON,避免自由文本不可分析;第五,用人工标注、小样本 gold set、规则校验和一致性检查验证标签质量;第六,把识别结果回连漏斗指标,分析哪些意图人群转化差、在哪些节点掉队,再用于产品改版、推荐策略、客服话术、实验分层或数据集迭代。这里的重点不是宣称一定要微调模型,而是构建一个可靠的数据包、标签体系和反馈闭环。

考点 转化问题要先诊断意图
难度 真实面经题
回答目标 让候选人把“补数据给大模型做意图识别”回答成可落地的数据产品流程:会话重构、标签 schema、结构化输出、质量验证、隐私保护和转化分析闭环。

深入解析

01

先说明为什么补数据

转化率是聚合指标,它只能告诉团队结果没有达标,不能解释原因。用户可能有明确购买意图但被价格卡住,也可能只是浏览、比价、找优惠、查物流、验证商品可信度或误入流量。补充行为会话给大模型做意图识别,是为了把不可直接分析的行为序列转成可分组的诊断标签。

02

标签 schema 要服务诊断

标签不应只有一个粗糙的 intent。更实用的 schema 可以包含主意图、购买阶段、阻塞原因、关键证据事件、漏斗节点、置信度、是否多意图、是否需要人工复核等字段。标签必须能回答业务下一步问题:哪类用户值得优化、在哪个环节卡住、可以采取什么干预。

03

session 重构决定输入质量

数据包需要把分散事件按用户会话组织起来,例如入口来源、曝光、点击、搜索词、筛选、商品页停留、收藏、加购、优惠券、支付失败、退出、客服咨询等。要保留时间顺序、关键上下文和漏斗节点,去掉无关噪声,避免把单个点击孤立地交给模型判断。

04

LLM 输入输出要结构化

长行为流水不能直接塞给模型。可以把事件压缩成时间线摘要、关键事件表和必要上下文,再用 prompt 明确标签定义、判定边界和输出 JSON schema。输出要固定字段、枚举值、证据引用和置信度,方便落库、统计、抽样复核和后续 BI 分析。

05

采样和隐私不能省

样本要覆盖转化和未转化、不同入口、类目、国家地区、设备、新老用户、长短会话和异常路径,否则模型标签会偏向高频场景。用户 ID、联系方式、地址、支付信息等敏感内容要脱敏或不进入 LLM 输入;数据保留、访问权限和审计也要明确。

06

结果要回到转化分析闭环

意图识别的价值不在生成标签本身,而在把标签与漏斗指标连接起来。比如按意图看点击到加购、加购到支付、支付失败、退出率、复访率和客单价,找到高意图低转化人群,再通过产品改版、推荐重排、优惠策略、客服入口或 A/B 实验验证改进。

易错点

  • 只说“多收集数据给模型训练”,没有说明转化率低到底需要识别什么意图和阻塞原因。
  • 把单个点击或单条搜索词当成完整输入,忽略会话时间线和漏斗上下文。
  • 输出自由文本总结,不能落库统计、分群分析或连接转化指标。
  • 不做人工复核和 gold set,只相信 LLM 标签,导致错误归因进入业务决策。
  • 忽略隐私脱敏、访问控制和敏感字段过滤,把用户个人信息直接送入模型。
  • 编造 Shopee 内部数据资产、模型训练链路或指标;来源只支持“补一批数据给大模型做意图识别”这一方向。

面试官追问

为什么不用规则直接判断意图?

规则适合明确行为,例如加购后支付失败;但很多意图要结合搜索词、停留、反复比较、客服文本和上下文。LLM 可以处理更复杂的弱结构会话,但仍需要 schema、规则校验和人工复核约束。

如何避免模型把原因乱归因?

要求模型输出证据事件和置信度,限制可选标签,给出判定边界;再用人工 gold set、抽样复核、一致性检查和异常规则过滤。没有证据的原因不应进入高置信标签。

样本应该怎么抽?

要分层覆盖转化/未转化、不同入口、类目、用户类型、设备、地区、会话长度和异常路径,并适当过采样高价值但低转化人群,避免只看总体高频样本。

输出标签怎么用于提升转化?

先按标签看漏斗差异,找出高意图低转化的细分人群和卡点,再设计动作,例如信息补充、推荐重排、价格/优惠提示、支付链路修复或客服触达,并通过实验验证。

这批数据一定是拿来微调大模型吗?

不一定。它可以用于离线标注、prompt few-shot、规则/模型对齐、诊断分析或后续训练。题目重点是数据包和意图标签闭环,不能默认成专有微调流程。