真实面经题目 · 原创解析
CVR 建模遇到转化回传延时高时怎么处理,CTR/CVR 的特征和模型结构有什么不同?
这道题考察广告 CVR 的延迟反馈和任务差异。回答要先说明 CVR 标签更稀疏、更延迟、更受点击选择偏差影响,再给出标签窗口、样本成熟、延迟建模、回填训练和离线评估的完整处理方式。
真实面经题目 · 原创解析
这道题考察广告 CVR 的延迟反馈和任务差异。回答要先说明 CVR 标签更稀疏、更延迟、更受点击选择偏差影响,再给出标签窗口、样本成熟、延迟建模、回填训练和离线评估的完整处理方式。
CTR 和 CVR 的核心差异在标签空间和反馈速度。CTR 是曝光后是否点击,反馈快、样本多,特征更偏用户即时兴趣、广告素材和上下文;CVR 是点击或曝光后是否转化,反馈慢、正样本少,特征更偏商品/服务属性、价格、落地页、历史转化和用户购买意图。遇到转化回传延时高,不能把当前未回传样本直接当负样本。我会先定义转化窗口和标签成熟时间,只用成熟样本做稳定训练;对未成熟样本按年龄加权、延迟反馈模型或 survival/hazard 思路估计最终转化概率;线上训练要支持正样本回填和样本重标。评估时也要用成熟 cohort,避免新近流量因为正样本还没回来而低估模型。
CTR 预测曝光后是否点击,标签几乎即时产生,样本量大且负样本充分。CVR 预测点击后或曝光后是否转化,标签可能在几小时到几天后回传,正样本更少,且只有点击人群的转化更容易被观察到。这个差异决定了 CVR 不能直接照搬 CTR 的训练样本和评估方式。
CTR 特征更关注吸引点击的因素,例如用户短期兴趣、广告创意、展示位置、时间上下文和历史点击。CVR 特征更关注完成转化的因素,例如商品或服务价格、落地页质量、支付/下单路径、用户购买能力、历史转化、转化周期和广告主质量。两者可以共享部分用户和广告表征,但 CVR 需要更多转化意图和链路质量特征。
CTR 模型通常追求高吞吐、低延迟和快速反馈迭代,常见做法是大规模稀疏特征加深度排序模型。CVR 模型要处理点击选择偏差、标签稀疏和延迟反馈,可以采用 ESMM/多任务结构、延迟反馈建模、样本重加权或校准模块。回答时不要只说“都是二分类”,而要指出 CVR 的观测机制更复杂。
处理延迟反馈的第一步是定义转化窗口,例如曝光或点击后多长时间内算转化。窗口未结束的样本是未成熟样本,不能简单标成负例。离线训练可以只使用成熟样本,或者对不同年龄样本估计成熟概率,避免把尚未回传的正样本污染为负样本。
工程上可以做正样本回填和样本重标:先让样本进入训练流,后续转化回传后更新标签或补充训练。模型上可以同时预测是否最终转化和转化延迟分布,用样本年龄、回传渠道和历史延迟分布做 correction;也可以用 survival/hazard 思路估计在未来窗口内转化的概率。目标是把“未观察到”与“确定不会转化”分开。
CVR 的离线评估必须用成熟 cohort,否则越新的流量看起来转化率越低。指标除了 AUC、LogLoss,还要看分桶校准、预估/实际转化比、不同转化延迟切片和广告主/行业切片。线上要监控回传延迟分布变化,因为回传链路变化会让模型指标和真实效果同时漂移。
因为其中一部分只是还没到转化窗口或还没完成回传。直接标负会系统性低估 CVR,尤其伤害转化周期较长的广告或人群。
延迟反馈解决的是标签什么时候可观察,样本选择偏差解决的是只在点击样本上观察 CVR。两者经常同时存在,但处理方法不同:前者要管标签成熟,后者要管训练样本空间。
不同广告、行业或用户的回传延迟不同。只看整体指标可能掩盖模型对长延迟样本的低估,也可能把回传链路变化误认为模型变差。
可以共享用户、广告、上下文等基础表征,但 CVR 需要任务专属特征和任务头。多任务结构要控制负迁移,避免高频 CTR 任务压制稀疏 CVR 任务。