推荐系统中的用户画像和特征工程如何实现，怎样保证训练样本与线上特征口径一致？｜美团算法面经解析

60 秒回答模板

我会先把用户画像拆成静态画像、长期兴趣、短期兴趣、实时上下文和统计特征。实现时为每个特征定义 feature spec：数据源、主键、事件时间、窗口长度、聚合方式、默认值、TTL、版本和线上读取方式。训练样本构造时，以曝光或预测时间 T 为截断点，只能 join T 之前已经可见的特征，正样本来自点击、下单或转化，负样本最好来自真实曝光未点击或未转化。为了保证线上线下一致，离线训练和线上 serving 应共享同一套特征定义或 transformation 代码，通过 feature store、日志回放、特征 diff、覆盖率和分布漂移监控来验证。

考点 画像不是字段堆砌

难度 真实面经题

回答目标 展示候选人能把推荐画像和特征工程落成可复用、可回放、可监控的训练服务一致性体系。

深入解析

画像要分层

静态画像包括城市、设备、会员等级、注册时长；长期兴趣来自 7 天、30 天、90 天点击、购买、搜索偏好；短期兴趣来自最近 session 或最近若干次行为；上下文包括时间、地点、入口和设备；统计特征包括曝光、点击率、转化率、价格带和类目偏好。

特征定义要产品化

特征不能只是临时 SQL。每个特征应有数据源、主键、时间语义、窗口、聚合方式、缺失值、分桶或归一化规则、TTL、版本、负责人和线上读取路径。这样才能复用、测试、回放和排查。

样本必须按时间截断

point-in-time correctness 是一致性的底线。训练样本在时间 T 预测点击或转化时，只能使用 T 之前产生且线上可见的行为和统计。用全量历史或目标之后行为，会让离线 AUC、GAUC 虚高。

负样本来自曝光

推荐排序的负样本通常应来自真实曝光未点击或未转化，而不是随机 item。随机负样本会让模型学成区分被召回物品和随机物品，和线上在已曝光候选中排序的目标不一致。

统一训练和服务口径

更稳的方式是通过 feature store 或统一 transformation 代码生成离线训练特征和线上 serving 特征。默认值、hash、归一化、分桶、窗口边界和时区都要一致，否则模型上线会遇到 training-serving skew。

监控和回放闭环

上线前用 shadow serving 或请求日志回放比对同一用户同一时刻的线上、离线特征。上线后监控特征覆盖率、缺失率、PSI、KS、均值方差、top value 占比、读取延迟和异常率。

易错点

用未来数据或全量统计构造训练样本，造成标签泄漏。
训练负样本用随机 item，而不是真实曝光未点击候选。
只写离线 SQL，没有特征定义、版本、默认值和线上读取路径。
离线和线上窗口口径不一致，例如自然日统计对滚动 24 小时统计。
缺少特征 diff 和分布漂移监控，上线后才发现缺失率或延迟异常。

面试官追问

如何设计 feature store 来复用离线和线上口径？

核心是统一 feature spec 和 transformation。离线 store 支持时间点 join 训练样本，线上 store 提供低延迟读取；两者共享特征定义、版本、默认值和窗口规则，并用日志回放做 diff。

什么是训练服务不一致？

训练时看到的特征分布、窗口、缺失处理或归一化和线上服务时不一样。典型例子是离线用全量统计，线上只能用延迟统计；离线缺失填 0，线上填空字符串；离线按自然日，线上按滚动 24 小时。

实时特征和离线特征冲突时怎么办？

先定义优先级和时间语义。短期兴趣通常优先实时或近线，长期统计优先离线稳定特征；还要给实时缺失、延迟和异常准备降级值，并在模型中暴露 freshness 或 missing indicator。

如何判断一个画像特征是否值得保留？

看离线增益、线上 A/B、覆盖率、稳定性、计算成本和可解释性。也要做特征重要性、分桶效果、漂移监控和反事实下线实验，避免长期保留无效或泄漏特征。