真实面经题目 · 原创解析
推荐排序阶段通常使用哪些特征,如何划分用户、物品、上下文和交叉特征并保证线上线下一致?
这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚,并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标,否则容易停留在简单枚举。
真实面经题目 · 原创解析
这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚,并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标,否则容易停留在简单枚举。
排序阶段要在召回候选中做精细比较,所以特征比召回更丰富。常见分为用户特征、物品特征、上下文特征和交叉特征。用户特征包括长期画像、短期兴趣、历史点击/购买/停留、活跃度、价格和类目偏好;物品特征包括类目、品牌、文本/图片 embedding、价格、质量、热度、新鲜度、库存和历史 CTR/CVR;上下文包括时间、地点、设备、入口、页面位置和场景;交叉特征表达用户与候选的匹配,如用户类目偏好和物品类目、最近点击序列与候选 embedding 相似度、地理距离和历史同品牌行为。线上线下一致要靠统一特征定义、时间窗口、缺失处理、归一化、版本和日志回放。
长期画像体现稳定偏好,短期序列表达当前意图。常见字段有城市、设备、会员、活跃度、历史点击/购买/停留、负反馈、价格偏好、类目偏好、品牌偏好和最近 session 行为。
物品侧包括 ID、类目、品牌、标题、文本/图片 embedding、价格、质量分、热度、新鲜度、库存、商家、历史 CTR/CVR、内容安全状态和可售状态。它们既服务相关性,也服务风险过滤和供给质量。
同一用户在不同时间、地点、设备、入口、网络和页面位置下意图会变化。上下文特征帮助模型理解通勤、夜间、节假日、首页、搜索页和活动页等场景差异。
排序的个性化强度往往来自交叉:用户类目偏好与 item 类目、用户价格带与商品价格、用户最近行为序列与候选向量相似度、用户地理位置与门店距离、历史是否购买过同品牌。
统计特征要严格按时间截断,不能用未来曝光或转化。离线训练和线上 serving 要共享特征定义,保证默认值、hash、分桶、归一化、窗口和版本一致。用日志回放比较同一请求的线上/离线特征值。
离线看 AUC、GAUC、LogLoss、NDCG 和校准度;线上看 CTR、CVR、GMV、停留、复购、留存、负反馈和延迟。特征侧要监控覆盖率、缺失率、分布漂移和训练服务 diff。
全局 AUC 容易被活跃用户或样本多的用户支配。GAUC 按用户或请求分组后加权,更能衡量每个用户内部候选排序是否正确,和个性化排序目标更一致。
检查特征生成时间是否早于样本曝光时间,做 point-in-time join 审计,用日志回放复算线上请求特征,并关注离线指标异常高、线上显著回退、特征重要性异常等信号。
先看覆盖率、稳定性、分布、单特征分桶效果和离线增益,再做 shadow/canary 验证延迟和缺失,最后 A/B 看业务指标。低覆盖或高成本特征即使离线有小增益也要谨慎。
强短期意图和即时状态用实时或近线,稳定画像和长期统计用离线。实时特征更贵也更不稳定,要有缺失指示、TTL 和降级;离线特征稳定但可能不够新鲜。