标签题目
特征工程相关面试题第 2 页
基于商品属性 Embedding 的推荐召回如何设计,如何处理属性特征、向量索引和冷启动?
这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念,拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则,再把稀疏属性编码成 item embedding,构建 ANN 向量索引,在线用用户画像、最近行为或 query embedding 召回相似商品,并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景,但不能完全替代协同过滤;属性相似不等于用户会转化,仍需要后续排序和实验验证。
推荐系统新增一路召回后,排序阶段需要做哪些特征接入、分数校准和模型训练改造?
这道题考察的是候选人是否理解推荐系统是召回、排序、重排和实验闭环的整体系统。新增一路召回不是把候选直接塞给排序模型就结束,因为新召回源会带来候选分布变化、分数口径不一致、样本覆盖不足、特征缺失、去重归因复杂、线上配额和延迟变化。排序阶段至少要接入召回源特征、补齐候选侧特征、处理新旧渠道分数校准、更新训练样本和负采样、监控不同来源的排序表现,并通过 A/B 验证用户指标、业务指标和系统成本。回答的关键是把新增召回后的排序改造讲成“分布变化治理”,而不是只说模型重新训练。
视觉感知多任务网络(如检测、分割、车道线、关键点等)如何处理任务间和类别间数据不平衡,并说明网络结构、数据加载、损失权重和评估策略?
这道题考察感知多任务网络在任务间和类别间不平衡时的系统治理。回答要覆盖共享骨干、多任务头、采样、损失权重、梯度冲突和分任务评估。
推荐系统的离线特征与样本流水线如何设计?线上服务消费离线结果时,如何在固定周期刷新、近实时更新和特征滞后补偿之间取舍?
这道题考察推荐系统离线特征、样本流水线与线上服务消费的工程设计。好的回答要讲清固定周期刷新、近实时更新和特征滞后补偿的取舍。