真实面经题目 · 原创解析
在B站视频业务的场景下,有哪些可能的挑选特征的方法?
B站视频业务挑选特征,要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断,不能只凭相关性或单次离线指标决定。
真实面经题目 · 原创解析
B站视频业务挑选特征,要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断,不能只凭相关性或单次离线指标决定。
我会先明确场景目标,比如首页推荐、搜索排序、视频质量评估、冷启动或创作者成长,不同目标对应不同标签和特征。候选特征可以从用户、视频、UP主、上下文、交互行为和多模态内容中来;筛选方法包括业务先验、缺失率和稳定性检查、相关性/互信息/卡方过滤、L1 正则、树模型重要性、SHAP、Permutation importance、特征消融、线上 A/B 和成本评估。最后要防止标签泄漏、训练服务不一致、热门偏置和过高特征延迟。
B站视频场景可能优化点击、播放时长、完播、点赞投币收藏、关注、负反馈、长期留存或内容生态健康。目标不同,特征价值不同;例如首页推荐更重序列兴趣,冷启动更重内容和 UP主先验。
候选特征可分为用户特征、视频特征、UP主特征、上下文特征和交叉特征。视频侧包括分区、标签、标题、封面、时长、发布时间、质量分、互动率、ASR/OCR、音频和视觉 embedding。
基础筛选要看缺失率、覆盖率、取值稳定性、唯一值数量、分布漂移、相关性、互信息、卡方和 PSI。低覆盖、高漂移或训练线上口径不一致的特征,即使离线有收益也要谨慎。
可以用 L1 正则、GBDT/XGBoost 特征重要性、Permutation importance、SHAP、深度模型 gate 权重和特征消融评估贡献。更可靠的是按特征组逐步加入,观察验证集和关键切片收益。
最终是否保留特征要看线上 A/B、延迟、存储、稳定性、可解释性和维护成本。某些特征离线提升很高,但如果引入标签泄漏、热门偏置或服务延迟,就不适合上线。
优先用标题、分区、标签、封面、ASR/OCR、多模态 embedding、UP主历史质量和发布时间等不依赖大量互动的特征。
要排查标签泄漏、样本偏差、训练服务口径不一致、特征延迟、流量切片差异和重排策略覆盖,再决定修复还是下线。
看离线指标、冷启动和长尾切片收益、召回覆盖、线上 A/B、推理成本、更新周期和与已有文本行为特征的互补性。