知识点标签

特征工程面试题解析

特征工程相关面试题,覆盖特征处理、离散化、稀疏特征和特征融合。

52 道题 3 个岗位 14 个公司

特征工程相关面试题

电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?

这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。

内容风控中,品牌 logo 风险识别如何兼顾召回、业务管控标准和无关商品过滤?

这道题考察内容风控里的品牌 logo 风险识别如何从“把疑似风险尽量捞出来”走向可上线的业务闭环。回答要覆盖检测识别链路、隐藏真实风险总量下的召回评估、业务管控标准、无关商品过滤、人审和主动学习,以及离线/在线指标和误杀漏放取舍。

ReID 训练采样时如何保证每个身份的图像数一致,为什么这种 P-K 采样有利于度量学习?

这题考的是 ReID 训练中 batch 构造和度量学习损失的关系。P-K 采样不是简单凑 batch,而是每个 batch 选 P 个身份、每个身份取 K 张图,保证 anchor 有正样本、batch 内有足够负身份,并让 triplet、contrastive、circle、batch-hard 等损失能够稳定挖掘正负样本,同时缓解身份样本数不均衡带来的训练偏置。

推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。

除了传统 RFM 模型,如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群?

这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM,而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群,并用离线稳定性指标和线上业务实验共同证明分群有价值。

在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?

城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。

DCN 和 DeepFM 的特征交叉机制有什么异同?

DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?

这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐召回中,为什么可能不用 UserCF,ItemCF 又该如何结合热度信号?

这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤,而可能是业务和工程上的理性选择:用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大,在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似,物品侧关系相对稳定、可离线预计算、召回延迟低,适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配,所以热度信号不能简单相加放大热门,而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应,以及如何用离线和在线指标验证。

ItemCF 召回中如何引入时间间隔和位置间隔信息来改进相似度计算?

这道题考察的是候选人能否把 ItemCF 从“共同被同一用户交互过就相似”的朴素共现,升级成考虑用户行为序列和时间上下文的召回方法。时间间隔表达两个物品是否在接近的兴趣周期内被消费,位置间隔表达它们在用户序列中是否相邻或有方向性。好的回答要从 ItemCF 基础相似度公式出发,说明在共现贡献项里乘上时间衰减和位置衰减,再配合用户活跃度归一化、物品热度惩罚、会话切分、方向性建模、离线召回评估和线上指标护栏。重点不是背一个固定公式,而是说明为什么这些权重能降低偶然共现和长周期兴趣漂移带来的噪声。