特征工程面试题解析

这题考的是 ReID 训练中 batch 构造和度量学习损失的关系。P-K 采样不是简单凑 batch，而是每个 batch 选 P 个身份、每个身份取 K 张图，保证 anchor 有正样本、batch 内有足够负身份，并让 triplet、contrastive、circle、batch-hard 等损失能够稳定挖掘正负样本，同时缓解身份样本数不均衡带来的训练偏置。

计算机视觉样本不平衡模型训练算法特征工程

美团 / 算法

推荐系统中的用户画像和特征工程如何实现，怎样保证训练样本与线上特征口径一致？

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段，而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性，否则很容易出现泄漏、口径漂移和线上效果回退。

推荐系统特征工程模型训练模型评估

百度 / 算法

推荐系统多路召回的候选分数能直接相加吗，如何做归一化、配额和融合？

这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义：cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。

推荐系统模型评估可扩展性特征工程

百度 / 算法

推荐排序阶段通常使用哪些特征，如何划分用户、物品、上下文和交叉特征并保证线上线下一致？

这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚，并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标，否则容易停留在简单枚举。

推荐系统特征工程模型训练模型评估

Cider / 算法

电商 App 中的 AI 穿搭推荐功能应如何设计整体流程，并从数据来源、模型链路和效果评估上落地？

这道题考 AI 推荐系统设计，重点不是只说“训练一个推荐模型”，而是把商品图文、用户偏好、穿搭兼容性、业务约束、线上反馈和评估闭环串起来。

推荐系统 AI 产品特征工程模型评估多模态学习

Cider / 算法

线上模型效果变差时，如何从数据漂移、特征、模型版本、评估集和服务链路排查？

这道题考模型线上效果诊断。关键是先确认指标和影响范围，再按数据、特征、模型、评估、服务链路和实验版本逐层排查，避免一上来只怪模型。

模型评估特征工程稳定性日志系统性能排查

美团 / 算法

Agent 中输入特征和记忆模块有什么区别，如何分别建模当前请求状态和跨轮上下文？

Agent 的输入特征描述当前请求状态，记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标：输入特征偏实时、短暂、结构化，记忆偏持久、可检索、需要治理。

AI Agent 大语言模型状态管理特征工程模型评估

拼多多 / 数据分析

除了传统 RFM 模型，如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群？

这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM，而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群，并用离线稳定性指标和线上业务实验共同证明分群有价值。

数据分析特征工程统计学模型评估业务指标

蚂蚁集团 / 数据分析

在 Hive 中有一个城市百万级经纬度数据，如何做空间聚类，并兼顾距离计算、分区分桶、性能和结果验证？

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案，而不是只说一个算法名。好的回答要先明确聚类目标和距离口径，再选择网格、Geohash、KMeans 或 DBSCAN 等方法，并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离，把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

数据分析统计学特征工程可扩展性模型评估

百度 / 算法

DNN 与传统机器学习方法有什么不同？为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势？

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配，但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

神经网络特征工程模型训练模型评估统计学

华为 / 算法

卷积层为什么能抽取图像特征，如何从局部连接、权重共享、感受野、平移等变性和多层组合解释？

卷积层能抽取图像特征，核心在于用局部连接和权重共享把同一个模式检测器滑过整张图，再通过多通道卷积、非线性、多层感受野扩张和下采样，把边缘、纹理、部件逐步组合成更高层语义特征。

计算机视觉神经网络特征工程模型训练

滴滴 / 数据分析

如果要对城市做聚类，会选择哪些特征，如何覆盖供需、地理、用户结构、时段、价格和运营指标？

城市聚类不是把所有城市指标堆进模型，而是先明确聚类用途，再构造可比较的城市级特征，覆盖供需、地理、用户结构、时段、价格和运营表现，并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。

数据分析特征工程业务指标模型评估统计学

美团 / 算法

DCN 和 DeepFM 的特征交叉机制有什么异同？

DCN 和 DeepFM 都用于稀疏特征推荐排序，都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉，再用 DNN 隐式学习高阶非线性交叉；DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉，得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统特征工程模型训练神经网络

美团 / 算法

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同，推荐模型如何用增量学习或 PPNet 做适配？

这题的关键是小样本场景不是简单“数据少”，而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型，容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator，对底层网络的 hidden units 或专家输出做个性化缩放，让主模型共享大样本知识，小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统模型训练特征工程模型评估业务指标

哔哩哔哩 / 算法

推荐召回中，为什么可能不用 UserCF，ItemCF 又该如何结合热度信号？

这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤，而可能是业务和工程上的理性选择：用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大，在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似，物品侧关系相对稳定、可离线预计算、召回延迟低，适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配，所以热度信号不能简单相加放大热门，而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应，以及如何用离线和在线指标验证。

推荐系统模型评估特征工程

腾讯 / 算法

ItemCF 召回中如何引入时间间隔和位置间隔信息来改进相似度计算？

这道题考察的是候选人能否把 ItemCF 从“共同被同一用户交互过就相似”的朴素共现，升级成考虑用户行为序列和时间上下文的召回方法。时间间隔表达两个物品是否在接近的兴趣周期内被消费，位置间隔表达它们在用户序列中是否相邻或有方向性。好的回答要从 ItemCF 基础相似度公式出发，说明在共现贡献项里乘上时间衰减和位置衰减，再配合用户活跃度归一化、物品热度惩罚、会话切分、方向性建模、离线召回评估和线上指标护栏。重点不是背一个固定公式，而是说明为什么这些权重能降低偶然共现和长周期兴趣漂移带来的噪声。

推荐系统特征工程模型评估