标签题目
特征工程相关面试题
特征工程中,如何处理高维稀疏特征?
高维稀疏特征常见于推荐、广告和搜索场景,处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题,再按模型类型给出处理方法。
特征工程中,为什么要对连续特征离散化?
连续特征离散化的价值在于增强非线性表达、降低异常值影响、提升可解释性,并让线性模型更容易学习分段关系。回答要同时说明适用场景、分箱方法、信息损失和线上一致性。
多模态特征怎么融合?
多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开,再补充训练目标、缺失模态和线上成本。
特征工程中,如何量化特征与目标变量的因果关系?
量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。
离散、连续特征如何拼接?
离散和连续特征拼接的关键是先把两类特征变成尺度合适、语义明确的向量。离散特征常用 one-hot、hash 或 embedding,连续特征要归一化、分桶或变换,再在模型输入层拼接。
在B站视频业务的场景下,有哪些可能的挑选特征的方法?
B站视频业务挑选特征,要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断,不能只凭相关性或单次离线指标决定。
数据预处理一般用 OpenCV 做什么?
OpenCV 在数据预处理中常用于图像读取、格式转换、尺寸调整、归一化、去噪、增强、几何变换、颜色空间处理和基础标注清洗。回答要把训练数据处理和上线推理一致性一起讲清楚。
从算法工程师的角度,如何预测苏州的房价?
房价预测题考察的是从业务问题到机器学习建模的完整流程。回答要覆盖目标定义、数据来源、特征工程、模型选择、验证方式、误差分析和上线监控。
如果让你设计一个推荐系统,会设计什么样的架构?
推荐系统架构题要从离线训练、在线服务、召回排序、策略重排、实验监控和反馈闭环回答,不能只列协同过滤或深度模型。
XGBoost 的特征重要性是如何得到的?
XGBoost 特征重要性通常来自树分裂统计,例如 split 次数、带来的增益和覆盖样本量。回答要说明这些指标的含义和偏差。
如何实现给用户推荐音乐的功能,需要哪些特征和算法?
音乐推荐设计要从用户、音乐、上下文和反馈特征出发,构建召回、排序、重排和反馈闭环,而不是只列协同过滤或深度模型。
目前主流的视频推荐和音乐推荐算法有哪些?
视频和音乐推荐常用算法可以按召回、排序和重排来回答:协同过滤、内容理解、向量召回、深度排序、多目标排序和多样性控制共同组成链路。
推荐系统如何解决马太效应?
推荐系统的马太效应是热门内容获得更多曝光后继续变热,长尾内容越来越难被发现,需要从召回、排序、重排、探索和评估偏差一起治理。
如何提高冷门商品的推荐效果?
提高冷门商品推荐效果,需要解决行为稀疏、曝光不足和模型偏热门的问题,常用内容特征、相似召回、探索流量、重排扶持和分层评估共同处理。
当模型出现 bad case 时,如何分析并改进?
模型 bad case 分析要先复现和分层定位,再判断是数据、特征、标签、模型、阈值还是业务分布问题,最后用可验证实验闭环改进。
常见的文本特征提取器有哪些?
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
如何避免给用户重复推荐已看过的视频?
避免重复推荐已看过视频,要把曝光、播放、完播和负反馈记录接入召回、排序和重排链路,并处理跨设备、相似内容和时间窗口。
SMOTE 数据扩增算法的原理是什么?
SMOTE 是处理类别不平衡的过采样方法,它在少数类样本和近邻之间插值生成新样本,而不是简单复制少数类样本。
XGBoost 如何处理缺失值,为什么目标函数要二阶展开?
这题聚焦 XGBoost 两个核心机制:缺失值通过学习默认分裂方向处理,二阶展开用梯度和 Hessian 近似目标函数以高效评估分裂收益。
给店铺卖家发放贷款并控制逾期率,特征工程如何设计?
这题考风控特征工程的完整框架:围绕逾期风险定义标签、时间窗口、主体画像、经营现金流、历史履约、异常行为和数据泄漏控制。
如何设计一个用车需求量预估算法?
用车需求量预估本质是时空序列预测:在给定城市区域和时间窗口内预测未来订单请求量。完整方案包括区域划分、时间粒度定义、历史订单和供需特征构建、天气节假日活动等外部特征引入、时序或时空模型训练,以及用 MAE、RMSE、MAPE 和调度收益做离线与在线评估。
为什么 XGB+LR 可以提高模型效果,XGB 在其中充当什么角色?
XGB+LR 中 XGB 通常充当自动特征组合和非线性分桶器,把样本映射到各棵树的叶子节点,再将叶子索引 one-hot 后交给 LR 学线性权重。它能把原始特征空间中的非线性关系转成稀疏组合特征,同时保留 LR 训练快、可校准、部署简单的优点。
外卖订单请求刷单识别如何建模?
这道题考察订单请求级风控建模。回答要从标签定义、特征体系、模型链路、阈值策略和反馈闭环展开,重点说明刷单识别不是单纯分类,而是要兼顾实时性、误伤成本、样本偏斜和对抗变化。
风控评分卡建模从样本、分箱到评估监控的流程是什么?
这道题考察风控评分卡的端到端建模能力。回答要覆盖样本定义、时间切分、缺失和异常处理、分箱与 WOE、可解释模型、评分映射、AUC/KS/校准/PSI 评估,以及上线后的稳定性监控。
推荐系统中特征生产、样本快照和线上实时特征如何保持一致?
这道题考察推荐系统特征工程化能力。回答要围绕同一套特征定义、同一时间点语义、同一版本治理和同一监控闭环展开,核心是防止训练样本看到线上拿不到的未来信息,或线上实时特征和离线训练特征口径不一致。
OCR 输出为什么要保留 bbox 和 spatial layout,后续如何给多模态理解模型使用?
这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法,而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。
出行派单中,如何建模乘客对“顺路”的感知,并构造训练数据?
这道题考察出行派单里如何把“地理上看似顺路”转成“乘客主观感知也顺路”的可训练问题。高质量回答要讲清建模目标、弱监督标签、规则样本、特征设计、偏差处理、评估指标和线上体验护栏,而不是只回答最短路或 ETA。
电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?
这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。
内容风控中,品牌 logo 风险识别如何兼顾召回、业务管控标准和无关商品过滤?
这道题考察内容风控里的品牌 logo 风险识别如何从“把疑似风险尽量捞出来”走向可上线的业务闭环。回答要覆盖检测识别链路、隐藏真实风险总量下的召回评估、业务管控标准、无关商品过滤、人审和主动学习,以及离线/在线指标和误杀漏放取舍。
医疗手写表格场景中,如何提升多模态模型对字段和值的识别准确度?
这题考医疗手写表格的多模态识别链路,重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。
公开群聊搜索排序如何设计,如何结合群名称/内容相关性、活跃度、用户兴趣、质量安全和多样性信号决定排名?
这题考搜索排序系统设计:候选人要能从召回、相关性、质量安全、个性化、多样性和评估指标出发,设计公开群聊搜索的排名策略。
给定群聊数据表,如何为公开搜索排序设计群聊特征提取系统,并从 UID、群主、兴趣、活跃度等字段构建可用特征?
这题考特征工程和数据系统设计:要能把原始群聊表变成可供搜索排序使用的群、用户、群主、兴趣、活跃度、质量和实时特征,并保证一致性、可解释性和可监控。
ReID 训练采样时如何保证每个身份的图像数一致,为什么这种 P-K 采样有利于度量学习?
这题考的是 ReID 训练中 batch 构造和度量学习损失的关系。P-K 采样不是简单凑 batch,而是每个 batch 选 P 个身份、每个身份取 K 张图,保证 anchor 有正样本、batch 内有足够负身份,并让 triplet、contrastive、circle、batch-hard 等损失能够稳定挖掘正负样本,同时缓解身份样本数不均衡带来的训练偏置。
推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?
这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。
推荐系统多路召回的候选分数能直接相加吗,如何做归一化、配额和融合?
这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义:cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。
推荐排序阶段通常使用哪些特征,如何划分用户、物品、上下文和交叉特征并保证线上线下一致?
这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚,并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标,否则容易停留在简单枚举。
电商 App 中的 AI 穿搭推荐功能应如何设计整体流程,并从数据来源、模型链路和效果评估上落地?
这道题考 AI 推荐系统设计,重点不是只说“训练一个推荐模型”,而是把商品图文、用户偏好、穿搭兼容性、业务约束、线上反馈和评估闭环串起来。
线上模型效果变差时,如何从数据漂移、特征、模型版本、评估集和服务链路排查?
这道题考模型线上效果诊断。关键是先确认指标和影响范围,再按数据、特征、模型、评估、服务链路和实验版本逐层排查,避免一上来只怪模型。
Agent 中输入特征和记忆模块有什么区别,如何分别建模当前请求状态和跨轮上下文?
Agent 的输入特征描述当前请求状态,记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标:输入特征偏实时、短暂、结构化,记忆偏持久、可检索、需要治理。
除了传统 RFM 模型,如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群?
这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM,而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群,并用离线稳定性指标和线上业务实验共同证明分群有价值。
在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?
这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。
DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?
这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。
卷积层为什么能抽取图像特征,如何从局部连接、权重共享、感受野、平移等变性和多层组合解释?
卷积层能抽取图像特征,核心在于用局部连接和权重共享把同一个模式检测器滑过整张图,再通过多通道卷积、非线性、多层感受野扩张和下采样,把边缘、纹理、部件逐步组合成更高层语义特征。
如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?
城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。
DCN 和 DeepFM 的特征交叉机制有什么异同?
DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。
主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?
这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。
推荐召回中,为什么可能不用 UserCF,ItemCF 又该如何结合热度信号?
这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤,而可能是业务和工程上的理性选择:用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大,在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似,物品侧关系相对稳定、可离线预计算、召回延迟低,适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配,所以热度信号不能简单相加放大热门,而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应,以及如何用离线和在线指标验证。
ItemCF 召回中如何引入时间间隔和位置间隔信息来改进相似度计算?
这道题考察的是候选人能否把 ItemCF 从“共同被同一用户交互过就相似”的朴素共现,升级成考虑用户行为序列和时间上下文的召回方法。时间间隔表达两个物品是否在接近的兴趣周期内被消费,位置间隔表达它们在用户序列中是否相邻或有方向性。好的回答要从 ItemCF 基础相似度公式出发,说明在共现贡献项里乘上时间衰减和位置衰减,再配合用户活跃度归一化、物品热度惩罚、会话切分、方向性建模、离线召回评估和线上指标护栏。重点不是背一个固定公式,而是说明为什么这些权重能降低偶然共现和长周期兴趣漂移带来的噪声。