样本不平衡面试题解析

这题考的是 ReID 训练中 batch 构造和度量学习损失的关系。P-K 采样不是简单凑 batch，而是每个 batch 选 P 个身份、每个身份取 K 张图，保证 anchor 有正样本、batch 内有足够负身份，并让 triplet、contrastive、circle、batch-hard 等损失能够稳定挖掘正负样本，同时缓解身份样本数不均衡带来的训练偏置。

计算机视觉样本不平衡模型训练算法特征工程

哔哩哔哩 / 算法

推荐系统中做采样后样本分布被改变，点击率预估值应该如何校准？

采样会改变训练样本中的先验点击率，模型在采样分布上学到的概率通常不是线上真实曝光分布的 CTR。回答时要先说明校准目标是把 sampled posterior 还原到 target posterior，再给出 odds/prior correction 公式，并补充用未采样验证集做 Platt、isotonic、温度缩放或分桶校准，最后用可靠性曲线、ECE、Brier/logloss 和线上 A/B 验证。

推荐系统样本不平衡模型评估模型训练

微博 / 算法

同一分类器和同一阈值下，测试集正负样本比例从 1:1 变为 1:1000 时，Precision 和 Recall 通常会如何变化，为什么？

在同一分类器、同一阈值、正负类条件分布不变的前提下，Recall 本质上是 TPR，通常基本不随类别先验变化；Precision 强依赖正样本先验，会随着正样本比例从 1:1 降到 1:1000 而大幅下降。回答关键是写出 Precision = π TPR / (π TPR + (1-π) FPR)，并说明前提、例外和阈值重调策略。

样本不平衡模型评估统计学

字节跳动 / 算法

推荐模型离线 AUC 与线上效果不一致时，可能有哪些原因，如何定位和修正？

离线 AUC 与线上效果不一致通常不是单点问题，而是数据分布、样本构造、标签口径、特征一致性、评估指标、候选集、系统链路和实验统计共同造成。回答要先说明 AUC 衡量 P(score_pos > score_neg)，不等于线上业务收益；再按数据、模型、评估、服务、实验五层排查，并给出 replay、shadow scoring、切片、A/A、A/B 和监控修正路径。

推荐系统模型评估样本不平衡模型训练

海康威视 / 算法

在小目标检测且数据量较小的场景下，如何用深度学习方案改造传统检测流程，并围绕 Faster R-CNN、多尺度特征和数据增强提升效果？

这道题考察小目标检测和小样本场景的方案设计。回答要覆盖传统流程改造、Faster R-CNN 选型、多尺度特征、数据增强、迁移学习、样本不均衡和评估误差分析。

计算机视觉样本不平衡模型训练

旷视 / 算法

视觉感知多任务网络（如检测、分割、车道线、关键点等）如何处理任务间和类别间数据不平衡，并说明网络结构、数据加载、损失权重和评估策略？

这道题考察感知多任务网络在任务间和类别间不平衡时的系统治理。回答要覆盖共享骨干、多任务头、采样、损失权重、梯度冲突和分任务评估。

计算机视觉样本不平衡特征工程