公司岗位题库

滴滴算法面经

32 道题 35 个标签 32 条出现记录

已解析题目

算法工程师相关题目

滴滴 / 算法

大模型里的temperature参数能控制复读、增强多样性，背后的原理是什么？

temperature 的本质是调节 softmax 分布的尖锐程度。温度低会放大高概率 token 的优势，使输出更确定、更保守，也更容易陷入高概率重复模式；温度高会拉平概率分布，提高熵和采样多样性，但过高会引入低质量 token，导致语义漂移或不稳定。

大语言模型大模型推理

滴滴 / 算法

一个模型对prompt会生成多种回答，那么DPO的pair数据如何选取？

DPO 的 pair 数据不是简单地从同一个 prompt 的多个回答里任意两两组合，而是要构造“同一上下文下，偏好方向明确、质量差异可学习、噪声可控”的 chosen/rejected 对。核心目标是让模型学习相对偏好，同时避免把无意义差异、标注偏差或长度偏置放大。

大语言模型 DPO RLHF

滴滴 / 算法

在一个文档中，如何筛选出对一个综合场景大模型的微调数据？

从单个文档筛选综合场景大模型微调数据，关键是把原始内容变成高质量、多任务、可验证、去噪去重的指令样本。回答要覆盖场景定义、片段切分、样本构造、质量过滤、分布配比和评测闭环。

大语言模型模型微调模型训练

滴滴 / 算法

特征工程中，如何处理高维稀疏特征？

高维稀疏特征常见于推荐、广告和搜索场景，处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题，再按模型类型给出处理方法。

特征工程 Embedding 推荐系统

滴滴 / 算法

特征工程中，为什么要对连续特征离散化？

连续特征离散化的价值在于增强非线性表达、降低异常值影响、提升可解释性，并让线性模型更容易学习分段关系。回答要同时说明适用场景、分箱方法、信息损失和线上一致性。

特征工程统计学模型训练

滴滴 / 算法

Uplift模型评估指标有哪些？

Uplift 模型评估的核心不是预测转化概率，而是衡量干预带来的增量效果。回答应覆盖 uplift curve、Qini curve、AUUC、Qini 系数、分组 uplift、Top-K 增益和 A/B 验证。

Uplift 模型因果推断模型评估

滴滴 / 算法

Uplift模型与传统分类模型的核心区别是什么？

Uplift 模型和传统分类模型的核心区别在目标变量：分类预测用户会不会转化，Uplift 预测干预会让转化概率提升多少。面试要讲清训练数据、标签构造、模型输出、评估指标和业务使用方式的差异。

Uplift 模型因果推断模型训练

滴滴 / 算法

XGBoost 为什么比传统 GBDT 快？

XGBoost 比传统 GBDT 快，主要来自工程和算法两方面优化：二阶近似、预排序或直方图、稀疏感知、列块并行、缓存友好访问、正则化剪枝和分布式训练。回答要避免只说“并行”，因为 boosting 的树轮次本身仍然有依赖。

XGBoost GBDT 性能排查

滴滴 / 算法

如何用 XGBoost 处理不平衡分类问题？

用 XGBoost 处理不平衡分类，要同时调整训练目标、样本权重、采样策略、评估指标和阈值。面试回答不能只说调 `scale_pos_weight`，还要说明为什么 accuracy 不可靠，以及如何用 PR-AUC、Recall、F1 和业务成本验证。

XGBoost 样本不平衡模型评估

滴滴 / 算法

因果推断中，混淆变量和中介变量有什么区别？

混淆变量和中介变量的区别在于因果位置不同：混淆变量同时影响处理和结果，需要控制；中介变量位于处理到结果的路径上，解释作用机制，是否控制取决于要估计总效应还是直接效应。

因果推断统计学模型评估

滴滴 / 算法

因果推断中，无法获取随机对照数据时如何估计因果效应？

没有随机对照数据时估计因果效应，需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析，但结论可信度依赖假设。

同题还出现在 1 个公司岗位

因果推断统计学 Uplift 模型

滴滴 / 算法

DragonNet如何保证输出的单调性和一致性？

DragonNet 这类因果效应模型要保证输出单调性和一致性，核心是把业务约束写进模型结构、输出变换、损失函数和训练校验中。回答时要区分预测值的数学约束、处理效应的一致性，以及线上分桶后的业务单调。

因果推断 Uplift 模型模型训练

滴滴 / 算法

特征工程中，如何量化特征与目标变量的因果关系？

量化特征与目标变量的因果关系，不能只看相关系数或特征重要性，而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。

特征工程因果推断统计学

滴滴 / 算法

重采样和欠采样会带来什么问题？

重采样和欠采样能缓解类别不平衡，但会改变训练分布，引入信息损失、过拟合、概率校准偏差和评估口径问题。

样本不平衡模型评估统计学

滴滴 / 算法

模型训练后需要保存哪些参数？

模型训练后的保存内容不只是权重文件，还包括结构、预处理、特征配置、归一化统计、优化器状态、版本信息和评估元数据。

模型训练算法工程化

滴滴 / 算法

订单粒度和人车粒度做派单召回有什么区别？

这题考派单系统的召回建模粒度：订单粒度从订单找候选司机，人车粒度从司机或人车状态找候选订单，差异体现在实时性、容量约束和全局匹配效率。

Matching 方法推荐系统算法

滴滴 / 算法

如何设计一个用车需求量预估算法？

用车需求量预估本质是时空序列预测：在给定城市区域和时间窗口内预测未来订单请求量。完整方案包括区域划分、时间粒度定义、历史订单和供需特征构建、天气节假日活动等外部特征引入、时序或时空模型训练，以及用 MAE、RMSE、MAPE 和调度收益做离线与在线评估。

统计学特征工程模型评估

滴滴 / 算法

风控评分卡建模从样本、分箱到评估监控的流程是什么？

这道题考察风控评分卡的端到端建模能力。回答要覆盖样本定义、时间切分、缺失和异常处理、分箱与 WOE、可解释模型、评分映射、AUC/KS/校准/PSI 评估，以及上线后的稳定性监控。

特征工程统计学模型评估样本不平衡

滴滴 / 算法

出行派单中，如何建模乘客对“顺路”的感知，并构造训练数据？

这道题考察出行派单里如何把“地理上看似顺路”转成“乘客主观感知也顺路”的可训练问题。高质量回答要讲清建模目标、弱监督标签、规则样本、特征设计、偏差处理、评估指标和线上体验护栏，而不是只回答最短路或 ETA。

Matching 方法特征工程模型评估推荐系统

滴滴 / 算法

出行派单中，给定乘客-司机候选边和权重，如何建模最大权匹配？

这道题考察出行派单如何从“乘客和司机两两配对”抽象成带约束的最大权二分图匹配。高质量回答要先定义候选边和权重，再讲一对一约束、不可匹配处理、算法选择、在线批量求解、业务护栏和效果评估，而不是只背匈牙利算法。

Matching 方法图论算法推荐系统

滴滴 / 算法

大模型微调后出现不遵循指令、复读和错误答案，如何定位原因并判断 CoT 是否有效？

这题考察大模型微调后行为退化的定位方法：要把不遵循指令、复读和错误答案拆成可复现的错误类型，分别从数据、训练配置、解码参数和评估切片定位，并用对照实验判断 CoT 是否真正改善推理或事实正确率。

大语言模型模型微调模型评估大模型幻觉 Prompt 工程大模型推理

滴滴 / 算法

Qwen2-VL 微调时应如何处理多模态数据、视觉 token、训练参数和评估？

这题考 Qwen2-VL 微调的多模态工程思路，答案应讲数据构造、视觉 token 预算、参数策略、loss masking、训练稳定性和评估闭环，不依赖具体版本细节。

通义千问多模态学习大语言模型模型微调模型评估

滴滴 / 算法

多模态 Agentic RL 中用 VERL 做强化学习时，如何判断训练进度和收敛质量？

这题考多模态 Agentic RL 训练过程的可观测和收敛判断，回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。

同题还出现在 1 个公司岗位

多模态学习 AI Agent 强化学习模型训练模型评估大语言模型

滴滴 / 算法

医疗手写表格场景中，如何提升多模态模型对字段和值的识别准确度？

这题考医疗手写表格的多模态识别链路，重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。

多模态学习计算机视觉模型评估特征工程大语言模型质量工程

滴滴 / 算法

多模态图像分支使用最大池化时，反向传播的梯度如何分配，工程实现需要注意哪些边界？

这题考最大池化的反向传播机制：输出梯度只回传给前向窗口中的最大值位置，非最大位置梯度为 0；工程上还要处理重叠窗口、并列最大值、padding、mask 记录和数值边界。

多模态学习计算机视觉神经网络模型训练

滴滴 / 算法

大模型训练中的 MFU 指标是什么，如何结合 Nsight/Profiler 定位吞吐瓶颈？

这题考训练性能分析能力：MFU 是把实际训练吞吐折算成模型有效 FLOPs 后，与 GPU 理论峰值比较的利用率指标；定位瓶颈要把 MFU、step time、kernel 时间线、通信、数据加载和显存行为一起看。

大语言模型模型训练性能分析 GPU CUDA 性能排查

滴滴 / 算法

模型做 W4A8 量化或模型迁移后，如何验证激活值、梯度和权重是否正确，并用校准数据控制误差？

这题考量化和迁移后的数值正确性验证：要能从权重映射、激活分布、梯度流、逐层误差、校准集覆盖和端到端指标几层建立质量闭环，而不是只跑一遍精度评测。

模型评估模型训练问题排查质量工程性能排查

滴滴 / 算法

FCOS 作为 anchor-free 目标检测算法，整体流程和正负样本分配如何设计？

这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor，而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框，以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准，不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。

计算机视觉算法神经网络模型训练

滴滴 / 算法

大模型微调时，7B 和 70B 模型的学习率应如何设置，为什么模型规模会影响学习率选择？

大模型微调时，70B 通常要比 7B 使用更保守的学习率，因为大模型参数多、预训练能力强、对分布扰动更敏感，过大学习率更容易导致灾难性遗忘、loss 震荡和能力退化。但这不是绝对规则，还要区分全参微调、LoRA、数据规模、batch size、warmup、scheduler 和任务差异。

大语言模型模型微调模型训练 SFT

滴滴 / 算法

DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建？

这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑，而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1：前者直接从 base model 做大规模 RL，展示可验证推理奖励能诱导反思、验证和更长 CoT；后者用少量冷启动长 CoT 数据改善可读性和训练稳定性，再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL，并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容，不扩展到未公开训练细节或其它机构的具体做法。

同题还出现在 1 个公司岗位

大语言模型强化学习模型训练模型评估 RLHF

滴滴 / 算法

大模型训练或微调时，batch size 过大或过小分别会带来哪些收敛、泛化、吞吐和显存问题？当有效 batch size 改变时，学习率是否需要结合 scaling rule、warmup 和梯度累积一起调整？

这道题考察大模型训练/微调中 batch size 与学习率、显存、吞吐、泛化和稳定性的联动。好的回答要区分 micro batch、global batch、梯度累积，并说明 scaling rule 只能作为起点，必须配合 warmup 和验证集监控。

大语言模型模型训练模型微调

滴滴 / 算法

Reward model如何训练？

Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注，构造 chosen/rejected pair，用 pairwise ranking loss 训练模型给更优回答更高分。

同题还出现在 1 个公司岗位

RLHF 模型训练模型评估