公司岗位题库

滴滴 算法面经

32 道题 35 个标签 32 条出现记录

算法工程师相关题目

大模型微调后出现不遵循指令、复读和错误答案,如何定位原因并判断 CoT 是否有效?

这题考察大模型微调后行为退化的定位方法:要把不遵循指令、复读和错误答案拆成可复现的错误类型,分别从数据、训练配置、解码参数和评估切片定位,并用对照实验判断 CoT 是否真正改善推理或事实正确率。

FCOS 作为 anchor-free 目标检测算法,整体流程和正负样本分配如何设计?

这题考的是候选人是否真正理解 anchor-free 检测从“预设框匹配”切换到“特征图位置预测”的建模方式。好答案不能只说 FCOS 不用 anchor,而要讲清 backbone 与 FPN 生成多尺度特征、每个位置预测类别和到框四边距离、正负样本如何由位置落入目标中心区域和尺度范围决定、重叠目标如何消歧、centerness 如何压低低质量框,以及训练损失和推理 NMS 的完整闭环。边界是以公开 FCOS 机制为准,不把其它 anchor-free 方法的关键点检测或 Transformer 查询机制混进来。

大模型微调时,7B 和 70B 模型的学习率应如何设置,为什么模型规模会影响学习率选择?

大模型微调时,70B 通常要比 7B 使用更保守的学习率,因为大模型参数多、预训练能力强、对分布扰动更敏感,过大学习率更容易导致灾难性遗忘、loss 震荡和能力退化。但这不是绝对规则,还要区分全参微调、LoRA、数据规模、batch size、warmup、scheduler 和任务差异。

DeepSeek-R1 的后训练流程如何从 SFT、RL 到可验证推理能力逐步构建?

这题考的是候选人是否能按公开技术报告复述 DeepSeek-R1 的后训练逻辑,而不是泛泛说“先 SFT 再 RL”。好答案要区分 DeepSeek-R1-Zero 和 DeepSeek-R1:前者直接从 base model 做大规模 RL,展示可验证推理奖励能诱导反思、验证和更长 CoT;后者用少量冷启动长 CoT 数据改善可读性和训练稳定性,再经过推理 RL、拒绝采样生成 SFT 数据、通用能力 SFT、全场景 RL,并把大模型推理模式蒸馏到小模型。边界是只描述公开论文/官方报告内容,不扩展到未公开训练细节或其它机构的具体做法。

同题还出现在 1 个公司岗位

大模型训练或微调时,batch size 过大或过小分别会带来哪些收敛、泛化、吞吐和显存问题?当有效 batch size 改变时,学习率是否需要结合 scaling rule、warmup 和梯度累积一起调整?

这道题考察大模型训练/微调中 batch size 与学习率、显存、吞吐、泛化和稳定性的联动。好的回答要区分 micro batch、global batch、梯度累积,并说明 scaling rule 只能作为起点,必须配合 warmup 和验证集监控。