百度算法工程师面经题库

这题考的是多轮 SFT 的 token 级训练目标设计：候选人要能说明 system/user/padding 通常不算 loss，assistant 答案 token 通常算 loss，并进一步讲清多轮全部 assistant turn、last-turn-only、label shift、packing 边界和模板一致性。

大语言模型 SFT 模型微调模型训练模型评估

百度 / 算法

模型对齐后变得过于保守、经常拒答时，如何调整偏好数据、拒答策略和安全阈值？

这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力：候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题，并给出训练与评估闭环。

大语言模型 RLHF DPO 模型训练模型微调模型评估

百度 / 算法

RAG Embedding 召回出现误判时，如何定位并改进？

这题考 RAG 中 embedding 召回误判的诊断和改进，回答要区分误召回与漏召回，并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。

同题还出现在 1 个公司岗位

RAG Embedding 向量数据库模型评估大语言模型

百度 / 算法

为什么要使用旋转位置编码？

旋转位置编码（RoPE）的核心价值，是把位置信息以“旋转”的方式注入到注意力机制的 Query 和 Key 中，使模型在计算注意力分数时自然感知 token 之间的相对距离。相比直接相加的绝对位置编码，RoPE 更贴合 Transformer 的点积注意力结构，既能保留顺序信息，又能让相对位置关系在 QK 点积中显式出现。

同题还出现在 2 个公司岗位

算法

百度 / 算法

大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩？

这题考 RL 后训练的失效模式，回答重点是识别训练 reward 与真实质量背离，并用 reward 审计、约束、数据更新和独立评测缓解。

同题还出现在 2 个公司岗位

大语言模型强化学习模型训练模型评估

百度 / 算法

PPO clip 在 advantage 为正或为负时分别限制什么，为什么这样能稳定策略更新？

这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明：A 为正时，这个动作比预期好，PPO 限制新策略把它概率提高得过多，也就是限制 ratio 的上界；A 为负时，这个动作比预期差，PPO 限制新策略把它概率降低得过多，也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移，从而提升训练稳定性。

大语言模型强化学习 RLHF 模型训练模型评估

百度 / 算法

大模型后训练中，PPO 为什么通常被视为 on-policy，importance sampling 起什么作用？

PPO 通常被视为 on-policy，是因为它的训练样本来自当前或刚刚冻结的行为策略，更新只在这批新 rollout 附近做有限幅度的策略改进，而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差，使我们能用旧策略采到的样本估计新策略目标；但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力，所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。

大语言模型强化学习 RLHF 模型训练模型评估

百度 / 算法

BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间？

这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路：Image-view Encoder 提取每个相机的 2D 特征，View Transformer 结合深度分布、相机内外参和数据增强矩阵，把像素特征 lift 到三维 frustum，再 splat 或 pooling 到 ego 坐标系下的 BEV 网格，最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标，不能把 View Transformer 误讲成普通 NLP Transformer。

计算机视觉算法神经网络

百度 / 算法

DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题？

这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解，而不是背算法名。好答案要先说明 GRPO 的基本形态：同一 prompt 采样一组回答，用组内相对奖励估计 advantage，减少显式 critic 需求；再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新，边界是只按公开论文和公开实现文档描述，不声称未公开训练配方，也不把不同团队的缩写含义混为确定事实。

大语言模型强化学习 RLHF 模型训练模型评估

百度 / 算法

推荐系统多路召回的候选分数能直接相加吗，如何做归一化、配额和融合？

这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义：cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。

推荐系统模型评估可扩展性特征工程

百度 / 算法

推荐召回中 Word2Vec 召回具体怎么做，训练样本和近邻检索如何设计？

这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起，而不是只说用 Word2Vec 算相似 item。

同题还出现在 1 个公司岗位

推荐系统 Embedding 向量数据库模型训练

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

百度 / 算法

推荐排序阶段通常使用哪些特征，如何划分用户、物品、上下文和交叉特征并保证线上线下一致？

这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚，并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标，否则容易停留在简单枚举。

推荐系统特征工程模型训练模型评估

百度 / 算法

推荐系统中引入向量索引召回时，在线 serving 链路应该如何改造？

这道题考察的不是向量索引原理，而是把向量召回接入推荐在线 serving 后，链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚，并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

推荐系统 Embedding 向量数据库工程化

百度 / 算法

ViT 如何把 224x224x3 图像切成 patch 序列，sequence length 如何计算？

这题考 ViT 把图像切成 patch 后如何形成 token 序列，回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。

同题还出现在 2 个公司岗位

计算机视觉 Transformer Embedding

百度 / 算法

DNN 与传统机器学习方法有什么不同？为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势？

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配，但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

神经网络特征工程模型训练模型评估统计学

百度 算法面经

算法工程师相关题目

百度算法面经