公司岗位题库

百度 算法面经

55 道题 37 个标签 55 条出现记录

算法工程师相关题目

RAG 中检索文档正确但生成答案错误时,如何定位 Prompt、上下文组织、模型推理和后处理问题?

这题考的是 RAG badcase 的责任拆解:当正确证据已经被检索到,问题就不再主要是召回率,而要检查证据是否进入 prompt、是否被截断或排序淹没、指令是否约束模型使用证据、模型是否误读冲突信息、解码是否不稳定,以及后处理是否改坏答案。

为什么要使用旋转位置编码?

旋转位置编码(RoPE)的核心价值,是把位置信息以“旋转”的方式注入到注意力机制的 Query 和 Key 中,使模型在计算注意力分数时自然感知 token 之间的相对距离。相比直接相加的绝对位置编码,RoPE 更贴合 Transformer 的点积注意力结构,既能保留顺序信息,又能让相对位置关系在 QK 点积中显式出现。

同题还出现在 2 个公司岗位

PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?

这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。

大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?

PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。

BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间?

这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路:Image-view Encoder 提取每个相机的 2D 特征,View Transformer 结合深度分布、相机内外参和数据增强矩阵,把像素特征 lift 到三维 frustum,再 splat 或 pooling 到 ego 坐标系下的 BEV 网格,最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标,不能把 View Transformer 误讲成普通 NLP Transformer。

DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?

这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。

推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?

这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。