已解析题目
算法工程师相关题目
普通模型的query fine tuning和SFT有什么区别?
如果这里的 query fine tuning 指普通模型围绕查询输入做下游任务微调,它和大模型 SFT 的主要区别在于数据形态、优化目标和输出形式。前者通常学习 query 到标签、分数、向量或候选排序的任务映射;SFT 则训练自回归大模型在给定指令后生成期望回答。
Self attention的公式是什么,为什么要除以sqrt(dk)?
Self-attention 的常见公式是 Attention(Q,K,V)=softmax(QK^T/sqrt(dk))V。除以 sqrt(dk) 是为了控制点积分数的方差,避免维度较大时 logits 过大导致 softmax 饱和、梯度变小、训练不稳定。
二分类任务中,AUC是什么意思?
二分类 AUC 通常指 ROC 曲线下面积,衡量模型把正样本排在负样本前面的整体排序能力。AUC 越大,说明模型区分正负样本的能力越强;随机排序约为 0.5,完美排序为 1。
深度点击率预估模型如何选型?
深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起,再说明如何用离线指标和线上 A/B 验证。
多模态特征怎么融合?
多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开,再补充训练目标、缺失模态和线上成本。
GBDT 的实现流程是什么?
GBDT 的实现流程是不断训练回归树去拟合当前模型的负梯度或残差,并把新树按学习率累加到集成模型中。回答时要讲清初始化、计算伪残差、建树、叶子权重、模型更新和停止条件。
离散、连续特征如何拼接?
离散和连续特征拼接的关键是先把两类特征变成尺度合适、语义明确的向量。离散特征常用 one-hot、hash 或 embedding,连续特征要归一化、分桶或变换,再在模型输入层拼接。
在样本不平衡问题中,除了修正数据集,还能有哪些方法?
样本不平衡除了修正数据集,还可以从损失函数、样本权重、阈值移动、指标选择、模型集成、概率校准和业务决策成本入手。回答要说明不同方法解决的是训练偏差、预测阈值还是评估偏差。
同题还出现在 1 个公司岗位
你了解推荐线上比较核心的环节吗?
推荐线上核心环节通常包括请求接入、特征获取、多路召回、粗排、精排、重排混排、策略约束、日志回流和监控实验。回答要讲清每一层的目标、输入输出和效率取舍。
大模型产出的向量或相似度可用于推荐链路的哪些环节?
大模型产出的向量或相似度可以用于推荐链路的召回、粗排、精排特征、重排和解释环节,但不能把整条链路都交给大模型直接排序。
如何实现给用户推荐音乐的功能,需要哪些特征和算法?
音乐推荐设计要从用户、音乐、上下文和反馈特征出发,构建召回、排序、重排和反馈闭环,而不是只列协同过滤或深度模型。
目前主流的视频推荐和音乐推荐算法有哪些?
视频和音乐推荐常用算法可以按召回、排序和重排来回答:协同过滤、内容理解、向量召回、深度排序、多目标排序和多样性控制共同组成链路。
推荐系统如何解决马太效应?
推荐系统的马太效应是热门内容获得更多曝光后继续变热,长尾内容越来越难被发现,需要从召回、排序、重排、探索和评估偏差一起治理。
常见的文本特征提取器有哪些?
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
SMOTE 数据扩增算法的原理是什么?
SMOTE 是处理类别不平衡的过采样方法,它在少数类样本和近邻之间插值生成新样本,而不是简单复制少数类样本。
常见的加解密算法有哪些?
常见加解密算法要按对称加密、非对称加密、哈希摘要、消息认证和签名分类回答,并说明它们解决的问题不同。
如何实现 str2num,将字符串转换为整数或浮点数?
str2num 的重点是把符号、前导零、整数部分、小数部分、非法字符和溢出规则定义清楚,再用状态机或分段扫描实现。
YOLOv3 的结构、多尺度预测和损失函数是什么,YOLOv4 相比 YOLOv3 有哪些改进?
这题考 YOLO 系列检测器的完整理解:YOLOv3 的 backbone、neck、head、多尺度 anchor 预测、损失组成,以及 YOLOv4 的训练和结构增强。
个激光雷达的车如何设计点云分割算法?
这题考多激光雷达点云感知方案,重点是标定同步、多雷达融合、点云表示、分割网络、时序和实时性。
如何从数据和搜索两个角度设计一个电影垂直搜索系统?
电影垂直搜索要从数据侧建立结构化电影实体、别名、演员导演、类型、地区、上映时间和资源状态,从搜索侧完成 query 理解、多路召回、相关性排序和结果展示。回答重点是把数据质量、实体归一、检索链路和效果评估连成闭环。
DQN 有哪些常见优化版本,DDQN、Dueling DQN、PER 与 PPO 在调参和训练速度上有什么差异?
DQN 是基于值函数的 off-policy 强化学习方法,DDQN、Dueling DQN 和 PER 分别缓解 Q 值过估计、状态价值与动作优势混合、经验采样效率低等问题。PPO 是 on-policy 策略优化方法,调参重点、样本复用和训练速度与 DQN 系列明显不同。
原始视频内容如何通过多模态模型生成推荐系统可用的向量表示?
这题考原始视频到推荐向量的多模态表示链路,回答要覆盖采样、编码、融合、训练目标、上线使用和评估。
GRPO 中序列级 reward / loss 如何分配到 token,为什么这是信用分配问题?
这题考 GRPO 里序列级奖励如何影响 token 级更新,重点是序列 reward、token log-prob、组内相对优势、信用分配歧义和训练稳定性。
PPO 后训练中,GAE 的 lambda 参数如何影响优势估计的偏差和方差?
这题考 PPO 后训练里优势估计的稳定性来源:GAE lambda 通过控制 TD 残差的有效累积长度,在低方差高偏差和低偏差高方差之间取舍。
LoRA 微调不收敛或输出格式异常时,如何从数据、模板、学习率、rank 和 alpha 排查?
这题考的是 LoRA 训练故障诊断能力:候选人要能把不收敛和输出格式失控拆成数据、模板、损失、超参、adapter 容量和评测回归几个层面逐步定位。
LoRA alpha 过强或过弱会带来什么影响,增量训练出现灾难性遗忘时如何排查和缓解?
这题考的是候选人是否理解 LoRA 增量缩放和遗忘之间的关系,并能从数据分布、训练策略、正则约束和回归评测上解决增量训练稳定性问题。
DPO 偏好样本中的 reward 或偏好维度应如何选择,如何保证对齐目标和训练稳定性?
这题考的是 DPO 数据和偏好目标设计:不是只会说 chosen/rejected,而是能把业务目标、偏好维度、样本构造、冲突处理、训练稳定和评测闭环讲清楚。
多模态大模型微调应如何设计数据、视觉编码器/投影层、指令模板、训练阶段和评测?
这题考的是多模态 LLM 微调的系统设计能力:候选人要能从任务目标出发,讲清数据、架构可训练部分、阶段化训练、模板一致性、指标和回归防护。
模型性能如何评估?
模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标,再区分离线指标、线上指标、鲁棒性指标和成本指标,最后说明数据切分、统计显著性和误差分析如何保证评估可信。
同题还出现在 1 个公司岗位
RAG 中检索文档正确但生成答案错误时,如何定位 Prompt、上下文组织、模型推理和后处理问题?
这题考的是 RAG badcase 的责任拆解:当正确证据已经被检索到,问题就不再主要是召回率,而要检查证据是否进入 prompt、是否被截断或排序淹没、指令是否约束模型使用证据、模型是否误读冲突信息、解码是否不稳定,以及后处理是否改坏答案。
RAG 需要跨多个文档综合回答时,如何做多跳召回、证据合并和冲突处理?
这题考的是多文档 RAG 的端到端设计能力:不能只说把更多 chunk 塞进上下文,而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。
Transformer 推理阶段为什么 KV Cache 只缓存 K 和 V,而通常不缓存当前步的 Q?
这题考的是自回归推理中 attention 计算复用的本质:历史 token 的 K/V 会在未来每一步被反复访问,而 Q 只属于当前查询 token,用完即可丢弃,所以缓存 K/V 能省重复计算,缓存 Q 通常没有收益。
Instruction Tuning 多轮对话训练中 loss mask 应如何设计,哪些 token 应参与损失?
这题考的是多轮 SFT 的 token 级训练目标设计:候选人要能说明 system/user/padding 通常不算 loss,assistant 答案 token 通常算 loss,并进一步讲清多轮全部 assistant turn、last-turn-only、label shift、packing 边界和模板一致性。
模型对齐后变得过于保守、经常拒答时,如何调整偏好数据、拒答策略和安全阈值?
这题考的是对齐训练中的 helpfulness 与 harmlessness 校准能力:候选人要能把过度拒答拆成数据标签、偏好目标、reward/judge 偏置、安全分类阈值和线上策略问题,并给出训练与评估闭环。
RAG Embedding 召回出现误判时,如何定位并改进?
这题考 RAG 中 embedding 召回误判的诊断和改进,回答要区分误召回与漏召回,并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。
同题还出现在 1 个公司岗位
为什么要使用旋转位置编码?
旋转位置编码(RoPE)的核心价值,是把位置信息以“旋转”的方式注入到注意力机制的 Query 和 Key 中,使模型在计算注意力分数时自然感知 token 之间的相对距离。相比直接相加的绝对位置编码,RoPE 更贴合 Transformer 的点积注意力结构,既能保留顺序信息,又能让相对位置关系在 QK 点积中显式出现。
同题还出现在 2 个公司岗位
大模型 RL 后训练中如何识别并缓解 reward hacking 和奖励坍缩?
这题考 RL 后训练的失效模式,回答重点是识别训练 reward 与真实质量背离,并用 reward 审计、约束、数据更新和独立评测缓解。
同题还出现在 2 个公司岗位
PPO clip 在 advantage 为正或为负时分别限制什么,为什么这样能稳定策略更新?
这题考 PPO clipped surrogate objective 的符号细节。好的回答要能从 r(theta)=pi_new(a|s)/pi_old(a|s) 和 advantage A 的正负出发说明:A 为正时,这个动作比预期好,PPO 限制新策略把它概率提高得过多,也就是限制 ratio 的上界;A 为负时,这个动作比预期差,PPO 限制新策略把它概率降低得过多,也就是限制 ratio 的下界。这样用保守目标抑制单步策略漂移,从而提升训练稳定性。
大模型后训练中,PPO 为什么通常被视为 on-policy,importance sampling 起什么作用?
PPO 通常被视为 on-policy,是因为它的训练样本来自当前或刚刚冻结的行为策略,更新只在这批新 rollout 附近做有限幅度的策略改进,而不是长期复用任意历史策略产生的数据。importance sampling 在 PPO 中主要通过新旧策略概率比修正采样策略和待优化策略之间的小偏差,使我们能用旧策略采到的样本估计新策略目标;但由于只修正动作概率、对状态分布偏移和大幅策略漂移无能为力,所以它不能把 PPO 变成真正意义上的通用 off-policy 算法。
BEVDet 这类纯视觉 BEV 感知算法如何通过 View Transformer 把图像特征转换到 BEV 空间?
这道题考察纯视觉 BEV 感知中从多相机图像特征到鸟瞰图特征的几何建模能力。好答案要讲清 BEVDet 的三段式链路:Image-view Encoder 提取每个相机的 2D 特征,View Transformer 结合深度分布、相机内外参和数据增强矩阵,把像素特征 lift 到三维 frustum,再 splat 或 pooling 到 ego 坐标系下的 BEV 网格,最后 BEV Encoder 在鸟瞰空间做融合和检测。回答边界应覆盖深度离散、特征加权、标定误差、分辨率取舍、遮挡和验证指标,不能把 View Transformer 误讲成普通 NLP Transformer。
DAPO、GSPO、GFPO 等 GRPO 变体分别试图解决哪些后训练问题?
这题考的是候选人是否能把 GRPO 变体放到后训练问题图谱里理解,而不是背算法名。好答案要先说明 GRPO 的基本形态:同一 prompt 采样一组回答,用组内相对奖励估计 advantage,减少显式 critic 需求;再说明 DAPO、GSPO、GFPO 分别主要针对大规模长推理 RL 中的训练稳定性、更新粒度和推理长度效率问题。由于这些算法较新,边界是只按公开论文和公开实现文档描述,不声称未公开训练配方,也不把不同团队的缩写含义混为确定事实。
推荐系统多路召回的候选分数能直接相加吗,如何做归一化、配额和融合?
这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义:cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。
推荐召回中 Word2Vec 召回具体怎么做,训练样本和近邻检索如何设计?
这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起,而不是只说用 Word2Vec 算相似 item。
同题还出现在 1 个公司岗位
推荐系统里的基于深度模型召回怎么做,如何与 ItemCF 或 Word2Vec 召回配合?
这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量,如何用 ANN 服务大规模候选,如何与 ItemCF、Word2Vec 等通道互补,以及负样本、偏差、版本、索引和指标如何治理。
推荐排序阶段通常使用哪些特征,如何划分用户、物品、上下文和交叉特征并保证线上线下一致?
这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚,并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标,否则容易停留在简单枚举。
推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?
这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。
同题还出现在 2 个公司岗位
ViT 如何把 224x224x3 图像切成 patch 序列,sequence length 如何计算?
这题考 ViT 把图像切成 patch 后如何形成 token 序列,回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。
同题还出现在 2 个公司岗位
DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?
这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。