已解析题目
算法工程师相关题目
大模型微调方法有哪些?
大模型微调可以从“训练目标”和“参数更新方式”两条线回答:训练目标包括继续预训练、监督微调、偏好对齐和任务适配;参数更新方式包括全参数微调和参数高效微调。面试中要说清每类方法解决什么问题、用什么数据、优化什么损失,以及成本和风险。
同题还出现在 1 个公司岗位
模型性能如何评估?
模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标,再区分离线指标、线上指标、鲁棒性指标和成本指标,最后说明数据切分、统计显著性和误差分析如何保证评估可信。
同题还出现在 1 个公司岗位
怎么加速模型训练?
加速模型训练要从数据、模型、计算、分布式和实验流程五层回答。核心不是简单说“加 GPU”,而是减少无效计算、提高硬件利用率、降低通信成本,并保证加速后模型效果和可复现性不被破坏。
同题还出现在 1 个公司岗位
Reward model如何训练?
Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注,构造 chosen/rejected pair,用 pairwise ranking loss 训练模型给更优回答更高分。
同题还出现在 1 个公司岗位
Reward model你觉得训练到什么程度可以?
Reward model 训练到什么程度可以,核心不是训练集 loss 越低越好,而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用,并且没有明显 reward hacking 风险。
为什么需要 Reward model?
Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号,用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。
Reward model 不准确时怎么办?
Reward model 不准确时不能直接继续强化学习,否则会放大错误偏好。稳妥回答要从数据、标注、模型、校准、对抗评测和下游闭环逐层修复。
数据集是如何构建和评测的?
数据集构建和评测题考察的是训练数据闭环。高质量回答要覆盖目标定义、数据采集、清洗标注、划分、质量评估、偏差检查、基线验证和持续迭代。
同题还出现在 1 个公司岗位
GAN 的训练要注意什么?
GAN 训练要重点关注生成器和判别器的平衡、模式崩溃、梯度不稳定、损失解释困难和样本质量评估,不能只看 loss 是否下降。
同题还出现在 1 个公司岗位
如何避免给用户重复推荐已看过的视频?
避免重复推荐已看过视频,要把曝光、播放、完播和负反馈记录接入召回、排序和重排链路,并处理跨设备、相似内容和时间窗口。
模型训练不收敛时怎么办?
模型训练不收敛要按数据、标签、特征、损失、优化器、学习率、初始化和梯度状态逐层排查,先定位现象再改参数。
多模态模型中的模态对齐方法有哪些?
多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。
InfoNCE 的温度系数有什么作用?
温度系数控制 InfoNCE 对相似度差异的敏感程度,本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。
用 GNN 做推荐时,哪些因素最重要?
用 GNN 做推荐最重要的是图怎么构建、边表示什么、节点和边特征是否可靠、采样和聚合如何保留有效邻居、层数如何避免过平滑、训练目标是否贴近排序任务,以及线上是否能承受图更新和推理成本。GNN 的优势在于利用高阶邻居和关系结构,但效果高度依赖图质量。
外卖订单请求刷单识别如何建模?
这道题考察订单请求级风控建模。回答要从标签定义、特征体系、模型链路、阈值策略和反馈闭环展开,重点说明刷单识别不是单纯分类,而是要兼顾实时性、误伤成本、样本偏斜和对抗变化。
Thompson Sampling 和 UCB 在推荐探索中分别适用什么场景,CTR 预估模型如何配合?
这道题考察推荐场景里的探索利用权衡。回答要以 Thompson Sampling 和 UCB 的选择为主轴,把 CTR 预估模型放在奖励估计、特征表征和不确定性建模的位置,而不是展开成 CTR 模型百科。
NLP 模型接入搜索排序链路时,特征接口和上线评测指标如何设计?
这道题考察 NLP 模型从离线效果走向搜索排序链路的工程化边界。回答要覆盖特征接口、排序接入、延迟降级、日志闭环和离线/在线评测,而不是只介绍某个 NLP 模型。
电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?
这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。
多模态大模型应用中,为什么选择 Qwen2.5-VL 做 encoder,如何评估取舍?
这题考多模态模型作为 encoder 的选型取舍,答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。
DeepResearch 类 Agent 如何和 RL 后训练结合,整体训练流程是什么?
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
GRPO 的 loss 如何计算,训练数据应如何组织?
这题考 GRPO 的目标函数直觉和训练样本组织方式,重点是同 prompt 多回答、组内相对优势、token logprob 更新和 KL 约束。
不同任务应如何设计 Prompt,如何调整指令、示例、输入输出格式和约束?
这题考的是 Prompt 设计方法论:不是背模板,而是能根据任务目标、输入不确定性、输出可验证性和风险边界,系统调整指令、示例、格式和约束。
Agent 微调中如何选择和清洗训练样本,哪些样本质量问题最容易改变模型行为?
这题考 Agent 微调数据的样本选择与清洗能力。与普通 SFT 不同,Agent 样本不仅有问答文本,还包含意图、计划、工具选择、参数、工具结果、状态变化、安全边界和最终回复。回答要说明哪些样本值得训练、哪些噪声会改变模型行为,以及如何用指标验证。
同题还出现在 1 个公司岗位
Agent 工具调用训练中,如果一个 query 有多个可用工具,如何构造样本让模型学会工具选择偏好?
这道题考察的是 Agent 工具调用训练里的偏好学习,而不是简单判断某个工具能不能用。好答案要说明:当多个工具都可完成同一 query 时,训练样本不能只保留一个正确 tool call,而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来,让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。
Agent 设计中为什么要区分自然语言对话状态和结构化执行状态,分别存什么?
这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开:前者服务于模型理解上下文、用户意图和交互语义;后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录,否则系统会难以恢复、难以测试,也容易产生幻觉状态。
开发 MCP 服务时,如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性?
这道题考察的是 MCP 服务的能力建模和治理能力,而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始,定义清晰的输入输出 schema、权限和错误语义,再补上发现机制、版本兼容、超时重试、可观测性、回放和审计,保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。
LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择?
这道题考察微调方案选择,而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异:LoRA 冻结基座模型,只训练低秩增量矩阵;全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案,并说明如何用实验指标验证是否足够。
DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?
这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。
同题还出现在 2 个公司岗位
推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模?
这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明:Transformer 适合把用户历史行为编码成带上下文的序列表征,DIN 的价值在于针对当前候选物品做 target-aware attention;工程上不能只拿一个全局向量,要处理时间因果、候选量、缓存、延迟和线上线下一致。
推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?
这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。
Word2Vec 负采样为什么能加速训练,训练目标如何理解?
这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词,而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习,每个正样本只更新少量负例,从而把复杂度从 O(|V|) 降到 O(K),同时学到可用于相似性和共现关系的 embedding。
Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?
这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。
推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?
这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。
同题还出现在 2 个公司岗位
Transformer 的核心结构和自注意力原理是什么?
Transformer 的核心结构和自注意力原理是什么?这道腾讯牛客题的关键是围绕“Transformer 结构与自注意力”讲清概念、机制、取舍和边界。Transformer 的核心由多头自注意力、前馈网络、残差连接、LayerNorm 和位置编码组成。自注意力通过 Q、K、V 计算 token 之间的相关性,再用相关性加权聚合值向量。
同题还出现在 1 个公司岗位
Agent 中输入特征和记忆模块有什么区别,如何分别建模当前请求状态和跨轮上下文?
Agent 的输入特征描述当前请求状态,记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标:输入特征偏实时、短暂、结构化,记忆偏持久、可检索、需要治理。
XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?
这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。
推荐系统的召回、排序和重排链路如何理解?
这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统:召回负责从海量候选中高覆盖地捞出可能感兴趣的内容,排序负责用特征和模型估计用户行为价值,重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束,同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。
同题还出现在 1 个公司岗位
DCN 和 DeepFM 的特征交叉机制有什么异同?
DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。
推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?
推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。
主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?
这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。
推荐系统中用召回模型蒸馏粗排模型时,如何评价蒸馏后的召回效果?
这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧,使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性,因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖:离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式,如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。
在 OCPX 广告系统中,bid 出价如何参与广告混排,混排逻辑应放在排序侧还是出价侧?
这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格,而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号;它最终要进入广告候选的价值计算,例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定,也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是:出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号;排序/混排侧负责在用户请求上下文中融合广告和自然内容,综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧,但需要消费出价侧产出的价值信号,并把曝光、点击、转化和消耗反馈回出价系统形成闭环。
用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别?
这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架,理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化;用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征,模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标,并说明增长算法不能只追短期转化,否则可能造成补贴浪费、用户打扰和长期留存受损。
LLM 解码中的 top-k 和 top-p 采样分别如何实现,如何影响多样性、复读和生成稳定性?
这题考的是候选人是否真正理解生成式解码,而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”,因此回答应聚焦通用 LLM 推理机制,不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样,以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。
在推荐系统中,双塔召回和精排在候选规模、特征复杂度、实时性和准确率上有什么差异?为什么精排通常更准,双塔如何支持用户侧向量实时更新?
这道题考察推荐系统召回与精排的职责边界。好的回答要解释双塔为什么适合大规模向量召回,精排为什么通常更准,以及用户侧向量实时更新如何工程落地。
VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时,如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复?
这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”,而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位:模型是没有看视觉信息,还是看了但对齐差,还是评测集暴露了特定幻觉类型。
构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?
这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。