公司岗位题库

美团 算法面经

47 道题 53 个标签 48 条出现记录

算法工程师相关题目

大模型微调方法有哪些?

大模型微调可以从“训练目标”和“参数更新方式”两条线回答:训练目标包括继续预训练、监督微调、偏好对齐和任务适配;参数更新方式包括全参数微调和参数高效微调。面试中要说清每类方法解决什么问题、用什么数据、优化什么损失,以及成本和风险。

同题还出现在 1 个公司岗位

电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?

这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。

Agent 微调中如何选择和清洗训练样本,哪些样本质量问题最容易改变模型行为?

这题考 Agent 微调数据的样本选择与清洗能力。与普通 SFT 不同,Agent 样本不仅有问答文本,还包含意图、计划、工具选择、参数、工具结果、状态变化、安全边界和最终回复。回答要说明哪些样本值得训练、哪些噪声会改变模型行为,以及如何用指标验证。

同题还出现在 1 个公司岗位

Agent 工具调用训练中,如果一个 query 有多个可用工具,如何构造样本让模型学会工具选择偏好?

这道题考察的是 Agent 工具调用训练里的偏好学习,而不是简单判断某个工具能不能用。好答案要说明:当多个工具都可完成同一 query 时,训练样本不能只保留一个正确 tool call,而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来,让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。

Agent 设计中为什么要区分自然语言对话状态和结构化执行状态,分别存什么?

这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开:前者服务于模型理解上下文、用户意图和交互语义;后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录,否则系统会难以恢复、难以测试,也容易产生幻觉状态。

开发 MCP 服务时,如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性?

这道题考察的是 MCP 服务的能力建模和治理能力,而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始,定义清晰的输入输出 schema、权限和错误语义,再补上发现机制、版本兼容、超时重试、可观测性、回放和审计,保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。

LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择?

这道题考察微调方案选择,而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异:LoRA 冻结基座模型,只训练低秩增量矩阵;全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案,并说明如何用实验指标验证是否足够。

DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模?

这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明:Transformer 适合把用户历史行为编码成带上下文的序列表征,DIN 的价值在于针对当前候选物品做 target-aware attention;工程上不能只拿一个全局向量,要处理时间因果、候选量、缓存、延迟和线上线下一致。

推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。

Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。

推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?

这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

Transformer 的核心结构和自注意力原理是什么?

Transformer 的核心结构和自注意力原理是什么?这道腾讯牛客题的关键是围绕“Transformer 结构与自注意力”讲清概念、机制、取舍和边界。Transformer 的核心由多头自注意力、前馈网络、残差连接、LayerNorm 和位置编码组成。自注意力通过 Q、K、V 计算 token 之间的相关性,再用相关性加权聚合值向量。

同题还出现在 1 个公司岗位

XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?

这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。

推荐系统的召回、排序和重排链路如何理解?

这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统:召回负责从海量候选中高覆盖地捞出可能感兴趣的内容,排序负责用特征和模型估计用户行为价值,重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束,同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。

同题还出现在 1 个公司岗位

DCN 和 DeepFM 的特征交叉机制有什么异同?

DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?

这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统中用召回模型蒸馏粗排模型时,如何评价蒸馏后的召回效果?

这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧,使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性,因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖:离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式,如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。

在 OCPX 广告系统中,bid 出价如何参与广告混排,混排逻辑应放在排序侧还是出价侧?

这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格,而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号;它最终要进入广告候选的价值计算,例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定,也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是:出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号;排序/混排侧负责在用户请求上下文中融合广告和自然内容,综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧,但需要消费出价侧产出的价值信号,并把曝光、点击、转化和消耗反馈回出价系统形成闭环。

用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别?

这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架,理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化;用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征,模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标,并说明增长算法不能只追短期转化,否则可能造成补贴浪费、用户打扰和长期留存受损。

LLM 解码中的 top-k 和 top-p 采样分别如何实现,如何影响多样性、复读和生成稳定性?

这题考的是候选人是否真正理解生成式解码,而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”,因此回答应聚焦通用 LLM 推理机制,不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样,以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。

VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时,如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复?

这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”,而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位:模型是没有看视觉信息,还是看了但对齐差,还是评测集暴露了特定幻觉类型。

构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?

这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。