美团算法工程师面经题库

这道题考察的是 Agent 工具调用训练里的偏好学习，而不是简单判断某个工具能不能用。好答案要说明：当多个工具都可完成同一 query 时，训练样本不能只保留一个正确 tool call，而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来，让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。

AI Agent 大语言模型模型训练模型微调模型评估

美团 / 算法

Agent 设计中为什么要区分自然语言对话状态和结构化执行状态，分别存什么？

这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开：前者服务于模型理解上下文、用户意图和交互语义；后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录，否则系统会难以恢复、难以测试，也容易产生幻觉状态。

Java 并发并发多线程 AI Agent 大语言模型状态管理

美团 / 算法

开发 MCP 服务时，如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性？

这道题考察的是 MCP 服务的能力建模和治理能力，而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始，定义清晰的输入输出 schema、权限和错误语义，再补上发现机制、版本兼容、超时重试、可观测性、回放和审计，保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。

计算机网络 AI Agent 大语言模型系统设计服务治理可观测性

美团 / 算法

LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择？

这道题考察微调方案选择，而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异：LoRA 冻结基座模型，只训练低秩增量矩阵；全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案，并说明如何用实验指标验证是否足够。

大语言模型模型微调模型训练 SFT

美团 / 算法

DPO、PPO、GRPO 三种对齐方法在工程上如何选择，各自适合什么反馈和决策场景？

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类：只有离线成对偏好时优先 DPO；有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO；同一 prompt 能采多条候选并用组内相对奖励比较，尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

大语言模型强化学习 RLHF DPO 模型训练模型评估

美团 / 算法

推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模？

这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明：Transformer 适合把用户历史行为编码成带上下文的序列表征，DIN 的价值在于针对当前候选物品做 target-aware attention；工程上不能只拿一个全局向量，要处理时间因果、候选量、缓存、延迟和线上线下一致。

推荐系统 Transformer 注意力机制 Embedding 模型训练

美团 / 算法

推荐系统中的用户画像和特征工程如何实现，怎样保证训练样本与线上特征口径一致？

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段，而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性，否则很容易出现泄漏、口径漂移和线上效果回退。

推荐系统特征工程模型训练模型评估

美团 / 算法

Word2Vec 负采样为什么能加速训练，训练目标如何理解？

这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词，而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习，每个正样本只更新少量负例，从而把复杂度从 O(|V|) 降到 O(K)，同时学到可用于相似性和共现关系的 embedding。

Embedding 模型训练神经网络模型评估

美团 / 算法

Transformer 为什么使用正弦/余弦位置编码，相比可学习位置向量有哪些好处和局限？

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序，再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质，同时承认固定绝对位置编码不等于长上下文能力，现代模型常用 RoPE、ALiBi 或相对位置方法。

Transformer 注意力机制 Embedding 大语言模型

美团 / 算法

推荐系统中引入向量索引召回时，在线 serving 链路应该如何改造？

这道题考察的不是向量索引原理，而是把向量召回接入推荐在线 serving 后，链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚，并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

推荐系统 Embedding 向量数据库工程化

美团 / 算法

Transformer 的核心结构和自注意力原理是什么？

Transformer 的核心结构和自注意力原理是什么？这道腾讯牛客题的关键是围绕“Transformer 结构与自注意力”讲清概念、机制、取舍和边界。Transformer 的核心由多头自注意力、前馈网络、残差连接、LayerNorm 和位置编码组成。自注意力通过 Q、K、V 计算 token 之间的相关性，再用相关性加权聚合值向量。

同题还出现在 1 个公司岗位

算法

美团 / 算法

Agent 中输入特征和记忆模块有什么区别，如何分别建模当前请求状态和跨轮上下文？

Agent 的输入特征描述当前请求状态，记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标：输入特征偏实时、短暂、结构化，记忆偏持久、可检索、需要治理。

AI Agent 大语言模型状态管理特征工程模型评估

美团 / 算法

XGBoost 主要缓解偏差还是方差问题？它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化？

这题的标准回答不是简单选偏差或方差，而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差，同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制，并结合验证集曲线判断模型是在欠拟合还是过拟合。

XGBoost GBDT 正则化模型训练模型评估

美团 / 算法

推荐系统的召回、排序和重排链路如何理解？

这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统：召回负责从海量候选中高覆盖地捞出可能感兴趣的内容，排序负责用特征和模型估计用户行为价值，重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束，同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。

同题还出现在 1 个公司岗位

算法数据结构推荐系统模型评估

美团 / 算法

DCN 和 DeepFM 的特征交叉机制有什么异同？

DCN 和 DeepFM 都用于稀疏特征推荐排序，都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉，再用 DNN 隐式学习高阶非线性交叉；DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉，得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统特征工程模型训练神经网络

美团 / 算法

推荐系统中多任务学习有哪些常见结构，PLE 主要优化了共享底座或 MMoE 的哪些问题？

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家，并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征，主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

推荐系统模型训练模型评估神经网络

美团 / 算法

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同，推荐模型如何用增量学习或 PPNet 做适配？

这题的关键是小样本场景不是简单“数据少”，而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型，容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator，对底层网络的 hidden units 或专家输出做个性化缩放，让主模型共享大样本知识，小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统模型训练特征工程模型评估业务指标

美团 / 算法

推荐系统中用召回模型蒸馏粗排模型时，如何评价蒸馏后的召回效果？

这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧，使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性，因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖：离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式，如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。

推荐系统模型训练模型评估 A/B 测试

美团 / 算法

在 OCPX 广告系统中，bid 出价如何参与广告混排，混排逻辑应放在排序侧还是出价侧？

这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格，而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号；它最终要进入广告候选的价值计算，例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定，也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是：出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号；排序/混排侧负责在用户请求上下文中融合广告和自然内容，综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧，但需要消费出价侧产出的价值信号，并把曝光、点击、转化和消耗反馈回出价系统形成闭环。

广告推荐系统模型评估

美团 / 算法

用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别？

这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架，理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化；用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征，模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标，并说明增长算法不能只追短期转化，否则可能造成补贴浪费、用户打扰和长期留存受损。

用户增长广告推荐系统业务指标模型评估

美团 / 算法

LLM 解码中的 top-k 和 top-p 采样分别如何实现，如何影响多样性、复读和生成稳定性？

这题考的是候选人是否真正理解生成式解码，而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”，因此回答应聚焦通用 LLM 推理机制，不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样，以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。

大语言模型大模型推理 TopK 模型评估

美团 / 算法