美团面经题库第 3 页

垂类大模型从通用模型到业务落地通常要经历哪些训练和迭代步骤？

垂类大模型不是把通用模型直接接入业务就结束，而是从业务任务定义、领域数据建设、模型适配训练、评测 badcase、灰度上线到反馈闭环的一整套工程化迭代。本题聚焦完整训练和落地链路，不是产品经理个人贡献分工。

AI 产品大语言模型模型训练模型评估产品管理

大模型的“大”体现在哪些方面，如何从参数、数据、算力、上下文和能力边界理解？

大模型的“大”不能只理解为参数多，还包括训练数据规模和多样性、算力投入、上下文窗口、推理成本、多模态能力和复杂任务能力边界。规模扩大通常提升表示能力、泛化能力和复杂任务处理能力，但效果仍依赖数据质量、训练方法、对齐方式和任务分布。

AI 产品大语言模型模型训练产品管理

什么业务适合用大模型，什么业务更适合用小模型，如何按复杂度、成本、延迟和风险做选型？

大模型和小模型选型不是按技术先进程度决定，而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型；标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。

AI 产品大语言模型大模型推理模型评估产品管理

DPO 是什么，和 SFT 在训练目标、数据形式和适用阶段上有什么区别？

SFT 和 DPO 都用于大模型训练后的对齐阶段，但目标不同。SFT 是让模型学习应该怎么回答的示范答案，DPO 是让模型学习同一问题下更偏好哪一个回答。SFT 更偏能力和格式学习，DPO 更偏偏好对齐、风格控制和质量排序。

同题还出现在 1 个公司岗位

大语言模型模型微调 DPO SFT AI 产品

RAG 产品出现 badcase 时，如何从知识库、检索、生成和反馈闭环提高效果？

RAG badcase 优化不能只调 Prompt，而要把问题拆成知识、检索、生成、反馈四层定位：先按严重度和归因分类，再用日志还原证据链，最后通过知识治理、召回重排、上下文组织、生成约束和用户反馈回流形成持续迭代闭环。

AI 产品产品管理 RAG 模型评估产品指标大语言模型

Agent 中输入特征和记忆模块有什么区别，如何分别建模当前请求状态和跨轮上下文？

Agent 的输入特征描述当前请求状态，记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标：输入特征偏实时、短暂、结构化，记忆偏持久、可检索、需要治理。

AI Agent 大语言模型状态管理特征工程模型评估

大模型产品中的知识库主要适合哪些应用场景，如何判断是否值得建设？

大模型产品中的知识库最适合解决高频、相对稳定、需要权威来源、可追溯引用的知识问答问题，例如客服问答、内部制度查询、SOP 操作指导、销售培训、产品手册和员工自助服务。判断是否值得建设，关键看知识是否结构化可维护、用户问题是否高频重复、答案是否需要一致和合规，以及上线后能否用命中率、解决率、转人工率、引用准确率和幻觉率来验证价值。

AI 产品产品管理大语言模型 RAG 产品指标模型评估

垂类大模型主要解决哪些通用大模型难以满足的业务问题，产品上如何判断投入价值？

垂类大模型主要解决通用大模型在特定行业里准确性不足、术语理解不深、流程规则不熟、合规约束不稳定、输出一致性不够的问题。产品上判断是否值得投入，不能只看模型效果，而要综合领域知识密度、错误成本、数据闭环、评测集、替代方案、ROI、成本、延迟和上线风险。

AI 产品大语言模型产品管理模型训练模型评估产品指标

大语言模型的 next-token 预测过程是什么，输入 token、上下文、logits/概率分布和解码策略如何共同产生回答？

这题考 LLM 推理基本原理：候选人要能从 tokenization、Transformer 上下文建模、logits、softmax 概率和解码策略讲清楚回答是如何逐 token 生成的。

同题还出现在 1 个公司岗位

大语言模型大模型推理 Transformer 注意力机制模型评估

RAG 项目里的召回排序链路如何设计，Embedding 召回、粗排、重排和答案生成各自承担什么职责？

这题考 RAG 的工程链路设计：不是只接一个向量库，而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。

同题还出现在 3 个公司岗位

RAG Embedding AI 搜索大语言模型模型评估

可中断的 Agent 系统如何设计，怎样保存执行状态、恢复任务并处理用户打断？

这题从后端视角考察可中断 Agent 的状态机、持久化和恢复设计。好的回答要说明 Agent 执行不是一次同步请求，而是可暂停、可恢复、可取消、可重试的长任务。核心包括任务状态模型、步骤 checkpoint、幂等工具调用、用户打断语义、恢复策略、并发控制和可观测性。

AI Agent 状态管理工作流稳定性

RAG 知识库有十几万文档时，如何设计切片、索引、召回和增量更新，避免检索质量与性能下降？

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库，而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能，说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

RAG 向量数据库可扩展性模型评估

AI 服务中的多模型降级与熔断机制如何设计，怎样定义异常、状态流转和自动恢复条件？

这题考察 AI 服务后端的稳定性设计。多模型降级和熔断不是简单把模型 A 挂了切到模型 B，而要定义异常、统计窗口、状态机、路由策略、自动恢复和质量兜底。好的回答要覆盖可用性、质量、成本、延迟、限流、观测和安全边界。

大语言模型稳定性系统设计可观测性性能排查

RAG 或大模型知识库应用中，知识不断追加导致 Prompt 越来越长时，会带来哪些上下文、成本和质量问题，如何治理？

这题考 RAG 或大模型知识库应用的上下文治理能力。题源 evidence 指向新加入知识库造成 prompt 越来越长，所以回答不能停留在换长上下文模型，而要说明 prompt 变长会带来窗口挤占、成本上升、延迟变高、噪声和冲突增加、回答质量下降，并给出检索、压缩、版本、权限、评测和监控的治理方案。

RAG Prompt 工程大语言模型性能排查稳定性

XGBoost 主要缓解偏差还是方差问题？它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化？

这题的标准回答不是简单选偏差或方差，而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差，同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制，并结合验证集曲线判断模型是在欠拟合还是过拟合。

XGBoost GBDT 正则化模型训练模型评估

美团 / 数据分析

时间序列数据中如何检测异常值？在传感器场景下如何判断当前点是否异常？

这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图，而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时，应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度，并区分点异常、上下文异常和持续漂移。

统计学数据分析异常值模型评估业务指标

如何评价并落地 AI 辅助开发：它能提升哪些开发环节，开发者仍必须承担哪些工程责任？

这道题考候选人对 AI 编程工具的工程判断。好答案要说明 AI 能提升需求拆解、代码阅读、样板代码、测试、排错和文档效率，也要明确架构决策、正确性、安全、隐私、性能、代码审查和最终交付责任仍在开发者。

同题还出现在 1 个公司岗位

性能测试性能排查可观测性 AI 编程质量工程测试覆盖率

如何通过数据分析量化美团单车潮汐效应，并为线下车辆调度提供更高效的策略建议？

这题考共享单车业务的数据建模和线下运营落地能力。好的回答要把潮汐效应量化成空间网格、时间窗口、OD 流向、车辆净流入净流出、供需缺口和可执行调度工单，而不是只描述早晚高峰现象。

Java 并发并发多线程数据分析商业分析业务指标

如何分析同时使用美团外卖和饿了么的重叠用户，与只使用美团的忠诚用户在客单价和下单频率上的差异？

这题考竞争场景下的用户分层、指标口径和因果意识。分析重叠用户与只用美团的忠诚用户时，不能直接比较均值，而要先定义用户标签和观察窗口，再控制城市、生命周期、品类、优惠、商家供给和活跃度差异。

数据分析商业分析用户分层业务指标

推荐系统的召回、排序和重排链路如何理解？

这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统：召回负责从海量候选中高覆盖地捞出可能感兴趣的内容，排序负责用特征和模型估计用户行为价值，重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束，同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。

同题还出现在 1 个公司岗位

算法数据结构推荐系统模型评估

DCN 和 DeepFM 的特征交叉机制有什么异同？

DCN 和 DeepFM 都用于稀疏特征推荐排序，都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉，再用 DNN 隐式学习高阶非线性交叉；DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉，得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统特征工程模型训练神经网络

推荐系统中多任务学习有哪些常见结构，PLE 主要优化了共享底座或 MMoE 的哪些问题？

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家，并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征，主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

推荐系统模型训练模型评估神经网络

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同，推荐模型如何用增量学习或 PPNet 做适配？

这题的关键是小样本场景不是简单“数据少”，而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型，容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator，对底层网络的 hidden units 或专家输出做个性化缩放，让主模型共享大样本知识，小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统模型训练特征工程模型评估业务指标

推荐系统中用召回模型蒸馏粗排模型时，如何评价蒸馏后的召回效果？

这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧，使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性，因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖：离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式，如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。

推荐系统模型训练模型评估 A/B 测试

在 OCPX 广告系统中，bid 出价如何参与广告混排，混排逻辑应放在排序侧还是出价侧？

这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格，而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号；它最终要进入广告候选的价值计算，例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定，也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是：出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号；排序/混排侧负责在用户请求上下文中融合广告和自然内容，综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧，但需要消费出价侧产出的价值信号，并把曝光、点击、转化和消耗反馈回出价系统形成闭环。

广告推荐系统模型评估

用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别？

这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架，理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化；用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征，模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标，并说明增长算法不能只追短期转化，否则可能造成补贴浪费、用户打扰和长期留存受损。

用户增长广告推荐系统业务指标模型评估

LLM 解码中的 top-k 和 top-p 采样分别如何实现，如何影响多样性、复读和生成稳定性？

这题考的是候选人是否真正理解生成式解码，而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”，因此回答应聚焦通用 LLM 推理机制，不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样，以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。

大语言模型大模型推理 TopK 模型评估

在推荐系统中，双塔召回和精排在候选规模、特征复杂度、实时性和准确率上有什么差异？为什么精排通常更准，双塔如何支持用户侧向量实时更新？

这道题考察推荐系统召回与精排的职责边界。好的回答要解释双塔为什么适合大规模向量召回，精排为什么通常更准，以及用户侧向量实时更新如何工程落地。

推荐系统 Embedding 模型评估系统设计

AI 产品上线后，如何量化转化率、留存率等业务提升，并基于实验结果和业务数据调整迭代策略？

这题考 AI 产品上线后的业务归因和迭代能力。回答要把转化率、留存率等业务指标放进实验设计、指标树、因果验证、分群分析、成本收益和迭代决策里，而不是只说上线后看数据有没有涨。

AI 产品产品管理产品指标业务指标 A/B 测试用户增长

设计 AI 驱动的个性化推荐系统时，如何在推荐准确性、实时性、计算成本和用户体验之间取舍？

这题考推荐系统产品经理的系统取舍能力。回答要把准确性、实时性、计算成本和用户体验放在同一个推荐链路里讨论，通过召回、粗排、精排、重排、缓存、降级和实验指标做分层决策，而不是简单说模型越准越好。

AI 产品产品管理推荐系统模型评估产品指标性能排查

把大模型 API Demo 落地到真实业务时，产品经理应如何筛选需求、接入数据、评估效果，并控制工程化上线风险？

这题考把大模型 API Demo 从“能演示”推进到“能稳定服务真实业务”的产品落地能力。回答要覆盖需求筛选、业务数据接入、效果评估、灰度上线、成本延迟、模型不确定性和工程兜底，而不是只讲调用了某个模型接口。

AI 产品大语言模型产品管理产品指标稳定性

AI 产品项目中，产品经理如何处理数据隐私、用户画像偏见和伦理风险，并把合规、评估与用户体验纳入方案？

这题考 AI 产品经理能否把隐私、偏见和伦理风险纳入产品方案，而不是把它们当成法务或算法团队的后置检查。回答要覆盖数据最小化、用户授权、画像偏差、公平性评估、解释与申诉、合规审计和体验设计。

AI 产品产品管理隐私保护 AI 伦理模型评估

美团外卖用 AI 优化配送路径时，产品经理如何设计实验来比较不同算法对履约效率、成本、稳定性和用户体验的影响？

这题考 AI 路径优化实验设计能力。回答重点是先做离线回放和仿真，再做受控线上实验；指标要同时覆盖履约效率、配送成本、稳定性、骑手与用户体验，并处理调度网络中的干扰效应和安全护栏。

AI 产品产品管理 A/B 测试产品指标业务指标模型评估

为电商 AI 产品定义 KPI 时，产品经理如何选择点击率、转化率、留存、GMV、成本和体验护栏，并持续监控指标漂移？

这题考电商 AI 产品的指标体系和持续监控能力。回答不能只说点击率优化，而要建立从曝光、点击、转化、GMV、利润、留存、体验、成本到模型漂移的完整 KPI 框架，并说明如何发现和处理指标漂移。

AI 产品产品管理产品指标指标体系电商业务指标

VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时，如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复？

这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”，而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位：模型是没有看视觉信息，还是看了但对齐差，还是评测集暴露了特定幻觉类型。

多模态学习模型微调大模型幻觉模型评估

构建大模型预训练语料时，如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序，并保证语料质量？

这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR，而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤，以及用人工标注集和下游训练信号评估语料是否真正可用。

OCR 大语言模型模型训练模型评估

判断一个 AI 产品是否具备可持续商业化能力时，应看哪些标准？

这题考 AI 产品商业判断。真正能赚钱的 AI 产品不只是模型效果强，而是能解决高价值任务、进入稳定工作流、效果可量化、交付成本可控、风险可管理，并且有清晰的付费主体和规模化路径。

产品管理大语言模型 AI 产品商业化

A/B Test 的样本量应如何估算？

这题考 A/B Test 基础统计能力和业务实验意识。好的回答要从目标指标、基准水平、最小可检测效果、显著性水平、统计功效、方差、分流比例和实验单位讲起，而不是只背一个公式。

A/B 测试样本量商业分析统计学

在非随机实验或 A/B 分析中，Matching 方法如何构造可比样本并降低选择偏差？

这题考非随机实验分析能力。Matching 的核心是用处理前特征为实验组找到可比对照组，降低选择偏差，但它只能控制可观测混杂，必须配合重叠性、平衡性诊断和敏感性分析。

A/B 测试 Matching 方法商业分析统计学

A/B Test 中遇到异常值时，如何判断、处理并保证实验结论可靠？

这题考实验分析中的稳健性和业务判断。异常值不能简单删除，要先区分数据错误、埋点问题、作弊攻击、真实重尾用户和实验策略造成的极端变化，再按预先规则处理并报告敏感性结果。

A/B 测试商业分析异常值统计学

在 A/B Test 的假设检验中，一类错误和二类错误分别是什么？

这题考 A/B Test 假设检验的基本错误类型。回答重点不是背定义，而是能把一类错误、二类错误、显著性水平、检验功效、样本量和业务决策风险联系起来。

A/B 测试商业分析统计学

在指标体系搭建中，MECE 原则如何使用？什么时候不需要完全 MECE？

这题考指标体系搭建中的结构化拆解能力。MECE 能帮助指标分类不重不漏，但业务分析不能机械追求完全 MECE，需要在决策目标、可解释性和实际运营之间取平衡。

数据分析商业分析指标体系产品指标

为什么设计指标体系前要先理解业务架构和业务链路？

这题考指标体系设计的业务理解能力。指标不是先列公式，而是先理解业务如何创造价值、有哪些角色、链路、约束和关键决策点。

数据分析商业分析指标体系产品指标