分页题目
美团相关面试题第 3 页
垂类大模型从通用模型到业务落地通常要经历哪些训练和迭代步骤?
垂类大模型不是把通用模型直接接入业务就结束,而是从业务任务定义、领域数据建设、模型适配训练、评测 badcase、灰度上线到反馈闭环的一整套工程化迭代。本题聚焦完整训练和落地链路,不是产品经理个人贡献分工。
大模型的“大”体现在哪些方面,如何从参数、数据、算力、上下文和能力边界理解?
大模型的“大”不能只理解为参数多,还包括训练数据规模和多样性、算力投入、上下文窗口、推理成本、多模态能力和复杂任务能力边界。规模扩大通常提升表示能力、泛化能力和复杂任务处理能力,但效果仍依赖数据质量、训练方法、对齐方式和任务分布。
什么业务适合用大模型,什么业务更适合用小模型,如何按复杂度、成本、延迟和风险做选型?
大模型和小模型选型不是按技术先进程度决定,而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型;标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。
DPO 是什么,和 SFT 在训练目标、数据形式和适用阶段上有什么区别?
SFT 和 DPO 都用于大模型训练后的对齐阶段,但目标不同。SFT 是让模型学习应该怎么回答的示范答案,DPO 是让模型学习同一问题下更偏好哪一个回答。SFT 更偏能力和格式学习,DPO 更偏偏好对齐、风格控制和质量排序。
同题还出现在 1 个公司岗位
RAG 产品出现 badcase 时,如何从知识库、检索、生成和反馈闭环提高效果?
RAG badcase 优化不能只调 Prompt,而要把问题拆成知识、检索、生成、反馈四层定位:先按严重度和归因分类,再用日志还原证据链,最后通过知识治理、召回重排、上下文组织、生成约束和用户反馈回流形成持续迭代闭环。
Agent 中输入特征和记忆模块有什么区别,如何分别建模当前请求状态和跨轮上下文?
Agent 的输入特征描述当前请求状态,记忆模块保存跨轮和跨会话的上下文。二者的核心区别在生命周期、更新方式、存储介质和使用目标:输入特征偏实时、短暂、结构化,记忆偏持久、可检索、需要治理。
大模型产品中的知识库主要适合哪些应用场景,如何判断是否值得建设?
大模型产品中的知识库最适合解决高频、相对稳定、需要权威来源、可追溯引用的知识问答问题,例如客服问答、内部制度查询、SOP 操作指导、销售培训、产品手册和员工自助服务。判断是否值得建设,关键看知识是否结构化可维护、用户问题是否高频重复、答案是否需要一致和合规,以及上线后能否用命中率、解决率、转人工率、引用准确率和幻觉率来验证价值。
垂类大模型主要解决哪些通用大模型难以满足的业务问题,产品上如何判断投入价值?
垂类大模型主要解决通用大模型在特定行业里准确性不足、术语理解不深、流程规则不熟、合规约束不稳定、输出一致性不够的问题。产品上判断是否值得投入,不能只看模型效果,而要综合领域知识密度、错误成本、数据闭环、评测集、替代方案、ROI、成本、延迟和上线风险。
大语言模型的 next-token 预测过程是什么,输入 token、上下文、logits/概率分布和解码策略如何共同产生回答?
这题考 LLM 推理基本原理:候选人要能从 tokenization、Transformer 上下文建模、logits、softmax 概率和解码策略讲清楚回答是如何逐 token 生成的。
同题还出现在 1 个公司岗位
RAG 项目里的召回排序链路如何设计,Embedding 召回、粗排、重排和答案生成各自承担什么职责?
这题考 RAG 的工程链路设计:不是只接一个向量库,而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。
同题还出现在 3 个公司岗位
可中断的 Agent 系统如何设计,怎样保存执行状态、恢复任务并处理用户打断?
这题从后端视角考察可中断 Agent 的状态机、持久化和恢复设计。好的回答要说明 Agent 执行不是一次同步请求,而是可暂停、可恢复、可取消、可重试的长任务。核心包括任务状态模型、步骤 checkpoint、幂等工具调用、用户打断语义、恢复策略、并发控制和可观测性。
RAG 知识库有十几万文档时,如何设计切片、索引、召回和增量更新,避免检索质量与性能下降?
这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库,而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能,说明如何避免召回变差、延迟变高、索引过期和重复内容污染。
AI 服务中的多模型降级与熔断机制如何设计,怎样定义异常、状态流转和自动恢复条件?
这题考察 AI 服务后端的稳定性设计。多模型降级和熔断不是简单把模型 A 挂了切到模型 B,而要定义异常、统计窗口、状态机、路由策略、自动恢复和质量兜底。好的回答要覆盖可用性、质量、成本、延迟、限流、观测和安全边界。
RAG 或大模型知识库应用中,知识不断追加导致 Prompt 越来越长时,会带来哪些上下文、成本和质量问题,如何治理?
这题考 RAG 或大模型知识库应用的上下文治理能力。题源 evidence 指向新加入知识库造成 prompt 越来越长,所以回答不能停留在换长上下文模型,而要说明 prompt 变长会带来窗口挤占、成本上升、延迟变高、噪声和冲突增加、回答质量下降,并给出检索、压缩、版本、权限、评测和监控的治理方案。
XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?
这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。
时间序列数据中如何检测异常值?在传感器场景下如何判断当前点是否异常?
这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图,而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时,应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度,并区分点异常、上下文异常和持续漂移。
如何评价并落地 AI 辅助开发:它能提升哪些开发环节,开发者仍必须承担哪些工程责任?
这道题考候选人对 AI 编程工具的工程判断。好答案要说明 AI 能提升需求拆解、代码阅读、样板代码、测试、排错和文档效率,也要明确架构决策、正确性、安全、隐私、性能、代码审查和最终交付责任仍在开发者。
同题还出现在 1 个公司岗位
如何通过数据分析量化美团单车潮汐效应,并为线下车辆调度提供更高效的策略建议?
这题考共享单车业务的数据建模和线下运营落地能力。好的回答要把潮汐效应量化成空间网格、时间窗口、OD 流向、车辆净流入净流出、供需缺口和可执行调度工单,而不是只描述早晚高峰现象。
如何分析同时使用美团外卖和饿了么的重叠用户,与只使用美团的忠诚用户在客单价和下单频率上的差异?
这题考竞争场景下的用户分层、指标口径和因果意识。分析重叠用户与只用美团的忠诚用户时,不能直接比较均值,而要先定义用户标签和观察窗口,再控制城市、生命周期、品类、优惠、商家供给和活跃度差异。
推荐系统的召回、排序和重排链路如何理解?
这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统:召回负责从海量候选中高覆盖地捞出可能感兴趣的内容,排序负责用特征和模型估计用户行为价值,重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束,同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。
同题还出现在 1 个公司岗位
DCN 和 DeepFM 的特征交叉机制有什么异同?
DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。
推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?
推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。
主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?
这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。
推荐系统中用召回模型蒸馏粗排模型时,如何评价蒸馏后的召回效果?
这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧,使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性,因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖:离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式,如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。
在 OCPX 广告系统中,bid 出价如何参与广告混排,混排逻辑应放在排序侧还是出价侧?
这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格,而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号;它最终要进入广告候选的价值计算,例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定,也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是:出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号;排序/混排侧负责在用户请求上下文中融合广告和自然内容,综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧,但需要消费出价侧产出的价值信号,并把曝光、点击、转化和消耗反馈回出价系统形成闭环。
用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别?
这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架,理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化;用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征,模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标,并说明增长算法不能只追短期转化,否则可能造成补贴浪费、用户打扰和长期留存受损。
LLM 解码中的 top-k 和 top-p 采样分别如何实现,如何影响多样性、复读和生成稳定性?
这题考的是候选人是否真正理解生成式解码,而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”,因此回答应聚焦通用 LLM 推理机制,不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样,以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。
在推荐系统中,双塔召回和精排在候选规模、特征复杂度、实时性和准确率上有什么差异?为什么精排通常更准,双塔如何支持用户侧向量实时更新?
这道题考察推荐系统召回与精排的职责边界。好的回答要解释双塔为什么适合大规模向量召回,精排为什么通常更准,以及用户侧向量实时更新如何工程落地。
AI 产品上线后,如何量化转化率、留存率等业务提升,并基于实验结果和业务数据调整迭代策略?
这题考 AI 产品上线后的业务归因和迭代能力。回答要把转化率、留存率等业务指标放进实验设计、指标树、因果验证、分群分析、成本收益和迭代决策里,而不是只说上线后看数据有没有涨。
设计 AI 驱动的个性化推荐系统时,如何在推荐准确性、实时性、计算成本和用户体验之间取舍?
这题考推荐系统产品经理的系统取舍能力。回答要把准确性、实时性、计算成本和用户体验放在同一个推荐链路里讨论,通过召回、粗排、精排、重排、缓存、降级和实验指标做分层决策,而不是简单说模型越准越好。
把大模型 API Demo 落地到真实业务时,产品经理应如何筛选需求、接入数据、评估效果,并控制工程化上线风险?
这题考把大模型 API Demo 从“能演示”推进到“能稳定服务真实业务”的产品落地能力。回答要覆盖需求筛选、业务数据接入、效果评估、灰度上线、成本延迟、模型不确定性和工程兜底,而不是只讲调用了某个模型接口。
AI 产品项目中,产品经理如何处理数据隐私、用户画像偏见和伦理风险,并把合规、评估与用户体验纳入方案?
这题考 AI 产品经理能否把隐私、偏见和伦理风险纳入产品方案,而不是把它们当成法务或算法团队的后置检查。回答要覆盖数据最小化、用户授权、画像偏差、公平性评估、解释与申诉、合规审计和体验设计。
美团外卖用 AI 优化配送路径时,产品经理如何设计实验来比较不同算法对履约效率、成本、稳定性和用户体验的影响?
这题考 AI 路径优化实验设计能力。回答重点是先做离线回放和仿真,再做受控线上实验;指标要同时覆盖履约效率、配送成本、稳定性、骑手与用户体验,并处理调度网络中的干扰效应和安全护栏。
为电商 AI 产品定义 KPI 时,产品经理如何选择点击率、转化率、留存、GMV、成本和体验护栏,并持续监控指标漂移?
这题考电商 AI 产品的指标体系和持续监控能力。回答不能只说点击率优化,而要建立从曝光、点击、转化、GMV、利润、留存、体验、成本到模型漂移的完整 KPI 框架,并说明如何发现和处理指标漂移。
VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时,如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复?
这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”,而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位:模型是没有看视觉信息,还是看了但对齐差,还是评测集暴露了特定幻觉类型。
构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?
这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。
判断一个 AI 产品是否具备可持续商业化能力时,应看哪些标准?
这题考 AI 产品商业判断。真正能赚钱的 AI 产品不只是模型效果强,而是能解决高价值任务、进入稳定工作流、效果可量化、交付成本可控、风险可管理,并且有清晰的付费主体和规模化路径。
A/B Test 的样本量应如何估算?
这题考 A/B Test 基础统计能力和业务实验意识。好的回答要从目标指标、基准水平、最小可检测效果、显著性水平、统计功效、方差、分流比例和实验单位讲起,而不是只背一个公式。
在非随机实验或 A/B 分析中,Matching 方法如何构造可比样本并降低选择偏差?
这题考非随机实验分析能力。Matching 的核心是用处理前特征为实验组找到可比对照组,降低选择偏差,但它只能控制可观测混杂,必须配合重叠性、平衡性诊断和敏感性分析。
A/B Test 中遇到异常值时,如何判断、处理并保证实验结论可靠?
这题考实验分析中的稳健性和业务判断。异常值不能简单删除,要先区分数据错误、埋点问题、作弊攻击、真实重尾用户和实验策略造成的极端变化,再按预先规则处理并报告敏感性结果。
在 A/B Test 的假设检验中,一类错误和二类错误分别是什么?
这题考 A/B Test 假设检验的基本错误类型。回答重点不是背定义,而是能把一类错误、二类错误、显著性水平、检验功效、样本量和业务决策风险联系起来。
在指标体系搭建中,MECE 原则如何使用?什么时候不需要完全 MECE?
这题考指标体系搭建中的结构化拆解能力。MECE 能帮助指标分类不重不漏,但业务分析不能机械追求完全 MECE,需要在决策目标、可解释性和实际运营之间取平衡。
为什么设计指标体系前要先理解业务架构和业务链路?
这题考指标体系设计的业务理解能力。指标不是先列公式,而是先理解业务如何创造价值、有哪些角色、链路、约束和关键决策点。
搭建指标体系时,如何沿业务流程纵向拆环节,并按用户、渠道、区域等维度横向拆解?
这题考指标体系的二维拆解方法。纵向拆业务流程用于定位环节问题,横向拆用户、渠道、区域等维度用于识别差异和归因,两者结合才能形成可运营的分析框架。