公司题库

美团面经题库第 3 页

140 道题 8 个岗位 123 个标签

美团相关面试题第 3 页

大模型的“大”体现在哪些方面,如何从参数、数据、算力、上下文和能力边界理解?

大模型的“大”不能只理解为参数多,还包括训练数据规模和多样性、算力投入、上下文窗口、推理成本、多模态能力和复杂任务能力边界。规模扩大通常提升表示能力、泛化能力和复杂任务处理能力,但效果仍依赖数据质量、训练方法、对齐方式和任务分布。

什么业务适合用大模型,什么业务更适合用小模型,如何按复杂度、成本、延迟和风险做选型?

大模型和小模型选型不是按技术先进程度决定,而是按任务复杂度、开放性、质量收益、成本延迟和风险等级综合判断。复杂生成、多轮推理、开放问答适合大模型;标准分类、固定规则、高频低价值、低延迟任务更适合小模型、规则或传统算法。

大模型产品中的知识库主要适合哪些应用场景,如何判断是否值得建设?

大模型产品中的知识库最适合解决高频、相对稳定、需要权威来源、可追溯引用的知识问答问题,例如客服问答、内部制度查询、SOP 操作指导、销售培训、产品手册和员工自助服务。判断是否值得建设,关键看知识是否结构化可维护、用户问题是否高频重复、答案是否需要一致和合规,以及上线后能否用命中率、解决率、转人工率、引用准确率和幻觉率来验证价值。

垂类大模型主要解决哪些通用大模型难以满足的业务问题,产品上如何判断投入价值?

垂类大模型主要解决通用大模型在特定行业里准确性不足、术语理解不深、流程规则不熟、合规约束不稳定、输出一致性不够的问题。产品上判断是否值得投入,不能只看模型效果,而要综合领域知识密度、错误成本、数据闭环、评测集、替代方案、ROI、成本、延迟和上线风险。

可中断的 Agent 系统如何设计,怎样保存执行状态、恢复任务并处理用户打断?

这题从后端视角考察可中断 Agent 的状态机、持久化和恢复设计。好的回答要说明 Agent 执行不是一次同步请求,而是可暂停、可恢复、可取消、可重试的长任务。核心包括任务状态模型、步骤 checkpoint、幂等工具调用、用户打断语义、恢复策略、并发控制和可观测性。

RAG 知识库有十几万文档时,如何设计切片、索引、召回和增量更新,避免检索质量与性能下降?

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库,而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能,说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

AI 服务中的多模型降级与熔断机制如何设计,怎样定义异常、状态流转和自动恢复条件?

这题考察 AI 服务后端的稳定性设计。多模型降级和熔断不是简单把模型 A 挂了切到模型 B,而要定义异常、统计窗口、状态机、路由策略、自动恢复和质量兜底。好的回答要覆盖可用性、质量、成本、延迟、限流、观测和安全边界。

RAG 或大模型知识库应用中,知识不断追加导致 Prompt 越来越长时,会带来哪些上下文、成本和质量问题,如何治理?

这题考 RAG 或大模型知识库应用的上下文治理能力。题源 evidence 指向新加入知识库造成 prompt 越来越长,所以回答不能停留在换长上下文模型,而要说明 prompt 变长会带来窗口挤占、成本上升、延迟变高、噪声和冲突增加、回答质量下降,并给出检索、压缩、版本、权限、评测和监控的治理方案。

XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?

这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。

时间序列数据中如何检测异常值?在传感器场景下如何判断当前点是否异常?

这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图,而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时,应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度,并区分点异常、上下文异常和持续漂移。

如何评价并落地 AI 辅助开发:它能提升哪些开发环节,开发者仍必须承担哪些工程责任?

这道题考候选人对 AI 编程工具的工程判断。好答案要说明 AI 能提升需求拆解、代码阅读、样板代码、测试、排错和文档效率,也要明确架构决策、正确性、安全、隐私、性能、代码审查和最终交付责任仍在开发者。

同题还出现在 1 个公司岗位

推荐系统的召回、排序和重排链路如何理解?

这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统:召回负责从海量候选中高覆盖地捞出可能感兴趣的内容,排序负责用特征和模型估计用户行为价值,重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束,同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。

同题还出现在 1 个公司岗位

DCN 和 DeepFM 的特征交叉机制有什么异同?

DCN 和 DeepFM 都用于稀疏特征推荐排序,都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉,再用 DNN 隐式学习高阶非线性交叉;DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉,得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统中多任务学习有哪些常见结构,PLE 主要优化了共享底座或 MMoE 的哪些问题?

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家,并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征,主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同,推荐模型如何用增量学习或 PPNet 做适配?

这题的关键是小样本场景不是简单“数据少”,而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型,容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator,对底层网络的 hidden units 或专家输出做个性化缩放,让主模型共享大样本知识,小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统中用召回模型蒸馏粗排模型时,如何评价蒸馏后的召回效果?

这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧,使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性,因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖:离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式,如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。

在 OCPX 广告系统中,bid 出价如何参与广告混排,混排逻辑应放在排序侧还是出价侧?

这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格,而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号;它最终要进入广告候选的价值计算,例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定,也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是:出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号;排序/混排侧负责在用户请求上下文中融合广告和自然内容,综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧,但需要消费出价侧产出的价值信号,并把曝光、点击、转化和消耗反馈回出价系统形成闭环。

用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别?

这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架,理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化;用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征,模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标,并说明增长算法不能只追短期转化,否则可能造成补贴浪费、用户打扰和长期留存受损。

LLM 解码中的 top-k 和 top-p 采样分别如何实现,如何影响多样性、复读和生成稳定性?

这题考的是候选人是否真正理解生成式解码,而不是只会背 top-k、top-p 名词。来源只支持“美团 Agent 算法面试中问到 topk/topp 实现原理”,因此回答应聚焦通用 LLM 推理机制,不扩展成任何美团内部解码策略。高质量回答要讲清 logits 处理、候选集合截断、概率重归一化、随机采样,以及这些参数如何改变尾部 token 风险、多样性、复读和事实稳定性。

设计 AI 驱动的个性化推荐系统时,如何在推荐准确性、实时性、计算成本和用户体验之间取舍?

这题考推荐系统产品经理的系统取舍能力。回答要把准确性、实时性、计算成本和用户体验放在同一个推荐链路里讨论,通过召回、粗排、精排、重排、缓存、降级和实验指标做分层决策,而不是简单说模型越准越好。

把大模型 API Demo 落地到真实业务时,产品经理应如何筛选需求、接入数据、评估效果,并控制工程化上线风险?

这题考把大模型 API Demo 从“能演示”推进到“能稳定服务真实业务”的产品落地能力。回答要覆盖需求筛选、业务数据接入、效果评估、灰度上线、成本延迟、模型不确定性和工程兜底,而不是只讲调用了某个模型接口。

AI 产品项目中,产品经理如何处理数据隐私、用户画像偏见和伦理风险,并把合规、评估与用户体验纳入方案?

这题考 AI 产品经理能否把隐私、偏见和伦理风险纳入产品方案,而不是把它们当成法务或算法团队的后置检查。回答要覆盖数据最小化、用户授权、画像偏差、公平性评估、解释与申诉、合规审计和体验设计。

美团外卖用 AI 优化配送路径时,产品经理如何设计实验来比较不同算法对履约效率、成本、稳定性和用户体验的影响?

这题考 AI 路径优化实验设计能力。回答重点是先做离线回放和仿真,再做受控线上实验;指标要同时覆盖履约效率、配送成本、稳定性、骑手与用户体验,并处理调度网络中的干扰效应和安全护栏。

为电商 AI 产品定义 KPI 时,产品经理如何选择点击率、转化率、留存、GMV、成本和体验护栏,并持续监控指标漂移?

这题考电商 AI 产品的指标体系和持续监控能力。回答不能只说点击率优化,而要建立从曝光、点击、转化、GMV、利润、留存、体验、成本到模型漂移的完整 KPI 框架,并说明如何发现和处理指标漂移。

VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时,如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复?

这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”,而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位:模型是没有看视觉信息,还是看了但对齐差,还是评测集暴露了特定幻觉类型。

构建大模型预训练语料时,如何用 OCR 和版面分析处理 PDF 公式、双栏排版与阅读顺序,并保证语料质量?

这题考的是把 PDF 论文、教材、技术文档转成大模型预训练语料的工程闭环。高质量回答不能只说 OCR,而要覆盖 PDF 类型识别、版面检测、公式识别与表示、双栏阅读顺序恢复、去重和质量过滤,以及用人工标注集和下游训练信号评估语料是否真正可用。