分页题目
美团相关面试题第 2 页
InfoNCE 的温度系数有什么作用?
温度系数控制 InfoNCE 对相似度差异的敏感程度,本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。
用 GNN 做推荐时,哪些因素最重要?
用 GNN 做推荐最重要的是图怎么构建、边表示什么、节点和边特征是否可靠、采样和聚合如何保留有效邻居、层数如何避免过平滑、训练目标是否贴近排序任务,以及线上是否能承受图更新和推理成本。GNN 的优势在于利用高阶邻居和关系结构,但效果高度依赖图质量。
外卖订单请求刷单识别如何建模?
这道题考察订单请求级风控建模。回答要从标签定义、特征体系、模型链路、阈值策略和反馈闭环展开,重点说明刷单识别不是单纯分类,而是要兼顾实时性、误伤成本、样本偏斜和对抗变化。
Thompson Sampling 和 UCB 在推荐探索中分别适用什么场景,CTR 预估模型如何配合?
这道题考察推荐场景里的探索利用权衡。回答要以 Thompson Sampling 和 UCB 的选择为主轴,把 CTR 预估模型放在奖励估计、特征表征和不确定性建模的位置,而不是展开成 CTR 模型百科。
NLP 模型接入搜索排序链路时,特征接口和上线评测指标如何设计?
这道题考察 NLP 模型从离线效果走向搜索排序链路的工程化边界。回答要覆盖特征接口、排序接入、延迟降级、日志闭环和离线/在线评测,而不是只介绍某个 NLP 模型。
电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?
这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。
MCP 客户端调用服务端工具的完整交互流程是什么?
这题考 MCP 工具调用协议的端到端理解,回答时要按连接握手、工具发现、模型决策、客户端分发、服务端执行、结果回传和安全边界展开。
文生图大模型产品如何制定评估标准,并选择人审还是机审?
这题考文生图产品评估体系设计,回答要覆盖评估维度、样本集、人工与自动评估分工、标准迭代和上线 gate。
AI 产品经理与技术团队对项目实验方向有分歧时,如何沟通并做决策?
这题考 AI 产品经理面对实验方向分歧时的协作和决策能力,重点不是谁说服谁,而是把目标、假设、指标、约束和决策机制显性化。
AI 产品创新探索和业务落地可行性如何平衡?
这题考 AI 产品创新和落地可行性的平衡,回答要体现能力边界、用户场景、MVP、成本风险和分阶段验证。示例只能作为通用说明,不能当作来源事实。
同题还出现在 1 个公司岗位
大模型产品 badcase 标准如何制定,并区分产品、人审和外包评估?
这题考大模型产品 badcase 标准和评估归属。答案要讲失败 taxonomy、严重级别、rubric、采样校准、一致性、人审外包 QA,以及产品和模型迭代闭环。
为什么不直接采用 AI-native 自动化评估,如何判断它的适用边界?
这题考为什么不直接采用 AI-native 自动化评估,以及如何判断适用边界。答案要平衡自动化收益、judge 偏差、金标校准、高风险场景、人审和混合评估。
RAG 知识库来源和拆分逻辑应如何由产品目标定义?
这题考产品视角定义 RAG 知识来源和拆分逻辑。答案要从产品目标、权威来源、用户任务粒度、权限、新鲜度、生命周期、评测和 badcase 反馈展开,不能写成 PDF chunking 工程题。
同题还出现在 1 个公司岗位
多模态大模型应用中,为什么选择 Qwen2.5-VL 做 encoder,如何评估取舍?
这题考多模态模型作为 encoder 的选型取舍,答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。
DeepResearch 类 Agent 如何和 RL 后训练结合,整体训练流程是什么?
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
点评类平台如何用 AI 评论理解同时提升 C 端体验和 B 端商家价值?
这题考点评类平台如何把海量 UGC 评论转成双边价值,回答重点是同时讲清 C 端决策体验、B 端经营改进、可信度和效果衡量。
AI 如何从海量用户评论中帮 B 端商家洞察经营亮点和服务短板?
这题考 AI 如何把海量用户评论转成 B 端商家能理解、能优先级排序、能落地改进的经营洞察,重点是洞察生成、行动闭环和可信评估。
AI 如何赋能本地生活榜单的生成、更新和个性化展示?
这题考 AI 如何参与本地生活榜单的生成、更新和个性化展示,重点是榜单生命周期、信号质量、用户匹配、更新机制和公信力。
AI 生成榜单时如何平衡算法客观性、编辑干预和榜单公信力?
这题考 AI 生成榜单中的信任治理,回答要说明算法客观性、人工编辑干预、透明解释和可审计机制如何一起维护榜单公信力。
AI 如何优化“附近适合 X 的 Y”这类本地生活长尾复杂需求的理解和匹配?
这题考 AI 如何理解“附近适合 X 的 Y”这类本地生活长尾需求,并把模糊场景转成可检索、可匹配、可解释的结果。
AI 如何识别新开业或小众优质商家的成长潜力?
这题考 AI 如何识别新开业或小众优质商家的成长潜力,回答重点是定义潜力、补足冷启动信号、小流量验证、商家成长机会和公平评估。
AIGC 周末出行短攻略或美食探店笔记功能如何快速设计 MVP 并上线测试?
这题考本地生活 AIGC 内容功能如何快速做 MVP 并上线测试,回答要覆盖场景选择、最小功能、质量安全、指标和迭代闭环。
GRPO 的 loss 如何计算,训练数据应如何组织?
这题考 GRPO 的目标函数直觉和训练样本组织方式,重点是同 prompt 多回答、组内相对优势、token logprob 更新和 KL 约束。
从产品经理视角看,垂类大模型训练中能贡献哪些数据、场景、评测和业务闭环?
这题考产品经理在垂类大模型训练中的贡献边界,重点不是讲训练算法细节,而是讲场景定义、数据建设、评测体系和业务闭环。
不同任务应如何设计 Prompt,如何调整指令、示例、输入输出格式和约束?
这题考的是 Prompt 设计方法论:不是背模板,而是能根据任务目标、输入不确定性、输出可验证性和风险边界,系统调整指令、示例、格式和约束。
如何教初学者与大模型交流并写出有效 Prompt?
这题考 AI 产品经理能否把 Prompt 教学设计成可上手的用户教育流程:先建立正确心智,再给结构化提问框架、示例练习、迭代反馈、结果验证和安全边界。
同公司岗位有 2 条面经记录
AIGC 画本产品如何保证角色、风格和场景一致性,ComfyUI 工作流、参考图、种子、ControlNet 和后处理分别起什么作用?
这题考 AIGC 产品经理是否理解图像生成一致性不是单靠提示词,而是由角色设定、参考资产、工作流编排、可控生成、种子复现、后处理和质量评估共同保证。
Spring AI Alibaba Graph 的底层原理是什么,图式编排如何表达 Agent 节点、状态流转、条件分支和工具调用?
这题考察对图式 Agent 编排的理解,重点是状态、节点、边、条件路由、工具调用、失败处理和可测试性,而不是背某个版本的 API。
Agent 微调中如何选择和清洗训练样本,哪些样本质量问题最容易改变模型行为?
这题考 Agent 微调数据的样本选择与清洗能力。与普通 SFT 不同,Agent 样本不仅有问答文本,还包含意图、计划、工具选择、参数、工具结果、状态变化、安全边界和最终回复。回答要说明哪些样本值得训练、哪些噪声会改变模型行为,以及如何用指标验证。
同题还出现在 1 个公司岗位
如果项目要基于 Claude Code 这类现成 Agent 做领域适配,如何设计数据边界、工具接入、RAG、评测和监控?
这道题考察如何把现成 Coding Agent 或通用 Agent 平台做成某个业务域可用的工程系统。回答不能停留在“加提示词”或“接几个工具”,而要围绕数据边界、权限隔离、工具契约、领域知识 RAG、任务流程、评测集、灰度发布、监控和人工接管设计。重点是让通用 Agent 只在授权数据和明确工具能力内行动,用可回放、可评测、可审计的方式逐步扩大自主能力。
在现有 LangGraph Agent 上新增功能时,如何设计节点、边、state schema、工具注册和回归测试?
这题考的是把 Agent 功能扩展做成可维护的状态机工程,而不是在一个大 prompt 或一个大节点里继续堆逻辑。高质量回答应说明如何先界定新功能的触发条件和输出契约,再决定是否新增节点、边、state 字段和工具,并用可回放测试证明新增路径没有破坏原有 Agent 行为。
Agent 项目中的 harness engineering 是什么,如何支撑工具模拟、回放、评测、回归和线上前验证?
这题考的是 Agent 工程里的验证基础设施意识。harness engineering 不是写几个单测,而是为不稳定的模型输出、外部工具、副作用和多轮状态机建立可控运行环境,让开发者能模拟工具、回放真实轨迹、做离线评测、跑回归并在上线前发现风险。
当 Agent 有 100 个 Tool 时,如何做工具分组、动态子集检索、schema 治理、监控和 meta-tool/Skill 收口?
这题考的是大规模工具接入后的 Agent 治理能力。100 个 Tool 不能简单全部塞进模型上下文,否则会带来选择混乱、token 成本、schema 冲突、误调用和监控不可解释。好的回答应从工具分类、检索式候选集、契约治理、调用观测和能力收口几层展开。
同题还出现在 1 个公司岗位
LangGraph 相比 LangChain 在多 Agent 编排中有什么优势,状态快照机制解决什么问题?
这题考多 Agent 编排中框架选型和状态管理能力,回答重点是图式编排、可恢复状态、调试回放、人工介入和长流程可靠性。
同题还出现在 1 个公司岗位
Agent 工具调用训练中,如果一个 query 有多个可用工具,如何构造样本让模型学会工具选择偏好?
这道题考察的是 Agent 工具调用训练里的偏好学习,而不是简单判断某个工具能不能用。好答案要说明:当多个工具都可完成同一 query 时,训练样本不能只保留一个正确 tool call,而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来,让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。
Agent 设计中为什么要区分自然语言对话状态和结构化执行状态,分别存什么?
这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开:前者服务于模型理解上下文、用户意图和交互语义;后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录,否则系统会难以恢复、难以测试,也容易产生幻觉状态。
开发 MCP 服务时,如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性?
这道题考察的是 MCP 服务的能力建模和治理能力,而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始,定义清晰的输入输出 schema、权限和错误语义,再补上发现机制、版本兼容、超时重试、可观测性、回放和审计,保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。
LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择?
这道题考察微调方案选择,而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异:LoRA 冻结基座模型,只训练低秩增量矩阵;全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案,并说明如何用实验指标验证是否足够。
DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?
这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。
同题还出现在 2 个公司岗位
CUDA 算子优化后如何做公平 benchmark,排除硬件和精度差异,并证明性能提升真实有效?
这题考 CUDA 算子优化后的性能证明能力。好答案要建立公平 benchmark:固定硬件、驱动、CUDA/cuDNN/cuBLAS 版本、dtype、shape、batch、warmup、stream、同步点和统计方法;排除异步计时、首次编译、温度降频、不同 GPU 架构和精度算力差异;再用 Nsight/NCU 证明瓶颈从访存、计算、occupancy、launch 或同步角度确实改善,并用精度回归和端到端指标证明收益真实。
如何手写 Multi-Head Self-Attention,Q/K/V 投影、分头、mask 和输出拼接如何实现?
这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式,而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。
同题还出现在 1 个公司岗位
推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模?
这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明:Transformer 适合把用户历史行为编码成带上下文的序列表征,DIN 的价值在于针对当前候选物品做 target-aware attention;工程上不能只拿一个全局向量,要处理时间因果、候选量、缓存、延迟和线上线下一致。
推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?
这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。
Word2Vec 负采样为什么能加速训练,训练目标如何理解?
这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词,而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习,每个正样本只更新少量负例,从而把复杂度从 O(|V|) 降到 O(K),同时学到可用于相似性和共现关系的 embedding。
Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?
这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。
RAG 和 Embedding 分别是什么,在大模型应用中各自解决什么问题?
这道题看似是定义题,实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量,RAG 是检索增强生成架构;RAG 常用 embedding 做召回,但不等于向量库加大模型,还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。
推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?
这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。
同题还出现在 2 个公司岗位
Transformer 的核心结构和自注意力原理是什么?
Transformer 的核心结构和自注意力原理是什么?这道腾讯牛客题的关键是围绕“Transformer 结构与自注意力”讲清概念、机制、取舍和边界。Transformer 的核心由多头自注意力、前馈网络、残差连接、LayerNorm 和位置编码组成。自注意力通过 Q、K、V 计算 token 之间的相关性,再用相关性加权聚合值向量。
同题还出现在 1 个公司岗位