公司题库

美团面经题库第 2 页

140 道题 8 个岗位 123 个标签

美团相关面试题第 2 页

电商补贴/优惠券场景中,新增优惠券特征后如何设计模型目标,避免购买倾向与券价值关系失真?

这道题考察优惠券进入购买倾向模型后,如何避免模型把“高券发给低意向用户”的历史策略误学成券越大越不想买。回答要围绕目标定义、券价值归一化、单调约束、选择偏差校正、校准评估和补贴 ROI,而不是罗列电商 CTR/CVR 特征。

Agent 微调中如何选择和清洗训练样本,哪些样本质量问题最容易改变模型行为?

这题考 Agent 微调数据的样本选择与清洗能力。与普通 SFT 不同,Agent 样本不仅有问答文本,还包含意图、计划、工具选择、参数、工具结果、状态变化、安全边界和最终回复。回答要说明哪些样本值得训练、哪些噪声会改变模型行为,以及如何用指标验证。

同题还出现在 1 个公司岗位

如果项目要基于 Claude Code 这类现成 Agent 做领域适配,如何设计数据边界、工具接入、RAG、评测和监控?

这道题考察如何把现成 Coding Agent 或通用 Agent 平台做成某个业务域可用的工程系统。回答不能停留在“加提示词”或“接几个工具”,而要围绕数据边界、权限隔离、工具契约、领域知识 RAG、任务流程、评测集、灰度发布、监控和人工接管设计。重点是让通用 Agent 只在授权数据和明确工具能力内行动,用可回放、可评测、可审计的方式逐步扩大自主能力。

在现有 LangGraph Agent 上新增功能时,如何设计节点、边、state schema、工具注册和回归测试?

这题考的是把 Agent 功能扩展做成可维护的状态机工程,而不是在一个大 prompt 或一个大节点里继续堆逻辑。高质量回答应说明如何先界定新功能的触发条件和输出契约,再决定是否新增节点、边、state 字段和工具,并用可回放测试证明新增路径没有破坏原有 Agent 行为。

Agent 项目中的 harness engineering 是什么,如何支撑工具模拟、回放、评测、回归和线上前验证?

这题考的是 Agent 工程里的验证基础设施意识。harness engineering 不是写几个单测,而是为不稳定的模型输出、外部工具、副作用和多轮状态机建立可控运行环境,让开发者能模拟工具、回放真实轨迹、做离线评测、跑回归并在上线前发现风险。

当 Agent 有 100 个 Tool 时,如何做工具分组、动态子集检索、schema 治理、监控和 meta-tool/Skill 收口?

这题考的是大规模工具接入后的 Agent 治理能力。100 个 Tool 不能简单全部塞进模型上下文,否则会带来选择混乱、token 成本、schema 冲突、误调用和监控不可解释。好的回答应从工具分类、检索式候选集、契约治理、调用观测和能力收口几层展开。

同题还出现在 1 个公司岗位

Agent 工具调用训练中,如果一个 query 有多个可用工具,如何构造样本让模型学会工具选择偏好?

这道题考察的是 Agent 工具调用训练里的偏好学习,而不是简单判断某个工具能不能用。好答案要说明:当多个工具都可完成同一 query 时,训练样本不能只保留一个正确 tool call,而要把候选工具、选择理由、约束条件、反事实样本和评价指标都设计出来,让模型学会在成本、延迟、稳定性、精度、覆盖范围和任务阶段之间做取舍。

Agent 设计中为什么要区分自然语言对话状态和结构化执行状态,分别存什么?

这道题考察 Agent 状态管理的边界意识。高质量回答要把自然语言对话状态和结构化执行状态分开:前者服务于模型理解上下文、用户意图和交互语义;后者服务于工作流执行、工具调用、恢复、审计和一致性控制。两者相互映射但不能混成一大段聊天记录,否则系统会难以恢复、难以测试,也容易产生幻觉状态。

开发 MCP 服务时,如何设计 resources/tools/prompts、输入输出 schema、权限和可观测性?

这道题考察的是 MCP 服务的能力建模和治理能力,而不是会不会写一个 HTTP endpoint。好答案要从 resources、tools、prompts 三类能力暴露开始,定义清晰的输入输出 schema、权限和错误语义,再补上发现机制、版本兼容、超时重试、可观测性、回放和审计,保证 Agent 能安全、稳定、可追踪地使用 MCP 服务。

LoRA 和全参数微调如何按任务迁移幅度、显存成本和 target modules 做选择?

这道题考察微调方案选择,而不是背 LoRA 和全参数微调定义。好答案要先讲机制差异:LoRA 冻结基座模型,只训练低秩增量矩阵;全参数微调更新所有权重。再根据任务迁移幅度、数据规模、显存和训练成本、灾难性遗忘风险、部署方式、target modules 和 rank 选择方案,并说明如何用实验指标验证是否足够。

DPO、PPO、GRPO 三种对齐方法在工程上如何选择,各自适合什么反馈和决策场景?

这题考的是候选人能否把 DPO、PPO、GRPO 从“算法名词”落到工程选择。好答案要先按反馈形态和决策场景分类:只有离线成对偏好时优先 DPO;有可训练奖励模型、在线采样和长链动作优化需求时考虑 PPO;同一 prompt 能采多条候选并用组内相对奖励比较,尤其是可验证任务或推理题时适合 GRPO。还要讲清 reward hacking、KL 漂移、长度偏置、探索成本、训练稳定性和评估指标。

同题还出现在 2 个公司岗位

CUDA 算子优化后如何做公平 benchmark,排除硬件和精度差异,并证明性能提升真实有效?

这题考 CUDA 算子优化后的性能证明能力。好答案要建立公平 benchmark:固定硬件、驱动、CUDA/cuDNN/cuBLAS 版本、dtype、shape、batch、warmup、stream、同步点和统计方法;排除异步计时、首次编译、温度降频、不同 GPU 架构和精度算力差异;再用 Nsight/NCU 证明瓶颈从访存、计算、occupancy、launch 或同步角度确实改善,并用精度回归和端到端指标证明收益真实。

如何手写 Multi-Head Self-Attention,Q/K/V 投影、分头、mask 和输出拼接如何实现?

这题考 Transformer 注意力层的可实现细节。好的回答不能只背公式,而要讲清输入输出形状、Q/K/V 一次投影或三次投影、head 维度拆分、scaled dot-product attention、padding/causal mask 广播、softmax/dropout、head 合并、输出投影以及常见数值和 shape bug。

同题还出现在 1 个公司岗位

推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模?

这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明:Transformer 适合把用户历史行为编码成带上下文的序列表征,DIN 的价值在于针对当前候选物品做 target-aware attention;工程上不能只拿一个全局向量,要处理时间因果、候选量、缓存、延迟和线上线下一致。

推荐系统中的用户画像和特征工程如何实现,怎样保证训练样本与线上特征口径一致?

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段,而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性,否则很容易出现泄漏、口径漂移和线上效果回退。

Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。

RAG 和 Embedding 分别是什么,在大模型应用中各自解决什么问题?

这道题看似是定义题,实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量,RAG 是检索增强生成架构;RAG 常用 embedding 做召回,但不等于向量库加大模型,还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?

这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

Transformer 的核心结构和自注意力原理是什么?

Transformer 的核心结构和自注意力原理是什么?这道腾讯牛客题的关键是围绕“Transformer 结构与自注意力”讲清概念、机制、取舍和边界。Transformer 的核心由多头自注意力、前馈网络、残差连接、LayerNorm 和位置编码组成。自注意力通过 Q、K、V 计算 token 之间的相关性,再用相关性加权聚合值向量。

同题还出现在 1 个公司岗位