拼多多面经题库｜公司岗位面试题解析

图像滤波可以从空间域和频域两条线理解：空间域里，卷积核在局部邻域加权求和，改变每个像素与周围像素的关系；频域里，卷积等价于频谱相乘，滤波器是在保留或抑制不同频率成分。低频通常对应缓慢变化的亮度和大块结构，低通滤波会平滑噪声和细节；高频通常对应边缘、纹理和突变，高通或梯度滤波会强化轮廓但也可能放大噪声。

计算机视觉算法矩阵性能排查

拼多多 / 算法

GPU 推理中 depthwise / separable convolution 为什么可能变慢，为什么常被判断为访存密集型算子？

这题考 GPU 推理中 depthwise / separable convolution 为什么容易 memory-bound。它虽然显著降低 FLOPs，但 activation 读写没有同比减少，算术强度低，无法充分利用 GPU 计算吞吐，瓶颈常转向显存带宽、cache locality 和 kernel launch。

神经网络 GPU CUDA 性能排查大模型推理

拼多多 / 算法

推理优化中为什么可以做 Conv+BN 融合，融合后的权重和偏置公式如何推导？

这题考推理态算子融合的数学等价性和工程收益。BN 在 inference 时使用固定 running mean/variance，是逐输出通道仿射变换，所以可以吸收到前一层卷积的权重和偏置里，减少算子调度和中间 tensor 读写。

神经网络大模型推理模型评估性能排查

拼多多 / 算法

推理框架中卷积算子通常有哪些实现方式，如何按输入形状、硬件和延迟目标选型？

这题考推理框架里的卷积实现谱系，而不是卷积数学定义。回答要覆盖 direct、im2col/GEMM、implicit GEMM、Winograd、FFT、1x1/depthwise/group 专用 kernel，并说明选型受形状、batch、硬件、内存带宽、精度和端到端延迟影响。

神经网络大模型推理模型评估性能排查

拼多多 / 数据分析

除了传统 RFM 模型，如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群？

这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM，而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群，并用离线稳定性指标和线上业务实验共同证明分群有价值。

数据分析特征工程统计学模型评估业务指标

拼多多 / 算法

构建 AI Agent 时，Memory 机制通常如何分层设计，短期上下文、长期记忆和检索注入分别解决什么问题？

这题考察的是候选人是否理解 Agent Memory 不是一个简单向量库，而是一套分层状态管理和检索注入机制。回答要区分短期上下文、工作记忆、长期记忆、外部知识检索和写入更新策略，并说明每层解决的问题、成本权衡、失效模式和评估方法。

AI Agent 大语言模型状态管理 RAG 向量数据库

拼多多 / 数据分析

如何缓解过拟合？

缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答，核心是降低模型对训练集噪声和偶然模式的依赖。

同题还出现在 1 个公司岗位

模型训练正则化模型评估

拼多多 / 数据分析

从数据分析角度，推荐模块应如何用指标衡量效果，如何覆盖曝光、点击、转化、留存、GMV、供需和长期体验？

这题考数据分析师能否为推荐模块搭建完整指标体系：既覆盖曝光点击转化，也能解释 GMV、供需、用户体验和长期留存，而不是只报 CTR。

推荐系统数据分析产品指标业务指标模型评估

拼多多 / 数据分析

面对羊毛党，推荐模块应如何识别风险、调整排序策略并兼顾平台转化和正常用户体验？

这题考的是数据分析师能否把羊毛党问题放到推荐系统里处理：既识别风险和控制补贴损失，也避免误伤正常用户和损害推荐体验。

推荐系统数据分析业务指标产品指标

拼多多 / 数据分析

作为数据分析师，遇到辛普森悖论导致汇总数据和分层数据结论相反时，应如何判断和处理？

这题考辛普森悖论下的数据判断能力，重点不是机械选择汇总或分层，而是先确认业务问题、分层变量是否为混杂因素，再用因果和实验思路给出可执行结论。

数据分析统计学业务指标 A/B 测试因果推断

拼多多 / 数据分析

关注页上线新的排序方案时，如何通过 A/B 测试选择更优方案，并设计核心指标、护栏指标和分层分析？

关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标：核心看关注页消费和互动提升，护栏看负反馈、留存、整体体验、创作者曝光和系统性能，并通过分层分析、显著性检验和长期观察决定是否上线。

同题还出现在 1 个公司岗位

A/B 测试推荐系统数据分析产品指标统计学

拼多多 / 算法

大模型反欺诈项目从开发、测试到部署应如何设计流程，Agent 框架选型需要关注哪些工程约束？

这题考大模型反欺诈项目的端到端工程化能力，不是只问“用了哪个 Agent 框架”。高质量回答要从业务边界、数据合规、Agent 工具链、离线评测、测试门禁、灰度部署、监控回流和框架选型约束讲清楚，体现反欺诈场景对准确性、可解释性、安全和稳定性的要求。

大语言模型 AI Agent 系统设计模型评估质量工程安全

拼多多 / 算法

分词算法有哪些？

分词算法解决的是把连续文本切成有意义的词或子词单位。中文没有天然空格，因此分词既要处理词典匹配，也要处理歧义、未登录词、新词、专名、领域词和下游任务适配。常见算法包括基于词典的正向/逆向/双向最大匹配、DAG 加动态规划、HMM/CRF 序列标注、统计语言模型、深度学习序列标注，以及 BPE、WordPiece、SentencePiece 等子词切分方法。

同题还出现在 2 个公司岗位

算法数据结构

拼多多 / 数据分析

因果推断中，无法获取随机对照数据时如何估计因果效应？

没有随机对照数据时估计因果效应，需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析，但结论可信度依赖假设。

同题还出现在 1 个公司岗位

因果推断统计学 Uplift 模型

拼多多 / 数据分析

拼多多处于流失风险期的用户，如何用自动化数据策略做召回？

这题考用户生命周期运营里的风险识别、自动化策略和实验闭环，不是简单问“给流失用户发券”。高质量回答要先定义拼多多场景下的流失风险期，再说明如何用行为、交易、品类偏好和价格敏感度打分分层，最后讲触达时机、召回权益、推荐内容、实验 holdout、召回后留存和打扰护栏。

数据分析用户增长增长运营业务指标

拼多多 / 数据分析

拼多多美妆百亿补贴专场，如何用数据分析辅助选品？

这题考拼多多百亿补贴美妆专场的经营分析能力。答案不能只说选销量高的商品，而要围绕选品池、补贴优先级和经营护栏展开：既看人群需求、品牌信任、价格力、历史转化、搜索收藏趋势，也要算毛利和补贴 ROI、库存履约、退货差评、正品风险和售后承压。

数据分析电商业务指标增长运营

拼多多 / 算法

OpenCL/GPU kernel 为什么要尽量减少分支，掩码写法如何影响 SIMT/SIMD 执行效率和有效吞吐？

这题考 GPU/OpenCL 高性能实现里的分支发散和掩码写法。高质量回答要说明 work-item 在 subgroup/warp/wavefront 内锁步执行，分支不一致会串行执行不同路径并屏蔽 inactive lane，从而降低有效吞吐。

Java 并发并发多线程 GPU 性能排查大模型推理

拼多多 / 产品运营

资源有限时，增长运营如何用广告投放 ROI 平衡投放规模与效果？

这道题考察增长运营在资源有限时是否理解投放 ROI 的边际收益逻辑。广告投放不是简单追求最高 ROI，也不是盲目放量，而是在预算、库存、团队能力和商业目标约束下，寻找“规模增长”和“单位效率”的平衡。关键框架是区分平均 ROI 与边际 ROI：小预算高 ROI 不代表可放量，预算扩大后流量质量下降、频次上升、竞价成本上升，ROI 往往递减。好答案需要覆盖预算分层、实验放量、止损线、利润口径、LTV 口径和 portfolio 管理。

增长运营广告产品业务指标数据分析商业化

拼多多 / 数据分析

拼多多 App 百亿补贴频道转化率连续 3 天下跌，数据分析师应如何一步步定位原因？

这道题考察数据分析师处理核心频道转化异常的结构化能力。好的回答要从指标口径和数据质量开始，确认连续 3 天下跌是否真实，再拆百亿补贴频道的访问、商品曝光、点击、加购或拼单、下单、支付等漏斗，定位第一处异常。随后按流量来源、用户分层、商品供给、价格补贴、库存履约、推荐排序、页面性能、支付登录和活动竞争等维度归因，最后给出影响量级、责任 owner、验证方案和恢复监控。

数据分析电商业务指标指标体系

拼多多 / 后端开发

AI 语音交互的技术流程是什么？

这题考的是语音交互链路的组件职责：从录音、唤醒、降噪和端点检测开始，经 ASR 转写、语义理解/对话管理、业务执行和回答生成，再到 TTS 播放、打断处理和日志反馈闭环。

同题还出现在 1 个公司岗位

AI 产品产品管理大语言模型模型评估