DNN 与传统机器学习方法有什么不同？为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势？｜百度算法面经解析

60 秒回答模板

我会从特征、模型能力和训练方式三个层面回答。传统机器学习方法，比如线性模型、SVM、树模型、GBDT，通常更依赖人工特征工程：人先把原始数据加工成统计特征、交叉特征、离散特征或领域特征，模型再在这些特征上学习决策边界。DNN 的不同在于它可以通过多层非线性变换做表示学习，把原始或半原始输入逐层组合成更抽象的特征，以视觉任务为例可以从边缘组合到部件再到对象，文本里可以从 token 到语义表示，推荐里可以从稀疏 ID 到 embedding 再到交互表示。它的优势在于表达能力强、可端到端训练、能处理高维稀疏和非结构化数据，也能通过预训练、多任务和迁移学习复用大规模数据中的模式。但 DNN 不是万能的：它通常需要更多数据、算力和调参，对过拟合、分布漂移、解释性、延迟和可维护性更敏感；在很多中小规模结构化表格任务上，GBDT 或线性模型可能更稳、更快、更好解释。面试时我会强调选择标准：如果数据是视觉、语音、文本、序列、多模态或大规模稀疏特征，DNN 往往更有优势；如果是样本少、特征强、业务要求可解释和快速迭代的表格任务，传统模型可能更合适。评估上要用统一切分、同一指标和消融实验比较，而不能因为 DNN 更复杂就默认更好。

考点 DNN 学表示

难度 真实面经题

回答目标 让面试官看到你既理解 DNN 的表示学习优势，也知道模型选择要服从数据形态、业务约束和实验验证。

深入解析

核心差异是表示学习

传统机器学习通常依赖人工设计特征，模型主要学习特征到标签的映射。DNN 可以把特征学习也纳入模型，通过多层网络自动学习 embedding、局部模式、组合关系和高阶交互。

DNN 的非线性组合能力更强

多层网络叠加非线性激活后，可以表达复杂函数和层次化结构。相比线性模型或浅层模型，它更适合图像、语音、文本、序列和多模态这类原始信号复杂、人工特征难穷尽的任务。

端到端训练减少手工链路

DNN 可以把特征提取、表示变换和预测目标放在一个可微系统里，用反向传播一起优化。这样能减少多阶段手工特征和规则之间的不一致，但也要求数据、标签、损失函数和训练稳定性都比较可靠。

预训练和迁移是重要优势

深度模型可以先在大规模数据上学习通用表示，再迁移到下游任务。这让文本、视觉、语音等任务不必完全从零开始，少量标注数据也能借助预训练表示获得较好效果。

传统模型仍有强优势场景

在小数据、结构化表格、特征含义清晰、上线延迟敏感、需要强解释性的场景，线性模型、决策树、随机森林、GBDT 往往更稳。面试时不能把传统机器学习说成落后方法。

DNN 的代价是数据和工程复杂度

DNN 参数多，容易过拟合，对学习率、初始化、归一化、正则化和 batch 设置敏感。上线还要考虑推理延迟、显存、监控、可解释性、模型压缩和分布漂移。

比较模型要做公平实验

判断 DNN 是否更优，要用相同训练验证切分、相同指标、强基线、消融实验和误差分析。除了 AUC、F1、RMSE 等主指标，也要看校准、稳定性、线上延迟和不同人群或场景的分层效果。

易错点

把 DNN 简单说成层数更多、效果一定更好，没有讲表示学习和端到端优化。
贬低传统机器学习，忽略 GBDT、线性模型在小数据和结构化任务上的优势。
只讲模型表达能力，不讲数据量、算力、延迟、可解释性和工程维护成本。
比较模型时没有强基线、统一切分和消融实验，导致结论不可验证。
认为 DNN 自动学习特征就不需要数据清洗、特征理解和错误分析。

面试官追问

为什么 DNN 在图像和文本上更有优势？

因为图像和文本的有效特征很难完全人工枚举。DNN 可以通过卷积、注意力、embedding 等结构学习局部模式、上下文关系和高层语义表示，端到端把原始输入映射到任务目标。传统模型也能做这些任务，但通常需要大量人工特征或依赖预先提取的表示。

为什么很多表格任务 GBDT 仍然很强？

表格数据通常样本量中等、字段含义明确、缺失和类别特征多、非线性分裂很重要。GBDT 对这些特征处理稳健，训练成本低，可解释性和调参效率较好。DNN 在表格任务上需要更多数据和结构设计，否则不一定超过 GBDT。

DNN 的端到端训练有什么风险？

端到端会把多个环节一起优化，优点是减少人工链路误差，风险是错误更难定位。数据泄漏、标签噪声、损失函数不合适、梯度不稳定或某个输入分布变化，都可能影响整体结果，所以需要消融、监控和可解释分析。

如何证明 DNN 比传统模型真的好？

先建立强传统基线，比如 LR、Random Forest、XGBoost 或 LightGBM，再保证相同数据切分和同一指标。然后比较主指标、分层指标、置信区间、线上 A/B、推理成本和稳定性，并做特征或模块消融，证明收益来自模型能力而不是数据处理差异。

DNN 更容易过拟合时怎么办？

可以增加数据或数据增强，使用预训练，加入 L2、Dropout、Early Stopping、BatchNorm 或 LayerNorm，降低模型规模，做交叉验证和分层验证。更重要的是检查训练验证差距、标签噪声和数据泄漏，而不是盲目加层。