为什么 SVM 有效，如何推导其原理？｜拼多多算法面经解析

60 秒回答模板

SVM 的目标是在可分数据中找到一个超平面，让两类样本到分割面的几何间隔最大。把分类约束写成 y_i(w·x_i+b) >= 1，最大化间隔等价于最小化 1/2||w||^2。不可完全可分时加入松弛变量和惩罚系数 C。通过拉格朗日乘子可得到对偶问题，最终决策函数只依赖支持向量。核函数把内积替换为高维特征空间内积，使模型能处理非线性边界而不显式计算高维映射。

考点 最大间隔

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

最大间隔思想

SVM 不只找一条能分开的线，而是找离最近样本最远的分割超平面。间隔越大，模型对小扰动越不敏感，泛化通常更稳，这就是最大间隔的直觉。

约束优化形式

线性可分时约束为 y_i(w·x_i+b) >= 1，目标是最小化 1/2||w||^2。这个目标等价于最大化几何间隔。

软间隔和 C

真实数据往往不可完全可分，软间隔加入松弛变量允许少量样本违反间隔。C 控制间隔宽度和误分类惩罚之间的权衡，决定模型偏硬还是偏宽松。

对偶和支持向量

通过拉格朗日对偶，模型参数可表示为训练样本的加权组合。只有拉格朗日乘子非零的样本影响边界，它们就是支持向量，因此模型具有稀疏决策特征。

核技巧处理非线性

核函数把样本内积替换成高维特征空间内积，让模型获得非线性分类能力，同时避免显式构造高维特征，这是 SVM 能处理复杂边界的重要原因。

易错点

不要只说 SVM 是分类器，要讲最大间隔目标。
不要把核技巧说成真的显式升维，计算通常通过核函数完成。
不要忽略软间隔，真实数据很少完全线性可分。

面试官追问

C 参数太大或太小会怎样？

C 太大更重视训练错误，间隔可能变窄并过拟合；C 太小更重视宽间隔，可能欠拟合。

为什么只有支持向量决定模型？

非支持向量的对偶系数为 0，不出现在最终决策函数中，对分割面没有直接贡献。

SVM 的缺点是什么？

大规模训练成本高，对核函数和参数敏感，概率输出不天然，需要额外校准。