真实面经题目 · 原创解析
为什么 SVM 有效,如何推导其原理?
SVM 有效的核心是最大间隔思想、结构风险最小化和核技巧;推导时从几何间隔、约束优化、拉格朗日对偶和支持向量讲起。
出现于:拼多多 · 算法
真实面经题目 · 原创解析
SVM 有效的核心是最大间隔思想、结构风险最小化和核技巧;推导时从几何间隔、约束优化、拉格朗日对偶和支持向量讲起。
SVM 的目标是在可分数据中找到一个超平面,让两类样本到分割面的几何间隔最大。把分类约束写成 y_i(w·x_i+b) >= 1,最大化间隔等价于最小化 1/2||w||^2。不可完全可分时加入松弛变量和惩罚系数 C。通过拉格朗日乘子可得到对偶问题,最终决策函数只依赖支持向量。核函数把内积替换为高维特征空间内积,使模型能处理非线性边界而不显式计算高维映射。
SVM 不只找一条能分开的线,而是找离最近样本最远的分割超平面。间隔越大,模型对小扰动越不敏感,泛化通常更稳,这就是最大间隔的直觉。
线性可分时约束为 y_i(w·x_i+b) >= 1,目标是最小化 1/2||w||^2。这个目标等价于最大化几何间隔。
真实数据往往不可完全可分,软间隔加入松弛变量允许少量样本违反间隔。C 控制间隔宽度和误分类惩罚之间的权衡,决定模型偏硬还是偏宽松。
通过拉格朗日对偶,模型参数可表示为训练样本的加权组合。只有拉格朗日乘子非零的样本影响边界,它们就是支持向量,因此模型具有稀疏决策特征。
核函数把样本内积替换成高维特征空间内积,让模型获得非线性分类能力,同时避免显式构造高维特征,这是 SVM 能处理复杂边界的重要原因。
C 太大更重视训练错误,间隔可能变窄并过拟合;C 太小更重视宽间隔,可能欠拟合。
非支持向量的对偶系数为 0,不出现在最终决策函数中,对分割面没有直接贡献。
大规模训练成本高,对核函数和参数敏感,概率输出不天然,需要额外校准。