SVM笔记四之线性支持向量机(软间隔最大化)
线性支持向量机
线性支持向量机将数据分类扩展到线性不可分情况。这需要修改硬间隔最大化,使其成为软间隔最大化。
训练集格式T
其中
假设数据集中有一些特异点,这些特异点不是线性可分的,但是去除这些特异点之后大部分数据依旧是线性可分的。
线性不可分意味着某些样本点 不可能满足函数间隔大于1的情况,即
这个问题的解决办法是,对每个样本点 引进一个松弛因子 ,即
原来的目标函数,引入正则化:
这里 是惩罚因子, 值大的时候对误分类的惩罚增大, 有两层含义,使得间隔尽可能小,使得误分类点尽可能大。
那么现在的带有约束的目标函数如下:
开始线性支持向量机(软间隔最大化)的推导过程
根据
这个带约束的目标函数,我们写出对应的拉格朗日函数
对偶问题为拉格朗日函数极大极小问题,我们分别对 求导:
得到如下结论:
将最小值自变量取值情况带回拉格朗日函数
在对其求极大,得到对偶问题最后形式:
进一步化简:
根据
可得到:
我们最后要优化的结果是:
结论,假如我们得到了最优的拉格朗日乘子: 。那么可得到线性分类超平面参数
满足的KKT条件:
分离超平面为:
分类决策函数为: