吃瓜有感-机器学习西瓜书摘要5

学习周志华老师《机器学习》西瓜书第六章支持向量机 摘要及笔记 。
间隔与支持向量
【吃瓜有感-机器学习西瓜书摘要5】分类学习的基本想法就是基于训练集D在样本空间中找到平面,将不同类别样本分开 。鲁棒性最好的,泛化能力最强的划分超平面应该是位于两类样本正中间的超平面 。
距离超平面最近的几个点能使式6.3中的等号成立,它们被称为特征向量 。两个异类支持向量到超平面的距离之和称为间隔 。支持向量机的基本型就是最小化

对SVM的基本型应用拉格朗日乘子法可得“对偶问题”,可以用SMO算法求解 。
核函数与核方法
通过将样本从原始空间升维到高维空间,可以将原本在原始空间不可分的样本得以可分 。通过找到核函数,可以将在特征空间的内积转化到原始样本空间进行计算 。通过半正定的核矩阵,可以找到核函数,核函数隐式定义了一个“再生希尔伯特空间”的特征空间 。“核方法”是一系列关于核函数的方法,通过“核化”将线性学习器拓展到非线性学习器,从而得到“核线性判别分析” 。
软间隔与正则化
支持向量机形式上要求所有样本都必须划分正确,称为“硬间隔”,通过引入“替代损失”与“松弛变量”,允许一定范围内的一些样本不满足约束,即“软间隔支持向量机” 。通过“正则化”引入“结构风险”与“经验风险”,有助于降低最小化训练误差的过拟合风险 。
参考资料:
1.周志华. (2016).机器学习.清华大学出版社,北京.
2.蘑菇汤0.吃瓜笔记Task5.