周志华新作《机器学习理论导引》阅读攻略( 四 )


接下来书里介绍了一致性理论 , 同样是聚焦训练集 , 但这一次开了一个很大的脑洞 。工业界有个说法 , 如果模型效果不行 , 首先要做的是多收集数据 。多收集数据在实践上效果确实好 , 所以口口相传广为人知 , 但大家在用的时候肯定都很关心 , 到底什么样的模型才能和数据规模保持这种线性增长关系 , 里面会不会也有个“看脸”的问题 。一致性理论就是假设训练数据不断增加 , 最后趋向于无穷的过程中 , 学习算法通过训练是否趋向于贝叶斯最优分类器 。简单来说 , 一致性研究的就是哪些模型适合通过无脑堆数据来提升预测效果 。
接下来的第7章的收敛率 , 研究的是模型训练阶段的优化问题 , 这是个实践中非常重要的问题 。我在《机器学习算法的数学解析和实现》中介绍 , 模型训练很像马戏团训练动物 , 是通过反馈奖励来进行 , 具体的目标就是使得损失函数最小化 。那怎么达到最小化呢?这就是个优化问题 , 最常见的就是选择梯度下降法 。
但是 , 纸上得来终觉浅 , 一到实践你就会发现 , 是不是选择了梯度下降法就万事大吉呢?不是 , 还有一个收敛问题 。首先梯度并不是一定就肯乖乖下降 , 还有可能上升 , 这就是非常叫人讨厌的梯度爆炸 , 更常见的问题是另一种 , 就是梯度虽然下降 , 但下降得非常慢 , 两百年过去了才降一点点 , 使得训练时间非常长 。这些就是收敛问题 , 包括两个方面内容 , 一是什么条件才能够收敛 , 也就是收敛条件 , 另一个则是本书第7章要介绍的收敛率 , 也就是收敛的速度如何 。
【周志华新作《机器学习理论导引》阅读攻略】最后一章第8章 , 介绍的是遗憾界 。遗憾英文 , 是一项性能评价指标 , 大家也许听到的不多 , 觉得有点陌生 , 这也不奇怪 , 因为这一章已经跨出了机器学习的传统范畴 , 进入到在线学习的领域 。遗憾()主要是用来评价在线学习 。在线学习的训练方法和我们熟悉的不太一样 , 所谓在线学习 , 就是用于训练的数据集一直在不断动态更新 , 这和我们熟悉的用一块静态数据作为训练集来训练模型的方式不太一样 , 训练目标也从最小化损失函数 , 变成了最小化累计损失 。因此 , 评价模型效果的指标也有所区别 , 使用的是比较结果 , 具体来说 , 是在线损失与离线算法的最小损失的差值 , 这就是遗憾 。研究遗憾的取值边界 , 这就是本章重点关注的遗憾界问题 。