归纳偏好 _机器学习

文章目录基本术语归纳偏好
机器学习
机器学习：致力于研究如果通过计算的手段，利用经验来改善系统自身的性能
在计算机系统中， “经验” 通常以 “数据” 形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生 ”模型“ (model) 的算法，即 ”学习算法“ ( ).
有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时，模型会给我们提供相应的判断.
典型的机器学习过程
基本术语
要进行机器学习，先要有数据. 假定我们收集了一些关于西瓜的数据，如下表所示：
色泽根蒂敲声好瓜
青绿
蜷缩
浊响
是

文章插图
乌黑
蜷缩
浊响
是
青绿
硬挺
清脆
否
乌黑
稍缩
沉闷
否
学习()、训练()：从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成。

文章插图
假设()：学得模型对应了关于数据的某种潜在的规律，亦称假设；这种潜在规律自身，则称为 “真相” 或 “真实” ，学习过程就是为了找出或逼近真相
标记(label)：训练样本中关于结果的信息，例如 “好瓜”
分类()：若我们预测的是离散值，例如“好瓜”、“坏瓜” ，此类学习任务称为分类
回归()：若预测的是连续值，例如西瓜的成熟度0.95、0.56 ，此类学习任务称为回归
聚类()：将训练集中的数据分为若干组，每组称为一个簇() ，这些簇可能对应一些潜在的概念划分；在聚类学习过程中使用的训练样本通常不具有标记信息
监督学习( )|无监督学习( )：根据训练数据是否拥有标记信息，学习任务可大致分为监督学习和无监督学习.分类和回归是前者的代表，聚类是后者的代表.
泛化()：学得模型适用于新样本的能力，称为泛化能力.
版本空间( space)：现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的 “假设集合” ，称之为版本空间
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好，称为 “归纳偏好”或简称 “偏好”
任何一个有效的学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑，而无法产生确定的学习结果.
引导算法确立 “正确的” 偏好的一般性原则：奥卡姆剃刀
奥卡姆剃刀
【归纳偏好】例如，方程式y = ? x 2 + 6 x + 1 y=-x^2+6x+1 y=?x2+6x+1 与方程式y = ? x 3 + 1 y=-x^3+1 y=?x3+1 相比，若我们认为次数越小越简单，则前者更简单；若认为方程式的项数越少越简单，则后者更简单.