归纳偏好

文章目录基本术语归纳偏好
机器学习
机器学习:致力于研究如果通过计算的手段 , 利用经验来改善系统自身的性能
在计算机系统中 , “经验” 通常以 “数据” 形式存在 , 因此 , 机器学习所研究的主要内容 , 是关于在计算机上从数据中产生 ”模型“ (model) 的算法 , 即 ”学习算法“ ( ).
有了学习算法 , 我们把经验数据提供给它 , 它就能基于这些数据产生模型;在面对新的情况时 , 模型会给我们提供相应的判断.
典型的机器学习过程
基本术语
要进行机器学习 , 先要有数据. 假定我们收集了一些关于西瓜的数据 , 如下表所示:
色泽根蒂敲声好瓜
青绿
蜷缩
浊响

归纳偏好

文章插图
乌黑
蜷缩
浊响

青绿
硬挺
清脆

乌黑
稍缩
沉闷

学习()、训练():从数据中学得模型的过程称为学习或训练 , 这个过程通过执行某个学习算法来完成 。
归纳偏好

文章插图
假设():学得模型对应了关于数据的某种潜在的规律 , 亦称假设;这种潜在规律自身 , 则称为 “真相” 或 “真实” , 学习过程就是为了找出或逼近真相
标记(label):训练样本中关于结果的信息 , 例如 “好瓜”
分类():若我们预测的是离散值 , 例如“好瓜”、“坏瓜” , 此类学习任务称为分类
回归():若预测的是连续值 , 例如西瓜的成熟度0.95、0.56 , 此类学习任务称为回归
聚类():将训练集中的数据分为若干组 , 每组称为一个簇() , 这些簇可能对应一些潜在的概念划分;在聚类学习过程中使用的训练样本通常不具有标记信息
监督学习( )|无监督学习( ):根据训练数据是否拥有标记信息 , 学习任务可大致分为监督学习和无监督学习.分类和回归是前者的代表 , 聚类是后者的代表.
泛化():学得模型适用于新样本的能力 , 称为泛化能力.
版本空间( space):现实问题中我们常面临很大的假设空间 , 但学习过程是基于有限样本训练的 , 因此 , 可能有多个假设与训练集一致 , 即存在着一个与训练集一致的 “假设集合” , 称之为版本空间
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好 , 称为 “归纳偏好”或简称 “偏好”
任何一个有效的学习算法必有其归纳偏好 , 否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑 , 而无法产生确定的学习结果.
引导算法确立 “正确的” 偏好的一般性原则:奥卡姆剃刀
奥卡姆剃刀
【归纳偏好】例如 , 方程式y = ? x 2 + 6 x + 1 y=-x^2+6x+1 y=?x2+6x+1 与方程式y = ? x 3 + 1 y=-x^3+1 y=?x3+1 相比 , 若我们认为次数越小越简单 , 则前者更简单;若认为方程式的项数越少越简单 , 则后者更简单.