上 【AI底层逻辑】——篇章5:机器学习算法之回归分类( 二 )


①建模问题 。用数学函数来表达现实功能,最难最重要,AI存在的缺陷/局限并不是因为计算机解不出数学方程,而是无法用数学函数很好描述 。
②评估问题 。一套评价标准评估函数模型的优劣,商业中”杀熟现象“(如老顾客看到的价格比新顾客高)就是因为人为使用具有特定倾向性目标的评估函数 。
③优化问题 。找到性能最佳的某个函数 。
1、常见学习方法
按学习方式分——无监督学习、监督学习、强化学习 。
①无监督学习:输入数据没有维度标签,输出通常是自动聚合的不同类别的标签 。分类是自动进行的,只要有数据就会找到相近特征,它的典型算法是聚类算法 。
例子,让计算机将一篮水果中的同类别水果归到一起,不知道水果种类(标签),首先它需要得到各个水果的特征数据,并表示为数学向量,假设此向量包含了颜色、味道、形状等特征 。然后将相似向量(距离较近)的水果归为一类 。
②监督学习:已知输入数据的类别(标签) 。它可根据已知数据的标签预测未知数据的标签,典型的应用场景是推荐和预测,是机器学习中应用最广泛的 。
还是上面的水果问题,这次知道水果标签(苹果、香蕉等),计算机学习这些标签和特征数据之间的联系,如发现红色、甜的、圆的很有可能是苹果,黄的、甜的、长条的很有可能是香蕉 。学习好以后,就得到一个可判断水果类别的模型 。
③强化学习:输入是一些数据的状态、动作以及环境交互的反馈,输出是当前状态的最佳动作 。目的是让长期奖励回报最大,不断追求更好 。
相比前两种,强化学习是动态的学习过程,无明确目标,对结果也无精确衡量标准 。带有决策属性,连续选择一些行为(没有任何标签和数据告诉计算机该怎么做),只能尝试做些行动然后根据反馈改进 。
这有点像闭环控制,没错,许多控制类和决策类问题都属于强化学习问题,例如无人机实现稳定飞行,或让人工智能在电子游戏中取得高分 。
2、回归
回归是一种监督学习算法,是一种分析变量之间相互关系的一种方法 。如房价与房屋面积、气候变暖与碳排放量 。
”回归“一词最早由达尔文提出,无论是豌豆尺寸、人类身高都存在“向均值回归”的现象 。数学上,“回归”常与数据预测联系在一起,但实际上该词本身不存在预测含义,只是由于某些原因该词被保留了下来 。
算法目的一般两个:①解释已有规律 。用已知数据找到合适方程表达式;②预测未知和未来 。数学方程不仅可表示关联性,也可对数据样本进行预测 。下面以一元线性回归为例:
一元线性回归只研究一个自变量X与一个因变量Y之间的关系 。假设有一组数据,有X和Y两个变量,将这些数据画在函数图形上,可得到散点图,可看到这些数据点似乎聚集在直线附近,这条隐藏直线就是要求解的回归方程 。
①假设Y与X是线性关系,
。其中
是随机误差,是所有不确定因素影响的总和,其值通常不可观测 。数学上是把它看作随机噪声,假定其服从正态分布;至于参数

,思路是找到一条直线(如果数据是多维的,则需要找到一个平面),使得样本数据到这条直线的距离平方和尽可能小——最小二乘拟合法(最小平方法) 。
②确定了Y与X的表达式后,还需要对回归方程进行假设检验,因为在计算之前它们的线性关系是假设的 。要借助统计方法,对回归方程的参数进行假设检验,以验证Y与X是否真的是线性关系 。