上【AI底层逻辑】——篇章5：机器学习算法之回归分类( 二 ) _算法

①建模问题。用数学函数来表达现实功能，最难最重要，AI存在的缺陷/局限并不是因为计算机解不出数学方程，而是无法用数学函数很好描述。
②评估问题。一套评价标准评估函数模型的优劣，商业中”杀熟现象“（如老顾客看到的价格比新顾客高）就是因为人为使用具有特定倾向性目标的评估函数。
③优化问题。找到性能最佳的某个函数。
1、常见学习方法
按学习方式分——无监督学习、监督学习、强化学习。
①无监督学习：输入数据没有维度标签，输出通常是自动聚合的不同类别的标签。分类是自动进行的，只要有数据就会找到相近特征，它的典型算法是聚类算法。
例子，让计算机将一篮水果中的同类别水果归到一起，不知道水果种类（标签），首先它需要得到各个水果的特征数据，并表示为数学向量，假设此向量包含了颜色、味道、形状等特征。然后将相似向量（距离较近）的水果归为一类。
②监督学习：已知输入数据的类别（标签）。它可根据已知数据的标签预测未知数据的标签，典型的应用场景是推荐和预测，是机器学习中应用最广泛的。
还是上面的水果问题，这次知道水果标签（苹果、香蕉等），计算机学习这些标签和特征数据之间的联系，如发现红色、甜的、圆的很有可能是苹果，黄的、甜的、长条的很有可能是香蕉。学习好以后，就得到一个可判断水果类别的模型。
③强化学习：输入是一些数据的状态、动作以及环境交互的反馈，输出是当前状态的最佳动作。目的是让长期奖励回报最大，不断追求更好。
相比前两种，强化学习是动态的学习过程，无明确目标，对结果也无精确衡量标准。带有决策属性，连续选择一些行为（没有任何标签和数据告诉计算机该怎么做），只能尝试做些行动然后根据反馈改进。
这有点像闭环控制，没错，许多控制类和决策类问题都属于强化学习问题，例如无人机实现稳定飞行，或让人工智能在电子游戏中取得高分。
2、回归
回归是一种监督学习算法，是一种分析变量之间相互关系的一种方法。如房价与房屋面积、气候变暖与碳排放量。
”回归“一词最早由达尔文提出，无论是豌豆尺寸、人类身高都存在“向均值回归”的现象。数学上，“回归”常与数据预测联系在一起，但实际上该词本身不存在预测含义，只是由于某些原因该词被保留了下来。
算法目的一般两个：①解释已有规律。用已知数据找到合适方程表达式；②预测未知和未来。数学方程不仅可表示关联性，也可对数据样本进行预测。下面以一元线性回归为例：
一元线性回归只研究一个自变量X与一个因变量Y之间的关系。假设有一组数据，有X和Y两个变量，将这些数据画在函数图形上，可得到散点图，可看到这些数据点似乎聚集在直线附近，这条隐藏直线就是要求解的回归方程。
①假设Y与X是线性关系，
。其中
是随机误差，是所有不确定因素影响的总和，其值通常不可观测。数学上是把它看作随机噪声，假定其服从正态分布；至于参数
和
，思路是找到一条直线（如果数据是多维的，则需要找到一个平面），使得样本数据到这条直线的距离平方和尽可能小——最小二乘拟合法（最小平方法）。
②确定了Y与X的表达式后，还需要对回归方程进行假设检验，因为在计算之前它们的线性关系是假设的。要借助统计方法，对回归方程的参数进行假设检验，以验证Y与X是否真的是线性关系。

上 【AI底层逻辑】——篇章5：机器学习算法之回归分类( 二 )

上【AI底层逻辑】——篇章5：机器学习算法之回归分类( 二 )