【机器学习笔记】【决策树】【回归树】

目录
一、什么是回归树
回归树的衡量指标
什么是交叉验证
二、交叉验证的简单使用
1.导入相关的数据包
2.查看我们的数据
3.实例化并使用交叉验证
三、一维回归的图像绘制
1.导入相关的库
2.创建一条含有噪声的正弦曲线
了解ravel降维的用法
3.创建回归模型
4.导入测试集
5.预测测试集的数据
6.用预测出来的数据绘制图像
一、什么是回归树
r回归树
class .tree.r (=’mse’, =’best’, =None,
=2, =1, leaf=0.0, =None,
=None, =None, e=0.0, =None, =False)
几乎所有参数,属性及接口都和分类树一模一样 。需要注意的是,在回归树种,没有标签分布是否均衡的问题,因此没有这样的参数 。
回归树的衡量指标
对于回归树来说是处理连续型变量和分类型变量,所以不再是像之前分类树的不纯度指标了(1.信息熵,2.基尼系数),而是采用下面三种衡量回归树分枝质量的指标
1)输入"mse"使用均方误差meanerror(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失
2)输入“”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
3)输入"mae"使用绝对平均误差MAE(meanerror),这种指标使用叶节点的中值来最小化L1损失属性中最重要的依然是,接口依然是apply, fit, , score最核心 。
(mae在0.20等更新的版本里可能才会有)
这些计算的方法在我们使用的时候是无法干预的
其中N是样本数量,i是每一个数据样本,fi是模型回归出的数值,yi是样本点i实际的数值标签 。所以MSE的本质,其实是样本真实数据与回归结果的差异 。在回归树中,MSE不只是我们的分枝质量衡量指标,也是我们最常用的衡量回归树回归质量的指标,当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作为我们的评估(在分类树中这个指标是score代表的预测准确率) 。在回归中,我们追求的是,MSE越小越好 。

【机器学习笔记】【决策树】【回归树】

文章插图
(这个回归树的score接口返回的并不是mse)
其中u是残差平方和(MSE * N),v是总平方和,N是样本数量,i是每一个数据样本,fi是模型回归出的数值,yi是样本点i实际的数值标签 。y帽是真实数值标签的平均数 。R平方可以为正为负(如果模型的残差平方和远远大于模型的总平方和,模型非常糟糕,R平方就会为负),而均方误差永远为正 。
值得一提的是,虽然均方误差永远为正,但是当中使用均方误差作为评判标准时,却是计算”负均方误差“(or) 。这是因为在计算模型评估指标的时候,会考虑指标本身的性质,均方误差本身是一种误差,所以被划分为模型的一种损失(loss),因此在当中,都以负数表示 。真正的均方误差MSE的数值,其实就是or去掉负号的数字 。
什么是交叉验证
由于我们的数据都是在我们的训练集上跑出来的,从而形成了我们的模型,但是我们知道数据集的划分都是随机的,我们怎么能够保证我们当前的模型在其他的数据集上跑出来的结果还是相似的呢?怎么才能知道我们当前模型的泛化性到底有多强呢?
交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度 。训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量 。