第十五章 SPSS Modeler 集成学习算法之同质集成( 二 )


在中 , 随机森林的基分类器是CART算法 。
过程:
实际上 , 随机森林方法将在算法上更进一步 , 首先随机森林算法采取与同样的测量生成N个不同的自助训练数据集 。接着 , 对每个自助训练数据集 , 在树生长的过程中将引入随机因素 。
决策树:在所有的m个属性变量中选择最优变量 。
随机森林:先从m个属性变量中随机选择d(d≤m)个变量生成变量子集V , 再在变量子集V中选择最优的划分变量 。一般地 , 子集的个数可以选择d=log2 m +1 。d越小 , 各个基分类器的关联性就越低 , 当d=1时 , 意味着每个节点都是采用随机方式进行选择 。
袋外样本:OOB , out of bag,由于采用重采样生成自助样本集 , 则某些样本可能没有被选入 , 这些没有被选入的样本称为袋外样本 。
可以使用袋外样本作为验证集及测试集 , 无须事先对数据集进行划分 。
【第十五章SPSS Modeler 集成学习算法之同质集成】SPSS 的“随机树”节点中 , 预测准确性就是袋外估计的预测结果 。