第十五章 SPSS Modeler 集成学习算法之同质集成( 二 ) _分类

在中，随机森林的基分类器是CART算法。
过程：
实际上，随机森林方法将在算法上更进一步，首先随机森林算法采取与同样的测量生成N个不同的自助训练数据集。接着，对每个自助训练数据集，在树生长的过程中将引入随机因素。
决策树：在所有的m个属性变量中选择最优变量。
随机森林：先从m个属性变量中随机选择d（d≤m）个变量生成变量子集V ，再在变量子集V中选择最优的划分变量。一般地，子集的个数可以选择d=log2 m +1 。d越小，各个基分类器的关联性就越低，当d=1时，意味着每个节点都是采用随机方式进行选择。
袋外样本：OOB ， out of bag,由于采用重采样生成自助样本集，则某些样本可能没有被选入，这些没有被选入的样本称为袋外样本。
可以使用袋外样本作为验证集及测试集，无须事先对数据集进行划分。
【第十五章SPSS Modeler 集成学习算法之同质集成】SPSS 的“随机树”节点中，预测准确性就是袋外估计的预测结果。