数据分析基础知识复习( 二 )


随机森林
随机森林模型是一种集成学习算法,是对决策树模型的改进 。使用决策树,常常出现过拟合的情况 。随机森林就是多个决策树组成一个森林的模型 。
随机森林以决策树作为基学习器,在训练过程中加入样本扰动和属性扰动,大大增强了每个基学习器的独立性,进而提升了模型的鲁棒性 。与此同时,随机森林还具有运行速度快、对量纲不敏感等优点 。
随机森林的具体实现步骤如下:
(1)确定基学习器的个数N,同时用M 表示总特征数量,n表示样本总量

数据分析基础知识复习

文章插图
(2)确定每棵树进行分裂的特征数m,这里m一般用M乘某个比例得到
(3)对样本总体有放回地抽取n个样本,共进行N次,产生N个训练集分配到各个基学习器
(4)从特征全集中随机抽取m个特征,共进行N次,产生N个特征子集作为各基学习器的特征全集 。
(5)各棵决策树单独进行模型的训练
(6)由所有分裂后的决策树投票产生分类结果
04 GBDT
梯度提升树也是一种基于决策树的集成算法,但和随机森林不同的是,梯度提升树模型通过采用加法模型,以不断减小训练过程中产生的残差为目的进行模型训练 。虽然串行的方式会使得模型运行时间较长,但却可以得到较高精度的分类器 。
05 神经网络模型
人工神经网络模拟人脑的工作原理,使用节点之间的连接来模拟人脑中的神经元连接来进行信息处理的机器学习模型 。
人工神经网络包括输入层、隐含层、输出层 。这些层以此使用不同的权值进行连接,每个节点(神经元)都有一个激励函数,用来模拟人脑神经元的抑制与兴奋 。
信息从输入层流通到输出层,并且使用训练集来学习网络中的权值,改善网络的效果 。在分类中,首先使用训练集样本对网络中的参数进行学习,然后从输入层输入未知实例的特征向量,输出层的输出便是其类别 。
常见的人工神经网络有:BP神经网络、RBF神经网络、循环神经网络、随机神经网络、竞争神经网络以及深度神经网络等 。不同的神经网络用来处理不同的应用场景 。
BP神经网络模型是人工神经网络家族中的一种有监督的算法,其拟合能力非常强,理论上可以逼近任意函数 。一般而言,BP神经网络拥有三类神经元层,分别为输入层、隐层(可有一层或多层)和输出层,一个典型的BP神经网络可以下所示:
06 SVM模型
模型的训练目标是在空间中找到一个超平面,不仅要将不同类别的样本划分开,还要求对应的间隔尽可能的大 。一个典型的线性支持向量机模型可以如下所示 。
如果实际中并不存在能够正确划分训练样本的超平面(或者说训练样本并不是线性可分的),则可以将原样本映射到高维空间中,使之在高维空间中线性可分 。同时,为了避免映射后可能存在的维度灾难问题,支持向量机利用核函数计算原变量变换后空间的相似度 。
07 聚类分析
聚类分析是数据挖掘的重要研究内容与热点问题,也是计算机领域新算法出现最多,最快的领域,主要是因其不存在客观标准 。
聚类便是按照某种相似性度量方法对一个集合进行划分成多个类簇,使得同一个类簇之间的相似性高,不同类簇之间不相似或者相似性低 。同一类簇中的任意两个对象的相似性要大于不同类簇的任意两个对象 。
从学习的角度来看,聚类中事先并不需要知道每个对象所属的类别,即每个对象没有标签进行指导学习,也不知道每个簇的大小,而是根据对象之间的相似性来划分的,因此聚类分析属于一种无监督学习方法,又被称为“无先验知识学习方法” 。其目的是在数据中寻找相似的分组结构和区分差异的对象结构 。