四 数据挖掘实战分享:财政收入影响因素分析及预测

泰迪智能科技(TipDM数据挖掘平台)最新推出的数据挖掘实战专栏
专栏将数据挖掘理论与项目案例实践相结合,可以让大家获得真实的数据挖掘学习与实践环境,更快、更好的学习数据挖掘知识与积累职业经验
专栏中每四篇文章为一个完整的数据挖掘案例 。案例介绍顺序为:先由数据案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中同时穿插操作训练,把相关的知识点嵌入相应的操作过程中 。
为方便读者轻松地获取一个真实的实验环境,本专栏使用大家熟知的语言对样本数据进行处理以进行挖掘建模 。
————————————————
下面进入最终篇,上机实验及拓展思考~
实验目的
(1)掌握Lasso回归特征选择 。
(2)构建灰色预测与神经网络预测模型 。
实验内容
(1)对搜集的某市地方财政收入以及各类别收入数据,分析识别影响地方财政收入的关键属性,数据详见:test/data/data.csv 。
(2)预测筛选出的关键影响因素的2014年、2015年的预测值 。
(3)使用关键影响因素的2014年、2015年的预测值得到某市地方财政收入2014年、2015年的预测值 。
实验方法与步骤

四  数据挖掘实战分享:财政收入影响因素分析及预测

文章插图
(1)将“data.csv”数据使用库中的函数读入当前工作空间 。
【四数据挖掘实战分享:财政收入影响因素分析及预测】(2)使用-learn中的Lasso函数对数据进行属性选择 。
(3)使用GM(1,1)灰色预测方法得到筛选出的关键影响因素的2014年、2015年的预测值 。
(4)使用支持向量回归模型对某市地方财政收入进行预测 。
思考与实验总结
(1)Lasso回归如何设置合适的l值,在保证能够选取关键属性的前提下不过多的增加Lasso回归的复杂程度?
(2)在构建SVR预测模型前使用标准差标准化对数据进行标准化处理,如使用其他标准化处理方法对结果又会造成怎么样的影响?
拓展思考
MLP多层感知器(Multi-)是一种前向结构的人工神经网络ANN,映射一组输入向量到一组输出向量 。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层 。除了输入节点,每个节点都是一个带有非线性激活函数的神经元 。使用BP反向传播算法的监督学习方法来训练MLP 。MLP是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点 。
相对于单层感知器,MLP多层感知器输出端从一个变到了多个;输入端和输出端之间也不光只有一层,现在有两层:输出层和隐藏层,如图1-1所示 。
图1-1多层感知器
MLP多层感知器是前馈神经网络的一个例子,一个前馈神经网络可以包含三种节点 。
1)输入节点(Input Nodes):也称为输入层,输入节点从外部世界提供信息 。在输入节点中,不进行任何的计算,仅向隐藏节点传递信息 。
2)隐藏节点( Nodes):隐藏节点也称为隐藏层,和外部世界没有直接联系,这些节点进行计算,并将信息从输入节点传递到输出节点 。尽管一个前馈神经网络只有一个输入层和一个输出层,但网络里可以没有也可以有多个隐藏层 。
3)输出节点( Nodes):输出节点也称为输出层,负责计算,并从网络向外部世界传递信息 。
在前馈网络中,信息只单向移动——从输入层开始前向移动,然后通过隐藏层,再到输出层 。在网络中没有循环或回路 。
MLP在80年代的时候曾是相当流行的机器学习方法,拥有广泛的应用场景,譬如语音识别、图像识别、机器翻译等等,但自90年代以来,MLP遇到来自更为简单的支持向量机的强劲竞争 。近来,由于深层学习的成功,MLP又重新得到了关注 。