【课程设计】基于决策树算法的学生成绩分析 _数据

目录
一、背景
二、目的
三、原理
四、实验环境
五、实验方法及步骤
六、实验结果及分析
七、总结与展望
八、参考文献
一、背景
近年来，受学习理论发展和技术进步的影响，学习环境已经开始从线下转移到线上。尤其像今年这种情形，一些不可抗拒的外界因素，使得学校不得部在线教学，这让学生和教学工作者切身体会了线上教学的便利和优点，同时也找到了克服其缺陷的办法。因此，即使这场灾难过去后，线上教学也将紧密的与线下教学的模式相结合在一起。学生在网上学习将产生大量的学习行为数据，这些数据无论是对于学生还是教育工作者来说，都是一个巨大的“宝藏” 。
通过机器学习算法进行数据分析，无疑是对这个“宝藏”最佳的开采方式。利用学生在网上的学习行为数据，感受学生的学习状态，预测学生的课程成绩。虽然学生是学习的主体，但是在学习过程中，难免会有过度自信或过分自卑的情况，学习行为数据没有任何感情的掺杂，可以给出一个理性、合理的评测。教师也可以根据预测情况，对学生个性化教学，因材施教，提交学生成绩。毫无疑问，对学习行为数据的分析是一个必然趋势趋势，是势在必行的。
本设计基于决策树算法从多角度对某学校网上平台的学生行为数据进行分析，将根据学生的综合成绩将学生划分为三类：优秀（80分– 100分）、良好（60分 – 79）、差（0分– 59分）。这些数据包括到课率、预习率、习题正确率、综合成绩，数据量达千余条。通过已有数据建立决策树模型，供该平台未来的使用者进行预测，起到教学预警的作用。
二、目的
以学生的历史学习行为数据训练决策树，通过该决策树预测学生期末成绩处于哪一个档次（优秀、良好、差），使学生可以清晰的知道自己当前学习属于一个什么样的状态，一遍调整学习策略，取得更好的成绩。
三、原理 1、数据分析三步骤（1）数据预处理（数据清洗）
大数据的来源和数据形式丰富多样，分析数据源可能存在许多脏数据，比如噪音数据、不完整数据、不一致数据。如果不对其进行合理的处理，会影响整个数据分析的结果，所以对数据进行预处理是一个非常重要的环节。
数据预处理的方法重要有数据清洗、数据集成、数据变换、数据归约等，本设计中所进行的主要是数据清洗。数据清洗技术是通过清理数据中的异常数据，纠正数据中存在的错误，清除重复多余的数据，从而使数据格式标准化。常用的处理方法包括填写缺失值、光滑噪声数据、识别或删除孤立点等。
本设计所分析数据源存在的脏数据情况主要是数据缺失，处理缺失数据的方法有很多种，比如忽略元组、手动填入空缺值、全局常量填充法、平均值填充法等。经过对比各种方法的优略性质及适用场景，本设计选择了平均值填充法进行数据预处理。
（2）构建模型
模型构建是根据数据形式及分析目标，选择最合适的技术和模型。模型的选择是整个数据分析中最为构建的一步，决定了数据分析的准确性。
本设计所研究的问题属于分类问题，因此选择分类算法中的决策树算法。在实现上，本设计基于的第三方库进行实现。-learn()是机器学习中经典的专用库，涵盖了几乎所有主流机器学习算法，包括分类、聚类、回归、降维等，还包括了特征值提取、数据处理和模型评估三大模块。
（3）数据可视化
数据可视化是对视觉表现形式做出科学技术的研究，是将复杂信息数据清晰表达出来的一种工具形式。数据可视化有利于实现数据与数据背后用户的互动，帮助决策者对用户做出分析并为用户提供针对性的服务。