数据挖掘分类算法的学习总结

一、中文摘要
大数据时代的我们每时每刻都在产生海量数据,如何快速准确获取其中有价值的数据一直是亟待解决的问题 。数据挖掘技术的应运而生为该问题提供了解决手段,作为数据挖掘核心内容之一的分类算法同样发挥了至关重要的作用 。本文主要对数据挖掘分类算法进行研究,介绍了常用分类算法的基本思想及其优缺点,有助于未来对算法进行相应的改进,再通过其部分实际应用展示了在不同领域中分类算法的良好分类效果 。
关键词: 课程论文;研究生课程;数据管理;数据挖掘;分类算法
二、英文摘要
In the era of big data, we aredata all the time. How todataandhasbeen anto be . Theof dataa means to solve this . As one of the coreof data ,also plays a vital role. This papertheof data ,the basic ideas andandof, which isfor theof thein the , and then shows the goodof theinsome.
Key words:paper;; data ; data ;of
三、引言
随着计算机技术的飞速发展和数据的爆炸式增长,让我们生活在一个数据时代 。每天面对着质量参差不齐的海量数据,如何从中获取我们需要的数据,提高数据的查询速度和利用率一直是我们需要解决的问题 。数据挖掘技术(Data ,DM)由此应运而生,可以帮助我们从海量数据中发现有价值的数据 。简单理解,数据挖掘是融合了机器学习技术和数据库技术的一种在海量数据中寻找有用数据的过程,存储数据使用数据库技术,分析数据使用机器学习技术 。数据挖掘被定义为“从数据库中的数据识别有效的、新颖的、先前未知的、潜在可用的信息以及最终可理解的模式的非核过程”[1] 。
数据分类算法是数据挖掘的核心内容,其主要作用是通过对大量数据进行运算,提取有价值的信息和分析各类数据的独有特征从而发现分类规则进行合理分类,为研究人员做出进一步的预测提供参考基础 。分类的目的是根据数据集的特点构造一个分类函数或分类模型,该函数或模型能把未知类别的样本映射到给定的一个类别中,完成分类任务 。在用途上,我们既可以使用数据分类算法分析已有的数据,又可以使用数据分类算法预测未来的数据 。
本文主要针对数据挖掘中的分类算法进行研究和讨论,首先从宏观视角简单说明各个分类算法的基本思想,其次从笔者阅读过的相关文献的微观视角简单介绍分类算法的实际应用,并给出笔者在学习过程中对数据分类和聚类区别的认识 。本文的其余部分组织如下 。在第二节中介绍了与数据挖掘分类算法相关的基础知识;在第三节中介绍了数据挖掘中常用的分类算法;在第四节中介绍了分类算法的一些实际应用;在第五节中对数据挖掘中的分类算法进行总结,并给出了数据挖掘中分类与聚类的区别认识 。
四、相关基础知识
本小节主要包括三个部分:首先对数据挖掘中研究的分类问题进行简要概述,接着对分类任务的两个过程进行说明,最后介绍了对分类算法性能的评估指标 。
4.1 分类问题概述
分类问题作为数据挖掘技术的重要研究方向,其目的是使用分类算法建立分类模型,模型的输入是样本的属性,输出的是样本的类别,主要用于对未知事物的预测 。其实,分类问题本质上是由现实问题抽象得来,在我们的日常生活中无处不在 。例如,在电商领域,可以将用户在淘宝上购买商品看作是一个二分类问题,即用户有买和不买两种选择,利用用户的历史购买商品的行为数据建立用户-商品对的分类模型,为用户进行精准的个性化推荐;在银行领域,通过建立分类模型对银行用户进行分类,可以实现为不同类别的用户推荐适合的理财产品和相应服务 。总之,分类问题在数据挖掘中具有重要的研究价值和现实意义 。