数据挖掘十大算法


数据挖掘十大算法

文章插图
数据挖掘十大算法【数据挖掘十大算法】《数据挖掘十大算法》是2014年清华大学出版社出版的图书,作者是(美)吴信东、库玛尔 。
基本介绍书名:数据挖掘十大算法
作者:(美)吴信东、库玛尔 
译者:李文波 吴素研 译
ISBN:9787302310617
定价:39元
出版社:清华大学出版社 
出版时间:2014-12-26
装帧:平装
内容简介数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算法,而且也表现出与机器学习等学科深度融合的态势 。无论是从事研究的专家学者还是从事套用的开发人员都十分希望能一窥其大略,从而比较準确地把握数据挖掘领域当前的主干技术,并比较全面地了解当前的发展趋势 。当前,在市场上流通的数据挖掘方面的着作已经不算少了,主要是两大类:一类是具有完整体系的教材类图书,一类是面向特定领域的套用型图书 。前者主要是服务教学,所以侧重原理、逻辑严谨,但是通常对数据挖掘的前沿介绍比较欠缺 。后者往往集中于介绍某一领域的问题和方法,或者是关于某些典型工具的使用方法,其优点在于直观有效,但相对于整个数据挖掘领域其覆盖面偏小 。为此,很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理,而这一类信息往往散见于相关的大量学术期刊和会议文集中,限于视野和精力,任何个人都难以完成这一任务 。在此基础上,还需要对当前庞大的数据挖掘知识体系进行恰当的取捨和凝练,这一工作必须依靠该领域的高水平学者 。所以,国际数据挖掘社区合众人之力,在2006年推出了TheTopTenAlgorithmsinDataMining这一继往开来之作 。目录第1章C4.511.1引言21.2算法描述31.3算法特性61.3.1决策树剪枝61.3.2连续型属性81.3.3缺失值处理81.3.4规则集诱导91.4软体实现101.5示例101.5.1Golf数据集101.5.2Soybean数据集111.6高级主题111.6.1二级存储121.6.2斜决策树121.6.3特徵选择121.6.4集成方法121.6.5分类规则131.6.6模型重述131.7习题14参考文献15第2章kmeans182.1引言192.2算法描述192.3可用软体222.4示例232.5高级主题272.6小结282.7习题28参考文献29第3章SVM: 支持向量机313.1支持向量分类器323.2支持向量分类器的软间隔最佳化343.3核技巧353.4理论基础383.5支持向量回归器403.6软体实现413.7当前和未来的研究413.7.1计算效率413.7.2核的选择413.7.3泛化分析423.7.4结构化支持向量机的学习423.8习题43参考文献44第4章Apriori474.1引言484.2算法描述484.2.1挖掘频繁模式和关联规则484.2.2挖掘序列模式524.2.3讨论534.3软体实现544.4示例554.4.1可行示例554.4.2性能评估604.5高级主题614.5.1改进Apriori类型的频繁模式挖掘614.5.2无候选的频繁模式挖掘624.5.3增量式方法634.5.4稠密表示: 闭合模式和最大模式634.5.5量化的关联规则644.5.6其他的重要性/兴趣度度量方法654.5.7类别关联规则664.5.8使用更丰富的形式: 序列、树和图664.6小结674.7习题67参考文献68第5章EM725.1引言735.2算法描述745.3软体实现745.4示例755.4.1例5.1: 多元正态混合755.4.2例5.2: 混合因子分析785.5高级主题805.6习题81参考文献87第6章PageRank906.1引言916.2算法描述926.3一个扩展: TimedPageRank956.4小结966.5习题96参考文献97第7章AdaBoost987.1引言997.2算法描述997.2.1符号定义997.2.2通用推举过程1007.2.3AdaBoost算法1017.3示例1037.3.1异或问题求解1037.3.2真实数据上的性能1047.4实际套用1057.5高级主题1077.5.1理论问题1077.5.2多类别AdaBoost1107.5.3其他高级主题1117.6软体实现1117.7习题112参考文献113第8章kNN: k最近邻1158.1引言1168.2算法描述1168.2.1巨观描述1168.2.2若干议题1178.2.3软体实现1188.3示例1188.4高级主题1208.5习题121致谢121参考文献122第9章Naive Bayes1249.1引言1259.2算法描述1259.3独立给力1279.4模型扩展1289.5软体实现1309.6示例1309.6.1例1130 9.6.2例21329.7高级主题1339.8习题133参考文献134第10章CART: 分类和回归树13610.1前身13710.2概述13810.3示例13810.4算法描述14010.5分裂準则14110.6先验机率和类别均衡14210.7缺失值的处理14410.8属性的重要度14510.9动态特徵构造14610.10代价敏感学习14710.11停止準则、剪枝、树序列和树选择14710.12机率树14910.13理论基础15010.14CART之后的相关研究15010.15可用软体15110.16习题152参考文献153