自己动手写网路爬虫


自己动手写网路爬虫

文章插图
自己动手写网路爬虫【自己动手写网路爬虫】《自己动手写网路爬虫》是2010年10月由清华大学出版社出版的图书,作者是罗刚 。本书在介绍基本原理的同时,注重辅以具体代码实现来帮助读者加深理解 。
基本介绍书名:自己动手写网路爬虫
作者:罗刚
ISBN:9787302236474
页数:346
定价:43.00元
出版社:清华大学出版社
出版时间:2010-10-1
装帧:平装
开本:16
版次:1
字数:535000
内容简介主要包括从网际网路获取信息与提取信息和对Web信息挖掘等内容 。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用 。该书介绍了网路爬虫开发中的关键问题与关于Java实现的问题 。本书适用于有Java程式设计基础的开发人员 。同时也可以作为计算机相关专业本科生或研究生的参考教材 。作品目录第1章 全面剖析网路爬虫 31.1 抓取网页1.3.3 使用berkeley db构建爬虫伫列示例1.1.1 深入理解url1.3.4 使用布隆过滤器构建visited表1.1.2 通过指定的url抓取网页内容1.3.5 详解heritrix爬虫伫列1.1.3 java网页抓取示例1.4 设计爬虫架构 .1.1.4 处理http状态码1.4.1 爬虫架构1.2 宽度优先爬虫和带偏好的爬虫1.4.2 设计并行爬虫架构1.2.1 图的宽度优先遍历1.4.3 详解heritrix爬虫架构1.2.2 宽度优先遍历网际网路1.5 使用多执行绪技术提升爬虫性能1.2.3 java宽度优先爬虫示例1.5.1 详解java多执行绪1.2.4 带偏好的爬虫1.5.2 爬虫中的多执行绪1.2.5 java带偏好的爬虫示例1.5.3 一个简单的多执行绪爬虫实现1.3 设计爬虫伫列1.5.4 详解heritrix多执行绪结构1.3.1 爬虫伫列1.6 本章小结1.3.2 使用berkeley db构建爬虫伫列第2章 分散式爬虫 692.1 设计分散式爬虫2.4.2 开源bigtable——hbase2.1.1 分散式与云计算2.5 google的成功之道——mapreduce算法2.1.2 分散式与云计算技术在爬虫中的套用——浅析google的云计算架构2.5.1 详解mapreduce算法2.2 分散式存储2.5.2 mapreduce容错处理2.2.1 从ralation_db到key/value存储2.5.3 mapreduce实现架构2.2.2 consistent hash算法2.5.4 hadoop中的mapreduce简介2.2.3 consistent hash代码实现2.5.5 wordcount例子的实现2.3 google的成功之道——gfs2.6 nutch中的分散式2.3.1 gfs详解2.6.1 nutch爬虫详解2.3.2 开源gfs——hdfs2.6.2 nutch中的分散式2.4 google网页存储秘诀——bigtable2.7 本章小结2.4.1 详解bigtable第3章 爬虫的“方方面面”1213.1 爬虫中的“黑洞”3.2.3 理解限定爬虫3.2 限定爬虫和主题爬虫3.2.4 java限定爬虫示例3.2.1 理解主题爬虫3.3 有“道德”的爬虫3.2.2 java主题爬虫3.4 本章小结第4章 “处理”html页面 1594.1 征服正则表达式4.3 抽取正文4.1.1 学习正则表达式4.4 从javascript中抽取信息4.1.2 java正则表达式4.4.1 javascript抽取方法4.2 抽取html正文4.4.2 javascript抽取示例4.2.1 了解htmlparser4.5本章小结4.2.2 使用正则表达式抽取示例第5章 非html正文抽取 2015.1 抽取pdf档案5.2.2 使用poi抽取word示例5.1.1 学习pdfbox5.2.3 使用poi抽取ppt示例5.1.2 使用pdfbox抽取示例5.2.4 使用poi抽取excel示例5.1.3 提取pdf档案标题5.3 抽取rtf 5.3.1 开源rtf档案解析器5.1.4 处理pdf格式的公文5.3.2 实现一个rtf档案解析器5.2 抽取office文档5.3.3 解析rtf示例5.2.1 学习poi5.4 本章小结第6章 多媒体抽取 2316.1 抽取视频6.2 音频抽取6.1.1 抽取视频关键帧6.2.1 抽取音频6.1.2 java视频处理框架6.2.2 学习java音频抽取技术6.1.3 java视频抽取示例6.3 本章小结第7章去掉网页中的“噪声” 2577.1 “噪声”对网页的影响7.3 利用“视觉”消除“噪声”7.2 利用“统计学”消除“噪声”7.3.1 “视觉”与“噪声”7.2.1 网站风格树7.3.2 “视觉去噪”java实现7.2.2“统计学去噪”java实现7.4 本章小结第8章 分析web图 2838.1 存储web“图”8.4 pagerank的兄弟hits8.2 利用web“图”分析连结8.4.1 深入理解hits算法8.3 google的秘密——pagerank8.4.2 hits算法的java实现8.3.1 深入理解pagerank算法8.4.3 套用hits进行连结分析8.3.2 pagerank算法的java实现8.5 pagerank与hits的比较8.3.3 套用pagerank进行连结分析8.6 本章小结第9章 去掉重複的“文档” 3179.1 何为“重複”的文档9.4 simhash排重9.2 去除“重複”文档——排重9.4.1 理解simhash9.3 利用“语义指纹”排重9.4.2 simhash排重的java实现9.3.1 理解“语义指纹”9.5 分散式文档排重9.3.2 “语义指纹”排重的java实现9.6 本章小结第10章 分类与聚类的套用 33310.1 网页分类 10.1.1 收集语料库10.2 网页聚类10.1.2 选取网页的“特徵”10.2.1 深入理解dbscan算法10.1.3 使用支持向量机进行网页分类10.2.2 使用dbscan算法聚类实例10.1.4 利用url地址进行网页分类10.3 本章小结10.1.5 使用adaboost进行网页分类