文章插图
网路爬虫全解析:技术、原理与实践【网路爬虫全解析:技术、原理与实践】网路爬虫全解析——技术、原理与实践,书中讲解作者多年爬虫开发经验总结,帮助网路工作者全面快速掌握网路爬虫开发方法 。
基本介绍作品名称:网路爬虫全解析——技术、原理与实践
创作年代:2017年03月
作品出处:电子工业出版社
作者:罗刚
基本信息网路爬虫全解析——技术、原理与实践作 译 者:罗刚出版时间:2017-03千 字 数:585版 次:01-01页 数:444开 本:16开I S B N :9787121310713内容简介本书介绍了如何开发网路爬虫 。内容主要包括开发网路爬虫所需要的Java语法基础和网路爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取 。为了扩展抓取能力,本书介绍了实现分散式网路爬虫的关键技术 。另外,本书介绍了从图像和语音等多媒体格式档案中提取文本信息,以及如何使用大数据技术存储抓取到的信息 。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例套用 。其中,电商领域的套用介绍了使用网路爬虫抓取商品信息入库到网上商店的资料库表 。医药领域的案例介绍了抓取PubMed医药论文库 。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等 。本书适用于对开发信息採集软体感兴趣的自学者 。也可以供有Java或程式设计基础的开发人员参考 。目录信息第1章 技术基础 11.1 第一个程式 11.2 準备开发环境 21.2.1 JDK 21.2.2 Eclipse 31.3 类和对象 41.4 常量 51.5 命名规範 61.6 基本语法 61.7 条件判断 71.8 循环 81.9 数组 91.10 位运算 111.11 枚举类型 131.12 比较器 141.13 方法 141.14 集合类 151.14.1 动态数组 151.14.2 散列表 151.15 档案 191.15.1 文本档案 191.15.2 二进制档案 231.16 多执行绪 271.16.1 基本的多执行绪 281.16.2 执行绪池 301.17 折半查找 311.18 处理图片 341.19 本章小结 35第2章 网路爬虫入门 362.1 获取信息 362.1.1 提取连结 372.1.2 採集新闻 372.2 各种网路爬虫 382.2.1 信息採集器 402.2.2 广度优先遍历 412.2.3 分散式爬虫 422.3 爬虫相关协定 432.3.1 网站地图 442.3.2 Robots协定 452.4 爬虫架构 482.4.1 基本架构 482.4.2 分散式爬虫架构 512.4.3 垂直爬虫架构 542.5 自己写网路爬虫 552.6 URL地址查新 572.6.1 嵌入式资料库 582.6.2 布隆过滤器 602.6.3 实现布隆过滤器 612.7 部署爬虫 632.7.1 部署到Windows 642.7.2 部署到Linux 642.8 本章小结 65第3章 定向採集 693.1 下载网页的基本方法 693.1.1 网卡 703.1.2 下载网页 703.2 HTTP基础 753.2.1 协定 753.2.2 URI 773.2.3 DNS 843.3 使用HttpClient下载网页 843.3.1 HttpCore 943.3.2 状态码 983.3.3 创建 993.3.4 模拟浏览器 993.3.5 重试 1003.3.6 抓取压缩的网页 1023.3.7 HttpContext 1043.3.8 下载中文网站 1053.3.9 抓取需要登录的网页 1063.3.10 代理 1113.3.11 DNS快取 1123.3.12 并行下载 1133.4 下载网路资源 1153.4.1 重定向 1153.4.2 解决套接字连线限制 1183.4.3 下载图片 1193.4.4 抓取视频 1223.4.5 抓取FTP 1223.4.6 网页更新 1223.4.7 抓取限制应对方法 1263.4.8 URL地址提取 1313.4.9 解析URL地址 1343.4.10 归一化 1353.4.11 增量採集 1353.4.12 iframe 1363.4.13 抓取JavaScript动态页面 1373.4.14 抓取即时信息 1413.4.15 抓取暗网 1413.5 PhantomJS 1443.6 Selenium 1453.7 信息过滤 1463.7.1 匹配算法 1473.7.2 分散式过滤 1533.8 採集新闻 1533.8.1 网页过滤器 1543.8.2 列表页 1593.8.3 用机器学习的方法抓取新闻 1603.8.4 自动查找目录页 1613.8.5 详细页 1623.8.6 增量採集 1643.8.7 处理图片 1643.9 遍历信息 1643.10 并行抓取 1653.10.1 多执行绪爬虫 1653.10.2 垂直搜寻的多执行绪爬虫 1683.10.3 异步IO 1723.11 分散式爬虫 1763.11.1 JGroups 1763.11.2 监控 1793.12 增量抓取 1803.13 管理界面 1803.14 本章小结 181第4章 数据存储 1824.1 存储提取内容 182 4.1.1 SQLite 1834.1.2 Access资料库 1854.1.3 MySQL 1864.1.4 写入维基 1874.2 HBase 1874.3 Web图 1894.4 本章小结 193第5章 信息提取 1945.1 从文本提取信息 1945.2 从HTML档案中提取文本 1955.2.1 字元集编码 1955.2.2 识别网页的编码 1985.2.3 网页编码转换为字元串编码 2015.2.4 使用正则表达式提取数据 2025.2.5 结构化信息提取 2065.2.6 表格 2095.2.7 网页的DOM结构 2105.2.8 使用Jsoup提取信息 2115.2.9 使用XPath提取信息 2175.2.10 HTMLUnit提取数据 2195.2.11 网页结构相似度计算 2205.2.12 提取标题 2225.2.13 提取日期 2245.2.14 提取模板 2255.2.15 提取RDF信息 2275.2.16 网页解析器原理 2275.3 RSS 2295.3.1 Jsoup解析RSS 2305.3.2 ROME 2315.3.3 抓取流程 2315.4 网页去噪 2335.4.1 NekoHTML 2345.4.2 Jsoup 2385.4.3 提取正文 2405.5 从非HTML档案中提取文本 2415.5.1 PDF档案 2425.5.2 Word档案 2455.5.3 Rtf档案 2475.5.4 Excel档案 2535.5.5 PowerPoint档案 2545.6 提取标题 2545.6.1 提取标题的一般方法 2555.6.2 从PDF档案中提取标题 2595.6.3 从Word档案中提取标题 2615.6.4 从Rtf档案中提取标题 2615.6.5 从Excel档案中提取标题 2675.6.6 从PowerPoint档案中提取标题 2705.7 图像的OCR识别 2705.7.1 读入图像 2715.7.2 準备训练集 2725.7.3 图像二值化 2745.7.4 切分图像 2795.7.5 SVM分类 2835.7.6 识别汉字 2875.7.7 训练OCR 2895.7.8 检测行 2905.7.9 识别验证码 2915.7.10 JavaOCR 2925.8 提取地域信息 2925.8.1 IP位址 2935.8.2 手机 3155.9 提取新闻 3165.10 流媒体内容提取 317 5.10.1 音频流内容提取 3175.10.2 视频流内容提取 3215.11 内容纠错 3225.11.1 模糊匹配问题 3255.11.2 英文拼写检查 3315.11.3 中文拼写检查 3335.12 术语 3365.13 本章小结 336第6章 Crawler4j 3386.1 使用Crawler4j 3386.1.1 大众点评 3396.1.2 日誌 3426.2 crawler4j原理 3426.2.1 代码分析 3436.2.2 使用Berkeley DB 3446.2.3 缩短URL地址 3476.2.4 网页编码 3496.2.5 并发 3496.3 本章小结 352第7章 网页排重 3537.1 语义指纹 3547.2 SimHash 3577.3 分散式文档排重 3677.4 本章小结 369第8章 网页分类 3708.1 关键字加权法 3718.2 机器学习的分类方法 3788.2.1 特徵提取 3808.2.2 朴素贝叶斯 3848.2.3 支持向量机 3938.2.4 多级分类 4018.2.5 网页分类 4038.3 本章小结 403第9章 案例分析 4049.1 金融爬虫 4049.1.1 中国能源政策数据 4049.1.2 世界原油现货交易和期货交易数据 4059.1.3 股票数据 4059.1.4 从PDF档案中提取表格 4089.2 商品搜寻 4089.2.1 遍历商品 4109.2.2 使用HttpClient 4159.2.3 提取价格 4169.2.4 水印 4199.2.5 数据导入ECShop 4209.2.6 採集淘宝 4239.3 自动化行业採集 4249.4 社会化信息採集 4249.5 微博爬虫 4249.6 微信爬虫 4269.7 海关数据 4269.8 医药数据 4279.9 本章小结 429后记 430
- 全院pacs
- qq安全登录检查是什么
- 网路视频监控
- 3-4岁奇蹟幼儿数学:全6册
- 奥秘世界百科全书/中国学生百科图书馆
- 全球最美的地方精华特辑:走遍美国
- 庭院经济动物高效养殖新技术大全
- 北京富国众筹网路科技有限公司
- 小凤凰全能早教卡:看图识字
- 全民英检一路通-中高级阅读能力测验模拟·题册