用Python写网路爬虫


用Python写网路爬虫

文章插图
用Python写网路爬虫【用Python写网路爬虫】《用Python写网路爬虫》,本书作者[澳]理察 劳森(Richard Lawson),译者李斌,由人民邮电出版社于2016年9月出版 。
基本介绍书名:用Python写网路爬虫 
作者:[澳]理察 劳森(Richard Lawson) 
原版名称:web scraping with python 
译者:李斌 
ISBN:9787115431790 
定价:45.00元 
出版社:人民邮电出版社 
出版时间:2016-9 
装帧:平装 
内容简介作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网路爬虫技术变得越来越有用 。使用Python这样的简单程式语言,你可以使用少量编程技能就可以爬取複杂的网站 。《用Python写网路爬虫》作为使用Python来爬取网路数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用快取来管理伺服器负载的方法 。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的複杂网站中抽取数据等 。本书使用Scrapy创建了一个高级网路爬虫,并对一些真实的网站进行了爬取 。《用Python写网路爬虫》介绍了如下内容:通过跟蹤连结来爬取网站;使用lxml从页面中抽取数据;构建执行绪爬虫来并行爬取页面;将下载的内容进行快取,以降低频宽消耗;解析依赖于JavaScript的网站;与表单和会话进行互动;解决受保护页面的验证码问题;对AJAX调用进行逆向工程;使用Scrapy创建高级爬虫 。本书读者对象本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验 。当然,具备其他程式语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理 。作者简介Richard Lawson来自澳大利亚,毕业于墨尔本大学计算机科学专业 。毕业后,他创办了一家专注于网路爬虫的公司,为超过50个国家的业务提供远程工作 。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软体 。他目前在牛津大学攻读研究生学位,并利用业余时间研发自主无人机 。书籍目录目录第1章 网路爬虫简介 11.1 网路爬虫何时有用 11.2 网路爬虫是否合法 21.3 背景调研 31.3.1 检查robots.txt 31.3.2 检查网站地图 41.3.3 估算网站大小 51.3.4 识别网站所用技术 71.3.5 寻找网站所有者 71.4 编写第一个网路爬虫 81.4.1 下载网页 91.4.2 网站地图爬虫 121.4.3 ID遍历爬虫 131.4.4 连结爬虫 151.5 本章小结 22第2章 数据抓取 232.1 分析网页 232.2 三种网页抓取方法 262.2.1 正则表达式 262.2.2 Beautiful Soup 282.2.3 Lxml 302.2.4 性能对比 322.2.5 结论 352.2.6 为连结爬虫添加抓取回调 352.3 本章小结 38第3章 下载快取 393.1 为连结爬虫添加快取支持 393.2 磁碟快取 423.2.1 实现 443.2.2 快取测试 463.2.3 节省磁碟空间 463.2.4 清理过期数据 473.2.5 缺点 483.3 资料库快取 493.3.1 NoSQL是什幺 503.3.2 安装MongoDB 503.3.3 MongoDB概述 503.3.4 MongoDB快取实现 523.3.5 压缩 543.3.6 快取测试 543.4 本章小结 55第4章 并发下载 574.1 100万个网页 574.2 串列爬虫 604.3 多执行绪爬虫 604.3.1 执行绪和进程如何工作 614.3.2 实现 614.3.3 多进程爬虫 634.4 性能 674.5 本章小结 68第5章 动态内容 695.1 动态网页示例 695.2 对动态网页进行逆向工程 725.3 渲染动态网页 775.3.1 PyQt还是PySide 785.3.2 执行JavaScript 785.3.3 使用WebKit与网站互动 805.3.4 Selenium 855.4 本章小结 88第6章 表单互动 896.1 登录表单 906.2 支持内容更新的登录脚本扩展 976.3 使用Mechanize模组实现自动化表单处理 1006.4 本章小结 102第7章 验证码处理 1037.1 注册账号 1037.2 光学字元识别 1067.3 处理複杂验证码 1117.3.1 使用验证码处理服务 1127.3.2 9kw入门 1127.3.3 与注册功能集成 1197.4 本章小结 120第8章 Scrapy 1218.1 安装 1218.2 启动项目 1228.2.1 定义模型 1238.2.2 创建爬虫 1248.2.3 使用shell命令抓取 1288.2.4 检查结果 1298.2.5 中断与恢复爬虫 1328.3 使用Portia编写可视化爬虫 1338.3.1 安装 1338.3.2 标注 1368.3.3 最佳化爬虫 1388.3.4 检查结果 1408.4 使用Scrapely实现自动化抓取 1418.5 本章小结 142第9章 总结 1439.1 Google搜寻引擎 1439.2 Facebook 1489.2.1 网站 1489.2.2 API 1509.3 Gap 1519.4 宝马 1539.5 本章小结 157