从零开始学Python网路爬虫


从零开始学Python网路爬虫

文章插图
从零开始学Python网路爬虫【从零开始学Python网路爬虫】《从零开始学Python网路爬虫》是机械工业出版社2017年出版的图书,作者:罗攀、蒋仟
基本介绍书名:从零开始学Python网路爬虫 
作者:罗攀、蒋仟
ISBN:978-7-111-57999-1  
出版社:机械工业出版社 
出版时间:2017-10 
装帧:平装
开本:16开
基本信息作者:罗攀 蒋仟 编着ISBN(书号):978-7-111-57999-1出版日期:2017-10版次:1/1开本:16定价:¥59.00内容简介Python是数据分析的首选语言,而网路中的数据和信息很多,如何从中获取需要的数据和信息呢?最简单、直接的方法就是用爬虫技术来解决 。本书是一本教初学者学习如何爬取网路数据和信息的入门读物 。书中不仅有Python的相关内容,而且还有数据处理和数据挖掘等方面的内容 。本书内容非常实用,讲解时穿插了22个爬虫实战案例,可以大大提高读者的实际动手能力 。本书共分12章,核心主题包括Python零基础语法入门、爬虫原理和网页构造、我的第一个爬虫程式、正则表达式、Lxml库与Xpath语法、使用API、资料库存储、多进程爬虫、异步载入、表单互动与模拟登录、Selenium模拟浏览器、Scrapy爬虫框架 。此外,书中通过一些典型爬虫案例,讲解了有经纬信息的地图图表和词云的製作方法,让读者体验数据背后的乐趣 。本书适合爬虫技术初学者、爱好者及高等院校的相关学生,也适合数据爬虫工程师作为参考读物,同时也适合各大Python数据分析的培训机构作为教材使用目录前言第1章 Python零基础语法入门 11.1 Python与PyCharm安装 11.1.1 Python安装(Windows、Mac和Linux) 11.1.2 PyCharm安装 31.2 变数和字元串 31.2.1 变数 41.2.2 字元串的“加法”和“乘法” 41.2.3 字元串的切片和索引 51.2.4 字元串方法 51.3 函式与控制语句 71.3.1 函式 71.3.2 判断语句 81.3.3 循环语句 81.4 Python数据结构 91.4.1 列表 91.4.2 字典 111.4.3 元组和集合 111.5 Python档案操作 111.5.1 打开档案 111.5.2 读写档案 121.5.3 关闭档案 131.6 Python面向对象 131.6.1 定义类 141.6.2 实例属性 141.6.3 实例方法 151.6.4 类的继承 16第2章 爬虫原理和网页构造 172.1 爬虫原理 172.1.1 网路连线 172.1.2 爬虫原理 182.2 网页构造 212.2.1 Chrome浏览器的安装 212.2.2 网页构造 222.2.3 查询网页信息 23第3章 我的第一个爬虫程式 263.1 Python第三方库 263.1.1 Python第三方库的概念 263.1.2 Python第三方库的安装方法 273.1.3 Python第三方库的使用方法 293.2 爬虫三大库 303.2.1 Requests库 303.2.2 BeautifulSoup库 323.2.3 Lxml库 363.3 综合案例1——爬取北京地区短租房信息 373.3.1 爬虫思路分析 373.3.2 爬虫代码及分析 383.4 综合案例2——爬取酷狗TOP500的数据 413.4.1 爬虫思路分析 413.4.2 爬虫代码及分析 43第4章 正则表达式 454.1 正则表达式常用符号 454.1.1 一般字元 454.1.2 预定义字元集 464.1.3 数量词 464.1.4 边界匹配 474.2 re模组及其方法 484.2.1 search()函式 484.2.2 sub()函式 494.2.3 findall()函式 494.2.4 re模组修饰符 514.3 综合案例1——爬取《斗破苍穹》全文小说 534.3.1 爬虫思路分析 534.3.2 爬虫代码及分析 554.4 综合案例2——爬取糗事百科网的段子信息 564.4.1 爬虫思路分析 564.4.2 爬虫代码及分析 58第5章 Lxml库与Xpath语法 635.1 Lxml库的安装与使用方法 635.1.1 Lxml库的安装(Mac、Linux) 635.1.2 Lxml库的使用 645.2 Xpath语法 685.2.1 节点关係 685.2.2 节点选择 705.2.3 使用技巧 705.2.4 性能对比 745.3 综合案例1——爬取豆瓣网图书TOP250的数据 775.3.1 将数据存储到CSV档案中 775.3.2 爬虫思路分析 785.3.3 爬虫代码及分析 805.4 综合案例2——爬取起点中文网小说信息 835.4.1 将数据存储到Excel档案中 835.4.2 爬虫思路分析 845.4.3 爬虫代码及分析 86第6章 使用API 886.1 API的使用 886.1.1 API概述 886.1.2 API使用方法 896.1.3 API验证 916.2 解析JSON数据 936.2.1 JSON解析库 936.2.2 斯必克API调用 946.2.3 百度地图API调用 966.3 综合案例1——爬取PEXELS图片 986.3.1 图片爬取方法 986.3.2 爬虫思路分析 996.3.3 爬虫代码及分析 1006.4 综合案例2——爬取糗事百科网的用户地址信息 1026.4.1 地图的绘製 1026.4.2 爬取思路分析 1056.4.3 爬虫代码及分析 106第7章 资料库存储 1097.1 MongoDB资料库 1097.1.1 NoSQL概述 1097.1.2 MongoDB的安装 1097.1.3 MongoDB的使用 1157.2 MySQL资料库 1177.2.1 关係型资料库概述 1177.2.2 MySQL的安装 1177.2.3 MySQL的使用 1237.3 综合案例1——爬取豆瓣音乐TOP250的数据 1267.3.1 爬虫思路分析 1267.3.2 爬虫代码及分析 1277.4 综合案例2——爬取豆瓣电影TOP250的数据 1327.4.1 爬虫思路分析 1327.4.2 爬虫代码及分析 133第8章 多进程爬虫 1398.1 多执行绪与多进程 1398.1.1 多执行绪和多进程概述 1398.1.2 多进程使用方法 1408.1.3 性能对比 1408.2 综合案例1——爬取简书网热评文章 1438.2.1 爬虫思路分析 1438.2.2 爬虫代码及分析 1478.3 综合案例2——爬取转转网二手市场商品信息 1508.3.1 爬虫思路分析 1508.3.2 爬虫代码及分析 152第9章 异步载入 1599.1 异步载入技术与爬虫方法 1599.1.1 异步载入技术概述 1599.1.2 异步载入网页示例 1599.1.3 逆向工程 1629.2 综合案例1——爬取简书网用户动态信息 1659.2.1 爬虫思路分析 1659.2.2 爬虫代码及分析 1719.3 综合案例2——爬取简书网7日热门信息 1739.3.1 爬虫思路分析 1739.3.2 爬虫代码及分析 179第10章 表单互动与模拟登录 18210.1 表单互动 18210.1.1 POST方法 18210.1.2 查看网页原始码提交表单 18210.1.3 逆向工程提交表单 18510.2 模拟登录 18710.2.1 Cookie概述 18710.2.2 提交Cookie模拟登录 18710.3 综合案例1——爬取拉勾网招聘信息 18810.3.1 爬虫思路分析 18810.3.2 爬虫代码及分析 19310.4 综合案例2——爬取新浪微博好友圈信息 19510.4.1 词云製作 19510.4.2 爬虫思路分析 20210.4.3 爬虫代码及分析 206第11章 Selenium模拟浏览器 20911.1 Selenium和PhantomJS 20911.1.1 Selenium的概念和安装 20911.1.2 浏览器的选择和安装 20911.2 Selenium和PhantomJS的配合使用 21311.2.1 模拟浏览器操作 21311.2.2 获取异步载入数据 21511.3 综合案例1——爬取QQ空间好友说说 21811.3.1 CSV档案读取 21811.3.2 爬虫思路分析 22011.3.3 爬虫代码及分析 22111.4 综合案例2——爬取淘宝商品信息 22411.4.1 爬虫思路分析 22411.4.2 爬虫代码及分析 226第12章 Scrapy爬虫框架 22912.1 Scrapy的安装和使用 22912.1.1 Scrapy的安装 22912.1.2 创建Scrapy项目 23312.1.3 Scrapy档案介绍 23512.1.4 Scrapy爬虫编写 23712.1.5 Scrapy爬虫运行 23912.2 综合案例1——爬取简书网热门专题信息 24012.2.1 爬虫思路分析 24012.2.2 爬虫代码及分析 24412.3 综合案例2——爬取知乎网Python精华话题 24612.3.1 爬虫思路分析 24612.3.2 爬虫代码及分析 24812.4 综合案例3——爬取简书网专题收录文章 25012.4.1 爬虫思路分析 25112.4.2 爬虫代码及分析 25412.5 综合案例4——爬取简书网推荐信息 25712.5.1 爬虫思路分析 25812.5.2 爬虫代码及分析 260