这是一篇记录自己踩坑的文章
爬取网页分三大步骤:
分析目标网站着手编写代码保存数据
下面开始今天的主题 。上目标网站(66免费代理)
首先分析网页,我们要爬取的是ip和端口号
文章插图
所有数据都存在表格里
查看网页源码,发现数据直接在源码中,因此开始接下来的操作,提取数据,使用BeautifulSoup解析 。
先拿到每一页上的所有行,再提取每一个单元格中的内容,相信见代码
_*_ coding:utf8 _*_import requestsfrom bs4 import BeautifulSoupfrom multiprocessing import Poolfrom pymongo import MongoClientimport redata = https://www.yebaike.net/info/[]用来存放爬取到的ip 爬取单个页面的ipdef getip(page):db = MongoClient(&39;127.0.0.1&39;, 27017).testurl = &34;http://www.89ip.cn/index_%s.html&34; % page该代理检测不可用url = &39;http://www.66ip.cn/%s.html&39; % pageheaders = {&39;User-Agent&39;: &39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36/(KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&39;,&39;Referer&39;: &39;http://www.66ip.cn/index.html&39;,}resp = requests.get(url=url, headers=headers, timeout=2)soup = BeautifulSoup(resp.text, &39;lxml&39;)for item in soup.find_all(&39;tr&39;)[2:]:try:ip = item.find_all(&39;td&39;)[0].get_text().strip()port = item.find_all(&39;td&39;)[1].get_text().strip()data.append({&39;ip&39;: &39;{}:{}&39;.format(ip, port), &39;verify&39;: False})if len(data) == 0:print(&34;结束&34;)print(data)db.ippool.insert_many(data)print(port)except:continue发生异常的时候跳过此次爬取,继续下一轮
经过一番操作,成功获取数据,后面就是比较糟糕的事情了 。我们爬取代理ip的主要目的是什么,当然是使用他们呀 。在我校验之后,一万多个代理ip没有一个能用的 。[流泪][笑哭]
【免费网页代理浏览器四叶天 免费网页代理 干净在线代理网页版】后面多寻找几个网站试试,今天 就先到这里 。我是爬虫小白,今后也是
- flash动画下载网站 flash动画下载
- vpn代理服务器
- 虚拟打印机pdf保存不了文件 虚拟打印机pdf pdf虚拟打印机免费
- 石家庄西部免费旅游景点优质
- 重磅!代购福音!铭宣海淘新上线免费自助仓转功能,仓转秒到账!
- 如何加盟肯德基门店电话 如何加盟肯德基 肯德基有免费加盟吗
- 塔罗牌免费占卜的后果 塔罗牌免费占卜 塔罗牌在线占卜
- 代购福利!铭宣海淘美国转运线路竟然90天超长免费仓储时间!
- 比亚迪免费换电池条件
- 冷教授的好大繁间 冷教授的好大坐不下去免费