免费网页代理浏览器四叶天免费网页代理干净在线代理网页版 _网页

这是一篇记录自己踩坑的文章
爬取网页分三大步骤：
分析目标网站着手编写代码保存数据
下面开始今天的主题。上目标网站（66免费代理）
首先分析网页，我们要爬取的是ip和端口号

文章插图
所有数据都存在表格里
查看网页源码，发现数据直接在源码中，因此开始接下来的操作，提取数据，使用BeautifulSoup解析。
先拿到每一页上的所有行，再提取每一个单元格中的内容，相信见代码
_*_ coding:utf8 _*_import requestsfrom bs4 import BeautifulSoupfrom multiprocessing import Poolfrom pymongo import MongoClientimport redata = https://www.yebaike.net/info/[]用来存放爬取到的ip 爬取单个页面的ipdef getip(page):db = MongoClient(&39;127.0.0.1&39;, 27017).testurl = &34;http://www.89ip.cn/index_%s.html&34; % page该代理检测不可用url = &39;http://www.66ip.cn/%s.html&39; % pageheaders = {&39;User-Agent&39;: &39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36/(KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&39;,&39;Referer&39;: &39;http://www.66ip.cn/index.html&39;,}resp = requests.get(url=url, headers=headers, timeout=2)soup = BeautifulSoup(resp.text, &39;lxml&39;)for item in soup.find_all(&39;tr&39;)[2:]:try:ip = item.find_all(&39;td&39;)[0].get_text().strip()port = item.find_all(&39;td&39;)[1].get_text().strip()data.append({&39;ip&39;: &39;{}:{}&39;.format(ip, port), &39;verify&39;: False})if len(data) == 0:print(&34;结束&34;)print(data)db.ippool.insert_many(data)print(port)except:continue发生异常的时候跳过此次爬取，继续下一轮
经过一番操作，成功获取数据，后面就是比较糟糕的事情了。我们爬取代理ip的主要目的是什么，当然是使用他们呀。在我校验之后，一万多个代理ip没有一个能用的。[流泪][笑哭]
【免费网页代理浏览器四叶天免费网页代理干净在线代理网页版】后面多寻找几个网站试试，今天就先到这里。我是爬虫小白，今后也是

免费网页代理浏览器四叶天 免费网页代理 干净在线代理网页版

免费网页代理浏览器四叶天免费网页代理干净在线代理网页版