【重生之我是蜘蛛侠】手把手教你用python爬虫,跟着做就好了( 二 )


可我们想要的是 。
继续找规律 。
这是第一页的网址 。
这是第二页的地址 。
我们发现第一页和第二页的区别只在于start的值 。
那我们就可以通过修改start的值加上for循环来达到目的 。
最终代码
from bs4 import BeautifulSoupimport requestsheaders={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"}for num in range(0,250,25):response=requests.get(f"https://movie.douban.com/top250?start={num}",headers=headers)# print(response)# print(response.status_code)html=response.textsoup=BeautifulSoup(html,"html.parser")all_titles=soup.findAll("span",attrs={"class":"title"})for title in all_titles:title_string=title.stringif '/' not in title_string:print(title_string)
爬虫虽好 , 不要贪杯哦 , 不然 。。。
后记
这篇文章是看这个视频做的笔记 。【10-实战课】从源码获取豆瓣电影哔哩哔哩??????
这个up主讲的巨好 , 建议大家都看看 。