爬取哔哩哔哩()
【一python爬取bilibili信息】本人不是计算机专业的专业人员,在书写上会有专业型误差请您谅解,有问题或者错误可以通过笔者qq邮箱:
进行沟通,在此感谢您的观看 。
初心:
我是一个小白,并且成功的爬取了,我相信大家一定也没问题,所以我的文章涉及到的比较基础,所以比较繁多,我将利用好时间一点一点地为大家推送,希望可以坚持下去,有所学,有所成长 。
提前准备:
是使用工作时,一个比较强大的软件 。利用可以给你一种美观的外观,字体可以随意调整,第三方库也可以自由下载 。我将在另一个文章中仔细说明的安装
接下来一步步开始你的爬取喽!
第一步主要是观察:
在你的浏览器中打开,哔哩哔哩()官网 。去随意搜索 ”美食 “,“吃货”,主要观察浏览器中网址的变化,以图片为例
主要观察两图片的链接,可发现两个链接的区别
https://search.bilibili.com/all?keyword=(查找内容)
当我们点击,浏览到第二页时,观察此时的链接:
https://search.bilibili.com/all?keyword=(查找内容)page= (页数)
后面有个page 页面,通过这些分析我们可以试着调整(搜索内容),page后面的值观察页面的变化 。
到这里我们,就有初次看的页面有了一定的了解 。
接下来,按右键查找网页的源代码
刚看到这个代码,我是初学者,刚看到这个时脑子有点懵,但是我们作为信息的提取这,我们要知道提取唯一的可检索的标签 。这里我们提到正则表达式 。
什么是正则表达式呢?正则表达式是一种用于检索,搜索的网页代码组合 。可以代表某些值,检索某些值 。对于来说,是第三方库需要下载并引用 。
import retext ='''
笔记:
Ctrl + f :搜索
可以为你找到,合适的搜索代码,然后使用re,主要是观察是否为唯一,可以用re 。
这回就为大家说到这里,学习地内容有很多,看看你是否掌握 。
对了,在,也叫小白巨白,为大家视频讲解,欢迎大家前去观看!
- 一线互联网企业中,招聘网职位的套路,注意这些帮你避坑。
- 有 1000 瓶药物,但是其中有一瓶是有毒的,小白鼠吃了一个星期以后就会死掉!
- 必有近忧的上面一句是什么 必有近忧的前面一句是什么
- 板式橡胶支座的dm3是什么意思 板式橡胶支座多少钱一个dm3
- JAVA实现KFC的收银系统
- 创建react项目并启动出现的报错解决,学习资源
- 最新出炉!2023年NPS和CSAT行业基准分数一览
- 莫凡Python学习笔记——Microbial Genetic Algorith
- 简易注销公司需要什么资料 公司简易注销和一般注销
- 北京将迎今冬“迟到”一周左右的初雪 本周日14时前后有望见雪