在前文中,我们提到了利用Web Scraper这一浏览器插件来实现爬虫的方法。然而,由于一些小伙伴对此感到困惑,本文将深入进行解释,以期望对你的学习和工作带来更多帮助。
单页面信息爬取
这是最基础也是最简单的爬虫形式,即所有目标信息都位于同一个页面上,无需进行分页处理。我们可以直接使用Web Scraper进行爬取。
😘 示例:
让我们以爬取B站排行榜中的数据为例,包括视频标题、作者、播放量和弹幕数。
- 所有数据都在一页,点击“Create new sitemap”创建爬虫。
- 创建四个选择器,分别对应视频标题、作者、播放量和弹幕数。
- 配置完成后,点击“Scrape”开始爬虫。
- 爬虫完毕后,导出结果。
发现数据比较乱,这是因为四个字段的优先级相同。为解决这个问题,我们引入了容器的概念。
认识容器
容器类似于HTML中的div,将页面中相同的div放到同一个容器中,然后从容器中读取各个div中的数据。
- 点击“Create new sitemap”创建容器,选择类型为Element。
- 在容器中创建要爬取的字段。
最终的爬虫效果如下。
爬取二级页面
在某些情况下,我们只能获取到一部分信息,而核心数据可能在二级页面中。例如,B站的点赞、投币和收藏数就在二级页面。在这种情况下,我们需要在第一个页面爬取完后,跳转到第二个页面中进行爬取。
- 进入容器,选择标题字段的类型为link,以便进入二级页面。
- 在二级页面中分别建立点赞、投币和收藏数的字段。
最终的效果如下。
爬取分页信息
很多情况下,需要爬取的信息被分页了,比如爬取B站作者的所有视频信息。可以通过观察URL的变化规律,设置相应的变量来爬取分页信息。
😷 示例:
爬取逍遥子大表哥所有视频的播放量。
- 创建爬虫时注意URL的规律。
- 效果如下。
总结
利用Web Scraper完成一些简单的爬虫任务是完全可行的。上手相对简单,但对于一些具有反爬虫机制的站点可能会遇到阻力。务必要灵活运用容器概念,以及观察和分析页面结构,才能更好地应对各种爬虫任务。
希望这篇文章能够为你的学习和工作提供一些实用的技巧。如果还有其他疑问,欢迎随时向我们提问。
暂无评论内容