初探网络爬虫:带你快速入门

在前文中,我们提到了利用Web Scraper这一浏览器插件来实现爬虫的方法。然而,由于一些小伙伴对此感到困惑,本文将深入进行解释,以期望对你的学习和工作带来更多帮助。

单页面信息爬取

这是最基础也是最简单的爬虫形式,即所有目标信息都位于同一个页面上,无需进行分页处理。我们可以直接使用Web Scraper进行爬取。

😘 示例:

让我们以爬取B站排行榜中的数据为例,包括视频标题、作者、播放量和弹幕数。

图片[1]-初探网络爬虫:带你快速入门-山海云端论坛
  1. 所有数据都在一页,点击“Create new sitemap”创建爬虫。
  2. 创建四个选择器,分别对应视频标题、作者、播放量和弹幕数。
  3. 配置完成后,点击“Scrape”开始爬虫。
  4. 爬虫完毕后,导出结果。

发现数据比较乱,这是因为四个字段的优先级相同。为解决这个问题,我们引入了容器的概念。

认识容器

容器类似于HTML中的div,将页面中相同的div放到同一个容器中,然后从容器中读取各个div中的数据。

  1. 点击“Create new sitemap”创建容器,选择类型为Element。
  2. 在容器中创建要爬取的字段。

最终的爬虫效果如下。

图片[2]-初探网络爬虫:带你快速入门-山海云端论坛

爬取二级页面

在某些情况下,我们只能获取到一部分信息,而核心数据可能在二级页面中。例如,B站的点赞、投币和收藏数就在二级页面。在这种情况下,我们需要在第一个页面爬取完后,跳转到第二个页面中进行爬取。

  1. 进入容器,选择标题字段的类型为link,以便进入二级页面。
  2. 在二级页面中分别建立点赞、投币和收藏数的字段。

最终的效果如下。

图片[3]-初探网络爬虫:带你快速入门-山海云端论坛

爬取分页信息

很多情况下,需要爬取的信息被分页了,比如爬取B站作者的所有视频信息。可以通过观察URL的变化规律,设置相应的变量来爬取分页信息。

😷 示例:

爬取逍遥子大表哥所有视频的播放量。

  1. 创建爬虫时注意URL的规律。
  2. 效果如下。

总结

利用Web Scraper完成一些简单的爬虫任务是完全可行的。上手相对简单,但对于一些具有反爬虫机制的站点可能会遇到阻力。务必要灵活运用容器概念,以及观察和分析页面结构,才能更好地应对各种爬虫任务。

希望这篇文章能够为你的学习和工作提供一些实用的技巧。如果还有其他疑问,欢迎随时向我们提问。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容