初探网络爬虫：带你快速入门-山海云端论坛

在前文中，我们提到了利用Web Scraper这一浏览器插件来实现爬虫的方法。然而，由于一些小伙伴对此感到困惑，本文将深入进行解释，以期望对你的学习和工作带来更多帮助。

单页面信息爬取

这是最基础也是最简单的爬虫形式，即所有目标信息都位于同一个页面上，无需进行分页处理。我们可以直接使用Web Scraper进行爬取。

😘 示例：

让我们以爬取B站排行榜中的数据为例，包括视频标题、作者、播放量和弹幕数。

所有数据都在一页，点击“Create new sitemap”创建爬虫。
创建四个选择器，分别对应视频标题、作者、播放量和弹幕数。
配置完成后，点击“Scrape”开始爬虫。
爬虫完毕后，导出结果。

发现数据比较乱，这是因为四个字段的优先级相同。为解决这个问题，我们引入了容器的概念。

认识容器

容器类似于HTML中的div，将页面中相同的div放到同一个容器中，然后从容器中读取各个div中的数据。

点击“Create new sitemap”创建容器，选择类型为Element。
在容器中创建要爬取的字段。

最终的爬虫效果如下。

爬取二级页面

在某些情况下，我们只能获取到一部分信息，而核心数据可能在二级页面中。例如，B站的点赞、投币和收藏数就在二级页面。在这种情况下，我们需要在第一个页面爬取完后，跳转到第二个页面中进行爬取。

进入容器，选择标题字段的类型为link，以便进入二级页面。
在二级页面中分别建立点赞、投币和收藏数的字段。

最终的效果如下。

爬取分页信息

很多情况下，需要爬取的信息被分页了，比如爬取B站作者的所有视频信息。可以通过观察URL的变化规律，设置相应的变量来爬取分页信息。

😷 示例：

爬取逍遥子大表哥所有视频的播放量。

创建爬虫时注意URL的规律。
效果如下。

总结

利用Web Scraper完成一些简单的爬虫任务是完全可行的。上手相对简单，但对于一些具有反爬虫机制的站点可能会遇到阻力。务必要灵活运用容器概念，以及观察和分析页面结构，才能更好地应对各种爬虫任务。

希望这篇文章能够为你的学习和工作提供一些实用的技巧。如果还有其他疑问，欢迎随时向我们提问。

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END