初探Web爬虫:小试身手的爬虫入门体验

Web Scraper是一款便捷的网站数据提取工具,类似于爬虫,但无需编写繁琐的Python代码,使用门槛较低,适用于轻度的数据爬取需求。

安装插件

首先,直接访问 “Chrome 网上应用店”,搜索 Web Scraper 并下载安装。请注意,由于某些原因,我们需要在开发者模式下进行安装。

图片[1]-初探Web爬虫:小试身手的爬虫入门体验-山海云端论坛
图片[2]-初探Web爬虫:小试身手的爬虫入门体验-山海云端论坛

开始使用

  1. 打开浏览器并按F12打开控制台,将控制台放在网页下方,然后进入Web Scraper Tab,进入Web Scraper的控制页面。
  2. 点击“Create Sitemap”按钮,创建第一个爬虫。
  3. 点击“Add new selector”按钮,创建一个选择器,用于选择想要抓取的元素。在这里以豆瓣电影Top 250为例,选择标题进行测试。
    • 参数说明:
      • ID: 爬取内容的名称,如name。
      • Type: 爬取内容的文本类型,如txt或number。
      • Multiple: 勾选上,因为要抓取批量数据。
      • 点击完成后,点击“Done selecting”。
  4. 点击Data preview,预览抓取到的数据。
  5. 在顶部的tab栏中,找到刚刚创建的爬虫,点击它,再点击下拉菜单里的“Scrape”按钮,开始数据抓取。
  6. 抓取完毕后,点击刷新按钮,查看抓取的数据。
  7. 点击Sitemap下的“Export data as CSV”,将数据导出成.csv格式。

爬取多页数据

如果需要爬取多页的数据,我们需要分析每个页面的链接变化规律。

  • 第一页:https://movie.douban.com/top250
  • 第二页:https://movie.douban.com/top250?start=25&filter=
  • 第三页:https://movie.douban.com/top250?start=50&filter=

通过对比不同页面的链接,发现链接中的参数start=在发生变化。因此,我们可以将其添加为变量,例如start=[0-250]。

图片[3]-初探Web爬虫:小试身手的爬虫入门体验-山海云端论坛

最终效果

通过以上步骤,您可以轻松使用Web Scraper工具进行网站数据提取,无需繁琐的代码编写,实现快捷高效的数据爬取。

图片[4]-初探Web爬虫:小试身手的爬虫入门体验-山海云端论坛
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容