Web Scraper是一款便捷的网站数据提取工具,类似于爬虫,但无需编写繁琐的Python代码,使用门槛较低,适用于轻度的数据爬取需求。
安装插件
首先,直接访问 “Chrome 网上应用店”,搜索 Web Scraper 并下载安装。请注意,由于某些原因,我们需要在开发者模式下进行安装。
开始使用
- 打开浏览器并按F12打开控制台,将控制台放在网页下方,然后进入Web Scraper Tab,进入Web Scraper的控制页面。
- 点击“Create Sitemap”按钮,创建第一个爬虫。
- 点击“Add new selector”按钮,创建一个选择器,用于选择想要抓取的元素。在这里以豆瓣电影Top 250为例,选择标题进行测试。
-
- 参数说明:
- ID: 爬取内容的名称,如name。
- Type: 爬取内容的文本类型,如txt或number。
- Multiple: 勾选上,因为要抓取批量数据。
- 点击完成后,点击“Done selecting”。
- 参数说明:
- 点击Data preview,预览抓取到的数据。
- 在顶部的tab栏中,找到刚刚创建的爬虫,点击它,再点击下拉菜单里的“Scrape”按钮,开始数据抓取。
- 抓取完毕后,点击刷新按钮,查看抓取的数据。
- 点击Sitemap下的“Export data as CSV”,将数据导出成.csv格式。
爬取多页数据
如果需要爬取多页的数据,我们需要分析每个页面的链接变化规律。
- 第一页:https://movie.douban.com/top250
- 第二页:https://movie.douban.com/top250?start=25&filter=
- 第三页:https://movie.douban.com/top250?start=50&filter=
通过对比不同页面的链接,发现链接中的参数start=在发生变化。因此,我们可以将其添加为变量,例如start=[0-250]。
最终效果
通过以上步骤,您可以轻松使用Web Scraper工具进行网站数据提取,无需繁琐的代码编写,实现快捷高效的数据爬取。
© 版权声明
THE END
暂无评论内容