vlambda博客
学习文章列表

Chrome助力,轻松上手网页爬虫技巧。




获取更多粉丝福利





iSlide会员(13个月)内置30万PPT模板
Chrome助力,轻松上手网页爬虫技巧。 小通优品
89
Microsoft 365正版订阅(15个月)
Chrome助力,轻松上手网页爬虫技巧。 小通优品
99

通过本文,轻松Get爬虫技能。






Chrome插件



Web Scraper 可在您的浏览器中自动提取网站数据。通过一个简单的点击式界面,从网站提取数千条记录的能力只需要几分钟的鼠标设置。

安装方法就不BB了,Edge浏览器去搜就好了。

Chrome助力,轻松上手网页爬虫技巧。

Web Scraper 提供以下功能:

 * 从多个页面抓取数据;

 * 多种数据提取类型(文本、图像、URL 等);

 * 从动态页面中抓取数据(JavaScript + AJAX,无限滚动);

 * 浏览抓取的数据;

 * 将抓取的数据从网站导出到 Excel;

 * 它仅依赖于网络浏览器;因此,您无需额外的软件即可开始抓取。






Web Scraper 



下面举一个例子,,来详细说明这个插件的使用方法。
1. 首先,启用开发者模式,按快捷键F12
Chrome助力,轻松上手网页爬虫技巧。
2. 为方便显示,建议将停靠方位设置为:下
Chrome助力,轻松上手网页爬虫技巧。
3. 这样就很方便的找到Web Scraper这个插件按钮了。
点击Create sitemap
Chrome助力,轻松上手网页爬虫技巧。
4. 输入名称和要爬虫的网址
Chrome助力,轻松上手网页爬虫技巧。
4. 点击新建
Chrome助力,轻松上手网页爬虫技巧。
5. Type设置为Element,点击Select后,点击电影区域,选两个就会自动全选了。点击Done selecting
Chrome助力,轻松上手网页爬虫技巧。
6. 勾上Multiple,点击Save selector
Chrome助力,轻松上手网页爬虫技巧。
7. 点击新建的这个movie,在它的子目录下进行下一步操作
Chrome助力,轻松上手网页爬虫技巧。
8. 同样的点击新建
Chrome助力,轻松上手网页爬虫技巧。
9. 小哥哥想要把豆瓣这个Top250导出为excel,提取其中的序号、电影名、评分和评分人数.
首先新建一个selector,用来提取序号。点击序号区域,如下图所示,type为text,multiple不勾选
Chrome助力,轻松上手网页爬虫技巧。
10. 点击保存
Chrome助力,轻松上手网页爬虫技巧。
11. 用同样的方法,新建其它三项
Chrome助力,轻松上手网页爬虫技巧。
12. 点击Scrape,就可以开始爬了
Chrome助力,轻松上手网页爬虫技巧。
13. 点击导出数据,就完成本页数据的爬虫了。
Chrome助力,轻松上手网页爬虫技巧。
14. 再分享一个技巧:点击Edit metadata,修改URL就可以爬下一页,其它设置不用修改
Chrome助力,轻松上手网页爬虫技巧。



Web Scrape:

https://microsoftedge.microsoft.com/addons/detail/web-scraper-free-web-sc/jfmdjnnfminejadhegajcjbpgjofnkaj?hl=zh-CN

示例网页:https://movie.douban.com/top250?start=0&filter=
(把start=0改为start=25就是Top250的第二页了)