vlambda博客
学习文章列表

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

大家好,我是Andy!


Talk is cheap. Show me the code.

废话少说,放码过来


01.

Scrapy框架介绍 

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。通过Scrapy框架,可以非常轻松地实现强大的爬虫系统,程序员只需要将精力放在爬取规则以及如何处理爬取的数据上,至于其他外围的工作,如爬取页面、保存数据、任务调度、分布式等,直接交给Scrapy就可以了。

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy


Scrapy框架是“5+2”结构:

Engine:引擎,用来处理整个系统的数据流,根据条件触发各种事件,不需要用户修改。

Scheduler:调度器,对所有爬虫请求进行调度管理,不需要用户修改。

Downloader:下载器,根据请求从Internet下载Web资源,不需要用户修改。


Spiders:网络爬虫,接收下载器下载的原始数据,做进一步处理,需要用户编写配置代码。例如,使用XPath提取感兴趣的信息。

Item Pipeline:项目管道,以流水线方式接收从网络爬虫传过来的数据,做进一步处理,需要用户编写配置代码。例如,存入数据库,存入文本文件。

中间件:

Downloader Middlewares:下载器中间件,处理引擎与下载器之间的请求及响应。

Spider Middlewares:网络爬虫中间件,处理爬虫输入的响应和输出的结果及新的请求。

02.

Scrapy安装

使用Scrapy爬虫框架前需要安装Scrapy。

如果读者使用的是标准的Python开发环境,可以使用下面的命令来安装Scrapy:

pip install scrapy

使用这种方法可能会出错,因为安装Scrapy前需要安装依赖库,所以你可以先安装lxml、安装pyOpenSSL、安装Twisted、安装PyWin32、安装 zope 接口、配置环境变量等,然后再安装scrapy。

个人喜欢图省事,使用的是Anaconda Python开发环境,很多库、包、环境都是设置好的,只需执行下面命令即可安装Scrapy(前提是已安装Anaconda):

conda install scrapy

详细步骤如下:

1、使用Win+R,输入cmd回车,打开cmd窗口

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

 

2、输入 conda install scrapy

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

 

3、输入y回车

Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy

 

4、输入scrapy回车,查看scrapy是否安装成功



51 Day Day up!

向上向善,日进一步!

每天学习,努力成长!

定个小目标,开启成长的旅程,遇见更好的自己。

这是我们和自己的约定,许诺自己不负韶华。

路虽远,行则将至;事虽难,做则必成。

成长的最好时机,就是当下。

转发和在看

也是一种支持