Day115|Scrapy爬虫框架简介与使用Anaconda安装Scrapy
大家好,我是Andy!
Talk is cheap. Show me the code.
废话少说,放码过来
01.
Scrapy框架介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。通过Scrapy框架,可以非常轻松地实现强大的爬虫系统,程序员只需要将精力放在爬取规则以及如何处理爬取的数据上,至于其他外围的工作,如爬取页面、保存数据、任务调度、分布式等,直接交给Scrapy就可以了。
Engine:引擎,用来处理整个系统的数据流,根据条件触发各种事件,不需要用户修改。
Scheduler:调度器,对所有爬虫请求进行调度管理,不需要用户修改。
Downloader:下载器,根据请求从Internet下载Web资源,不需要用户修改。
Spiders:网络爬虫,接收下载器下载的原始数据,做进一步处理,需要用户编写配置代码。例如,使用XPath提取感兴趣的信息。
Item Pipeline:项目管道,以流水线方式接收从网络爬虫传过来的数据,做进一步处理,需要用户编写配置代码。例如,存入数据库,存入文本文件。
中间件:
Downloader Middlewares:下载器中间件,处理引擎与下载器之间的请求及响应。
Spider Middlewares:网络爬虫中间件,处理爬虫输入的响应和输出的结果及新的请求。
02.
Scrapy安装
使用Scrapy爬虫框架前需要安装Scrapy。
如果读者使用的是标准的Python开发环境,可以使用下面的命令来安装Scrapy:
pip install scrapy
使用这种方法可能会出错,因为安装Scrapy前需要安装依赖库,所以你可以先安装lxml、安装pyOpenSSL、安装Twisted、安装PyWin32、安装 zope 接口、配置环境变量等,然后再安装scrapy。
个人喜欢图省事,使用的是Anaconda Python开发环境,很多库、包、环境都是设置好的,只需执行下面命令即可安装Scrapy(前提是已安装Anaconda):
conda install scrapy
详细步骤如下:
1、使用Win+R,输入cmd回车,打开cmd窗口
2、输入 conda install scrapy
3、输入y回车
4、输入scrapy回车,查看scrapy是否安装成功
51 Day Day up!
向上向善,日进一步!
每天学习,努力成长!
定个小目标,开启成长的旅程,遇见更好的自己。
这是我们和自己的约定,许诺自己不负韶华。
路虽远,行则将至;事虽难,做则必成。
成长的最好时机,就是当下。
转发和在看
也是一种支持