Scrapy

Scrapy，Python开发的一个快速,高层次的web抓取框架；

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy使用了Twisted 异步网络库来处理网络通讯。

Scrapy运行流程大概如下：

（1）调度器(Scheduler)从待下载链接中取出一个链接(URL)

（2）调度器启动采集模块Spiders模块

（3）采集模块把URL传给下载器（Downloader），下载器把资源下载下来

（4）提取目标数据，抽取出目标对象（Item）,则交给实体管道（item pipeline）进行进一步的处理；比如存入数据库、文本

（5）若是解析出的是链接（URL）,则把URL插入到待爬取队列当中