第4天-爬虫进阶篇
经过三天爬虫入门篇章学习之后,我们有两条路可以走
一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展
另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题(企业用人要求),然后再深入学习它的源码等知识,进一步强化。
框架概述
爬虫框架,其中比较好用的是 Scrapy 和 PySpider。
PySpider
优点:分布式框架,上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。
缺点:自定义程度低
Scrapy
优点:自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,拿来研究分布式和多线程等等是最合适不过的。
缺点:非分布式框架(可以用scrapy-redis分布式框架)
Scrapy
官方文档:
http://doc.scrapy.org/en/latest/intro/tutorial.html
豆瓣Python小组:
https://www.douban.com/search?q=python+%E7%88%AC%E8%99%AB
企业招聘要求: