Scrapy框架工作原理
1、引擎: 怎么样,爬虫老弟,搞起来啊!

2、Spider: 好啊,老哥,来来来,开始吧。今天就爬xxx网站怎么样
3、引擎: 没问题,入口URL发过来!
4、Spider: 呐,入口URL是https://ww.xxx.com。
5、引擎: 调度器老弟,我这有request请求你帮我排序入队一下吧。
6、调度器: 引擎老哥,这是我处理好的request。
7、引擎: 下载器老弟,你按照下载中间件的设置帮我下载一下这个request请求。
8、下载器: 可以了,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)
9、引擎: 爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。
10、Spider: 引擎老哥,我的数据处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。
11、引擎: 管道老弟,我这儿有个item你帮我处理一下!
12、引擎: 调度器老弟,这是需要跟进URL你帮我处理下。(然后从第四步开始循环,直到获取完需要全部信息)
阅读量:133
阅读量:188
阅读量:186
阅读量:24
阅读量:139