scrapy框架解读

2024-10-29 00:51:17

scrapy是python下的数据爬取集框架,使用scrpay爬取数据与使用php原生爬取软件相比,速度更快。并且可以很快的搭建爬取程序。

工具/原料

python环境

电脑一台

框架解读

1、 如图中所示的article_zhihu就是使用scrapy startproject XXX命令生成的项目文件

scrapy框架解读

2、 之后使用scrapy genspider XXX XXXX则是生成了图片中的划线文件,并默认产生爬虫的名称和链接地址,XXX作为爬虫名,XXXX作为链接地址。

scrapy框架解读scrapy框架解读

3、 items.py是用于存放页面爬取的词类,如标题,发布时间,链接地址等。存放之后可以用于进行数据处理

scrapy框架解读

4、 middlewares.py和pipelines.py主要存放的是对爬取后数据进行处理的方法与控制的方法。

scrapy框架解读

5、 settings.py内的文件是scrapy程序的具体配置,每一个scrapy都会因为自己爬取不同而与不同的配置。

scrapy框架解读
猜你喜欢