python爬虫的工作步骤

2024-10-12 19:36:53

1、如下图所示,爬虫从编写的spider文件中的start_urls开始,这个列表中的url就是爬虫抓取的第一个网页,它的返回值是该url对应网页的源代码,我们可以用默认的parse(self,response)函数去打印或解析这个源代码

python爬虫的工作步骤

2、我们获取到源代码之后,就可以从网页源代码中找到我们想要的信息或需要进一步访问的url,提取信息这一步,scrapy中集成了xpath,正则(re),功能十分强大,提取到信息之后会通过yield进入到中间件当中。

python爬虫的工作步骤python爬虫的工作步骤python爬虫的工作步骤
猜你喜欢