Python爬虫之与Cookies与Session同行

2024-10-12 15:17:59

1、Requests库安装：今天我们要使用Python的Requests库来实现程序的功能。所以首先要在环境里安装好Requests库。安装方式如下：1. 打开命令行对话框（在运行里输入cmd回车）2. 输入命令 pip install requests 或pip3 install requests按照以上步骤就可以自动安装完成了。

3、带用户信息的爬取：先上一段代码：import requestsdata = {"firstname": "python", "lastname": "study"}rq = requests.post("http://pythonscraping.com/pages/files/processing.php", data=data)print(rq.url) #访问的URL地址print(rq.text)# URL资源返回的结果：Hello there, python study!注意：这里用了post方法把【firstname】与【lastname】两个字段及它们的值发送到了网站，网站处理后，再返回到我们的程序。要post的数据有哪些，你可以先用浏览器正常访问网站，然后通过如下图的浏览器的调试功能来查看。

5、带cookie的登陆：先看代码：import requestsdata = {"username媪青怍牙": "python", "password": "password"}rq = requests.post("http://pythonscraping.com/pages/cookies/welcome.php", data=data) # 第一次访问print(rq.url)print(rq.cookies.get_dict())rq = requests.get("http://pythonscraping.com/pages/cookies/profile.php", cookies=rq.cookies) # 第二次访问print(rq.text)大家都知道访问网站时，在一个页面登陆之后，访问该网站其它页面都存储了这个登陆的信息，有很多网站是通过【cookie】来做到这一点的。所以在上述代码的第二次访问时，还想保留第一次的登陆的状态就要在登陆时带上cookie信息。大家可以看看第二次访问带【cookies=rq.cookies】与不带的运行结果。

7、今天要讲的内容就是以上这些。希望对大家有所帮助。如果从网络上爬下来的是一个复杂的HTML结构的内容，可以看看另一篇关于如果解析HTML内容的文章，链接在下边。不要忘记投票加收藏哦。