Python爬虫之与Cookies与Session同行
1、Requests库安装:今天我们要使用Python的Requests库来实现程序的功能。所以首先要在环境里安装好Requests库。安装方式如下:1. 打开命令行对话框(在运行里输入cmd回车)2. 输入命令 pip install requests 或pip3 install requests按照以上步骤就可以自动安装完成了。

3、带用户信息的爬取:先上一段代码:import requestsdata = {"firstname": "python", "lastname": "study"}rq = requests.post("http://pythonscraping.com/pages/files/processing.php", data=data)print(rq.url) #访问的URL地址print(rq.text)# URL资源返回的结果:Hello there, python study!注意:这里用了post方法把【firstname】与【lastname】两个字段及它们的值发送到了网站,网站处理后,再返回到我们的程序。要post的数据有哪些,你可以先用浏览器正常访问网站,然后通过如下图的浏览器的调试功能来查看。

5、带cookie的登陆:先看代码:import requestsdata = {"username媪青怍牙": "python", "password": "password"}rq = requests.post("http://pythonscraping.com/pages/cookies/welcome.php", data=data) # 第一次访问print(rq.url)print(rq.cookies.get_dict())rq = requests.get("http://pythonscraping.com/pages/cookies/profile.php", cookies=rq.cookies) # 第二次访问print(rq.text)大家都知道访问网站时,在一个页面登陆之后,访问该网站其它页面都存储了这个登陆的信息,有很多网站是通过【cookie】来做到这一点的。所以在上述代码的第二次访问时,还想保留第一次的登陆的状态就要在登陆时带上cookie信息。大家可以看看第二次访问带【cookies=rq.cookies】与不带的运行结果。

7、今天要讲的内容就是以上这些。希望对大家有所帮助。如果从网络上爬下来的是一个复杂的HTML结构的内容,可以看看另一篇关于如果解析HTML内容的文章,链接在下边。不要忘记投票加收藏哦。
