python:基于Windows7系统,如何从网站抓取数据
1、如何安装python34环境:参考:http://www.runoob.com/python/python-install.html1.P烤恤鹇灭ython下载Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到:Python官网:https://www.python.org/你可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。Python文档下载地址:https://www.python.org/doc/2.Window 平台安装 Python以下为在 Window 平台上安装 Python 的简单步骤:1)打开 WEB 浏览器访问https://www.python.org/downloads/windows/2)在下载列表中选择Window平台安装包,包格式为:python-XYZ.msi文件 , XYZ 为你要安装的版本号。3)要使用安装程序python-XYZ.msi, Windows系统必须支持Microsoft Installer 2.0搭配使用。只要保存安装文件到本地计算机,然后运行它,看看你的机器支持MSI。Windows XP和更高版本已经有MSI,很多老机器也可以安装MSI。4)下载后,双击下载包,进入Python安装向导,安装非常简单,你只需要使用默认的设置一直点击"下一步"直到安装完成即可。3.在 Windows 设置环境变量程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。在windows环境变量中添加Python目录:方法1:在命令提示框中(cmd) :1)输入:path=%path%;C:\Python342)按下"Enter"。3)注意:C:\Python 是Python的安装目录。方法2:也可以通过以下方式设置:1)右键点击"计算机",然后点击"属性"2)然后点击"高级系统设置"3)选择"系统变量"窗口下面的"Path",双击即可。4)然后在"Path"行,添加python安装路径即可(我的D:\Python32),所以在后面添加该路径即可。ps:记住,路径直接用分号";"隔开!5)最后设置成功以后,在cmd命令行,输入命令"python",就可以有相关显示。
2、安装pycharm和pip请参考如下地址:https://jingyan.baidu.com/article/4ae03de3adb41a3eff9e6b12.html
3、python安装浏览器及其驱动:f坡纠课柩irefox浏览器1. firefox浏览器https://www.cnblogs.com/glumer/p/6088258.html1)安装火狐浏览器,用默认地址C:\Program Files (x86)\Mozilla Firefox;将Firefox路径添加到环境变量中(C:\Program Files (x86)\Mozilla Firefox;);在终端输入Firefox.exe,浏览器自动启用,则环境配置成功!!!2)下载:geckodriver:geckodriver的下载链接:https://github.com/mozilla/geckodriver/releases将geckodriver.exe放在安装过火狐浏览器的目录下,C:\Program Files (x86)\Mozilla Firefox;3)安装完成后,将火狐浏览器打开,配置selenium IDE插件。Ø打开火狐浏览器,找到最右边的菜单,选择附加组件,如图所示:Ø打开附件组件,选择“获取附件组件”,在搜索框中搜索selenium IDEØ找到selenium IDE添加到Firefox,进行安装Ø安装过后,重新启动浏览器,在工具列表下就会出现Selenium IDE;Ø安装selenium模块:win+r打开终端,在终端输入:pip installselenium;4)测试例子:打开百度页面并在输入框输入搜索内容(默认为firework)from selenium import webdriverdriver = webdriver.Firefox()driver.get("http://www.baidu.com")driver.find_element_by_id('kw').send_keys('hello')注意:Selenium 2.53.6支持Firefox47版本及以下,记得去掉“浏览器更新”,要不报错,不要随便升级Firefox!!1.解决firefox浏览器和selenium自动升级问题解决办法1:回退selenium版本比如目前firefox的版本是Firefox43那么对应的selenium应该是2.53.6版本,但是实际上Selenium被自动升级,导致版本不匹配。需要卸载selenium版本:1)先卸载:pip uninstall selenium2)再重新安装:pip install selenium==2.53.6解决办法2:升级firefox,使版本匹配一)关闭firefox自动升级1) 找到firefox安装目录:C:\Program Files (x86)\Mozilla Firefox2) 找到这个目录下的defaults\pref\channel-prefs文件(一个js文件),把里面的内容修改为pref("app.update.channel","");二)关闭selenium自动升级https://jingyan.baidu.com/article/851fbc37dc32513e1f15ab0b.html1)总体来说就是先在Firefox中自定义安装,去掉默认勾选的维护服务,然后安装好后点击选项--高级--更新,勾选不检查更新;2) 为了确保彻底禁止,需要在Firefox的配置文件夹Profiles中:(路径--C:\Users\ElZhou\AppData\Roaming\Mozilla\Firefox\Profiles\oi2o9dkj.default),在配置目录下找文件prefs.js,右键文件,选择编辑:在prefs.js文件末尾加上7行代码,代码如下:user_pref("app.update.migrated.updateDir", false);user_pref("app.update.lastUpdateTime.browser-cleanup-thumbnails", 0);user_pref("app.update.lastUpdateTime.datareporting-healthreport-lastDailyCollection", 0);user_pref("app.update.disable_button.showUpdateHistory", false);user_pref("app.update.service.enabled", false);user_pref("browser.search.update", false);user_pref("extensions.update.enabled", false);
4、(一)安装requestsrequests是一个很实用的PythonHTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。可以说,Requests 完全满足如今网络的需求。使用参考:https://www.cnblogs.com/lilinwei340/p/6417689.html
5、如果需要从现有布置好的网控环境镜像到另外一台电脑:1.Python一键安装全部依赖包(基于pip可用)pip freeze >test.txt:2. 一键安装所有包然后就可以用pip install -r test.txt 安装了