Python3网络爬虫入门实战解析.doc

上传人:白大夫 文档编号:3271885 上传时间:2019-08-07 格式:DOC 页数:3 大小:17KB
返回 下载 相关 举报
Python3网络爬虫入门实战解析.doc_第1页
第1页 / 共3页
亲,该文档总共3页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Python3网络爬虫入门实战解析.doc》由会员分享,可在线阅读,更多相关《Python3网络爬虫入门实战解析.doc(3页珍藏版)》请在三一文库上搜索。

1、Python3网络爬虫入门实战解析网络爬虫简介网络爬虫,也叫网络蜘蛛(WebSpider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。在浏览器的地址栏输入URL地址,在网页处右键单击,找到检查。(不同浏览器的叫法不同,Chrome浏览器叫做检查,Firefox浏览器叫做查看元素,但是功能都是相同的)我们可以看到,右侧出现了一大推代码,这些代码就叫做HTML。什么是HTML?举个容易理解的例子:我们的基因决定了我们的原始容貌,服务器返回的HTML决定了网站的原始容貌。为啥说是原始容貌呢?因为人可以整容啊!扎心了,有木有?那网站也可以整容吗?可以!

2、请看下图:我能有这么多钱吗?显然不可能。我是怎么给网站整容的呢?就是通过修改服务器返回的HTML信息。我们每个人都是整容大师,可以修改页面信息。我们在页面的哪个位置点击审查元素,浏览器就会为我们定位到相应的HTML位置,进而就可以在本地更改HTML信息。再举个小例子:我们都知道,使用浏览器记住密码的功能,密码会变成一堆小黑点,是不可见的。可以让密码显示出来吗?可以,只需给页面动个小手术!以淘宝为例,在输入密码框处右键,点击检查。可以看到,浏览器为我们自动定位到了相应的HTML位置。将下图中的password属性值改为text属性值(直接在右侧代码处修改):我们让浏览器记住的密码就这样显现出来了

3、:说这么多,什么意思呢?浏览器就是作为客户端从服务器端获取信息,然后将信息解析,并展示给我们的。我们可以在本地修改HTML信息,为网页整容,但是我们修改的信息不会回传到服务器,服务器存储的HTML信息不会改变。刷新一下界面,页面还会回到原本的样子。这就跟人整容一样,我们能改变一些表面的东西,但是不能改变我们的基因。2、简单实例网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。requests库是第三方库,需要

4、我们自己安装。requests库强大好用,所以本文使用requests库获取网页的HTML信息。requests库的github地址:https:/github/requests/requests(1)requests安装在cmd中,使用如下指令安装requests:pip install requests或者:easy_install requests(2)简单实例requests库的基础方法如下:官方中文教程地址:http:/docs.python-requests/zh_CN/latest/user/quickstartlrequests库的开发者为我们提供了详细的中文教程,查询起来很方

5、便。本文不会对其所有内容进行讲解,摘取其部分使用到的内容,进行实战说明。首先,让我们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。我们可以这样理解:get的中文意思是得到、抓住,那这个requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。让我们看一个例子(以 gitbook为例)来加深理解:# -*- coding:UTF-8 -*-import requestsif _name_ = _main_: target = http:/gitbook/ req = requests.get(url=target) print(req.text)requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。运行程序看下结果:左侧是我们程序获得的结果,右侧是我们在gitbook网站审查元素获得的信息。我们可以看到,我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例,可能你会问,我只是爬取了这个网页的HTML信息,有什么用呢?客官稍安勿躁,接下来会有网络小说下载(静态网站)和优美壁纸下载(动态网站)实战,敬请期待。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1