1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > python3使用urllib模块制作网络爬虫

python3使用urllib模块制作网络爬虫

时间:2020-06-11 02:48:34

相关推荐

python3使用urllib模块制作网络爬虫

后端开发|Python教程

python3,urllib

后端开发-Python教程

urllib

163k x4 源码,vscode 更换终端,ubuntu ,Tomcat安装向导,sqlite查看表所有列名,javascript 弹出层插件,除了框架前端面试还问什么,如何判断是爬虫爬取,php开始结束,湖北seo学习课程,导航网站系统设计,最新网页爬虫,创意h5模板lzw

urllib模块是python3的URL处理包

http 源码,ubuntu 配制用户权限,爬虫可以爬豆瓣,php 公告,seo报告分析lzw

其中:

青果源码,vscode通过域名,ubuntu输入不了空格,tomcat tls 设置,lua写sqlite,jquery实现不同倒计时插件,有哪些前端ui框架,python 爬虫 重复,下载php源码,seo 文章发布,美图手机网站源码下载,在线网页聊天源码,网站模板小偷破解版,炫酷的网站页面切换效果,在押人员信息管理系统,免费帝国4493美图网站程序lzw

1、urllib.request主要是打开和阅读urls

个人平时主要用的1:

打开对应的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, …]),来伪装成对应的浏览器

import urllib#要伪装成的浏览器(我这个是用的chrome)headers = (User-Agent,Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36)url=/opener = urllib.request.build_opener()#将要伪装成的浏览器添加到对应的http头部opener.addheaders=[headers]#读取相应的urldata = opener.open(url).read()#将获得的html解码为utf-8data=data.decode(utf-8)print(data)

2、urllib.parse主要是用来解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:将对应的URL解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

import urllibo = urllib.parse.urlparse(http://www.cwi.nl:80/%7Eguido/Python.html)print(o)print(o.path)print(o.scheme)print(o.port)print(o.geturl())

对应的结果:

ParseResult(scheme=’http’, netloc=’www.cwi.nl:80′, path=’/%7Eguido/Python.html’, params=”, query=”, fragment=”)

/%7Eguido/Python.html

http

80

http://www.cwi.nl:80/%7Eguido/Python.html

2、构建一个新的url——urllib.parse.urljoin(base, url)

参数:base:基本的URL链接

url:另一个url

from urllib.parse import urljoina=urljoin(http://www.cwi.nl/%7Eguido/Python.html, FAQ.html)print(a)

结果:http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接

3、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 URLError和HTTPError

因为HTTPError是URLError的子类,所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。

try: data=urllib.request.urlopen(url) print(data.read().decode(utf-8))except urllib.error.HTTPError as e: print(e.code)except urllib.error.URLError as e: print(e.reason)

结果:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

如果捕获到了HTTPError,则输出code,不会再处理URLError异常。如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。