python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。#coding=utf-8
importurllib.request
importre
importos
'''
Urllib模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen方法用来打开一个url
read方法用于读取Url上的数据
'''
defgetHtml(url):
page=urllib.request.urlopen(url);
html=page.read();
returnhtml;
defgetImg(html):
imglist=re.findall('imgsrc="(http.*?)"',html
returnimglist
html=getHtml("/question/34378366").decode("utf-8");
imagesUrl=getImg(html);
ifos.path.exists("D:/imags")==False:
os.mkdir("D:/imags");
count=0;
forurlinimagesUrl:
print(url)
if(url.find('.')!=-1):
name=url[url.find('.',len(url)-5):];
bytes=urllib.request.urlopen(url);
f=open("D:/imags/"+str(count)+name,'wb');
f.write(bytes.read());
f.flush();
f.close();
count+=1
经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。更多相关学习推荐,敬请访问python教程栏目~