前几天在csdn首页看到一个大佬爬取看准网数据并分析的博客,自己搞了一下,各种问题,已超过目前的认知领域,so,先从基本的做起吧,一点点添加新内容。
本次任务为爬取马蜂窝旅行达人的游记照片,之前搞过几次马蜂窝,中间停顿过长,再次回归吧。
上代码:
import reimport urllib.requestimport osfrom lxml import etreedef savePhoto(soup,path):print(u"开始保存图片")img=soup.xpath(//img/@data-src)total_img=0for myimg in img:total_img += 1print(myimg)urllib.request.urlretrieve(myimg,path+\%s.jpg\%total_img)print(u"已经保存第",total_img,u"张照片")print(u"总共保存第",total_img,u"张照片")def getTitle(soup):result=soup.xpath(//div/h1/text())[0]result=re.sub(\\
,\,result)result=re.sub(\|,\,result) print("title:"+result)if result:return resultelse:return Nonedef mkdi