1500字范文 > Python爬虫包 BeautifulSoup 递归抓取实例详解

Python爬虫包 BeautifulSoup 递归抓取实例详解

时间：2022-11-15 04:53:51

后端开发|Python教程

Python BeautifulSoup 递归抓取

后端开发-Python教程

Python爬虫包 BeautifulSoup 递归抓取实例详解

手机上门维修网站源码,vscode打开高亮,ubuntu证书失效,tomcat 写日志文件,panson爬虫,php 连字符 -,平潭有效的seo公司,游戏asp网站模板下载,医院织梦模板免费下载lzw

概要：

ip定位地图源码,右键菜单 vscode,ubuntu 放大,as连接tomcat,sqlite 去重复数据,discuz券码插件,前端开发响应式框架论文,爬虫包含指定关键词,php组合字符串,云南seo哪家不错,网站程序游戏平台,动态相册网页代码,js获取html模板值lzw

爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容，然后分析页面内容并找到另一个URL，然后获得这个URL的页面内容，不断重复这一个过程。

商家联盟网源码,vscode常用编程语言插件,ubuntu 连续按键,tomcat输出ssl日志,穿越火线爬虫,php cms有哪些,利用seo推广网站的优点,本地上传网站源代码到网站根目录,聊天室模板lzw

让我们以维基百科为一个例子。

我们想要将维基百科中凯文·贝肯词条里所有指向别的词条的链接提取出来。

# -*- coding: utf-8 -*-# @Author: HaonanWu# @Date: -12-25 10:35:00# @Last Modified by: HaonanWu# @Last Modified time: -12-25 10:52:26from urllib2 import urlopenfrom bs4 import BeautifulSoup html = urlopen(/wiki/Kevin_Bacon)bsObj = BeautifulSoup(html, "html.parser") for link in bsObj.findAll("a"): if href in link.attrs: print link.attrs[href]

上面这个代码能够将页面上的所有超链接都提取出来。

/wiki/Wikipedia:Protection_policy#semi#mw-head#p-search/wiki/Kevin_Bacon_(disambiguation)/wiki/File:Kevin_Bacon_SDCC_.jpg/wiki/San_Diego_Comic-Con/wiki/Philadelphia/wiki/Pennsylvania/wiki/Kyra_Sedgwick

首先，提取出来的URL可能会有一些重复的

其次，有一些URL是我们不需要的，如侧边栏、页眉、页脚、目录栏链接等等。

所以通过观察，我们可以发现所有指向词条页面的链接都有三个特点：

它们都在id是bodyContent的div标签里

URL链接不包含冒号

URL链接都是以/wiki/开头的相对路径（也会爬到完整的有http开头的绝对路径）

from urllib2 import urlopenfrom bs4 import BeautifulSoupimport datetimeimport randomimport re pages = set()random.seed(datetime.datetime.now())def getLinks(articleUrl): html = urlopen(""+articleUrl) bsObj = BeautifulSoup(html, "html.parser") return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=pile("^(/wiki/)((?!:).)*$")) links = getLinks("/wiki/Kevin_Bacon")while len(links) > 0: newArticle = links[random.randint(0, len(links)-1)].attrs["href"] if newArticle not in pages: print(newArticle) pages.add(newArticle) links = getLinks(newArticle)

其中getLinks的参数是/wiki/，并通过和维基百科的绝对路径合并得到页面的URL。通过正则表达式捕获所有指向其他词条的URL，并返回给主函数。

主函数则通过调用递归getlinks并随机访问一条没有访问过的URL，直到没有了词条或者主动停止为止。

这份代码可以将整个维基百科都抓取下来

from urllib.request import urlopenfrom bs4 import BeautifulSoupimport re pages = set()def getLinks(pageUrl): global pages html = urlopen(""+pageUrl) bsObj = BeautifulSoup(html, "html.parser") try: print(bsObj.h1.get_text()) print(bsObj.find(id ="mw-content-text").findAll("p")[0]) print(bsObj.find(id="ca-edit").find("span").find("a").attrs[href]) except AttributeError: print("This page is missing something! No worries though!") for link in bsObj.findAll("a", href=pile("^(/wiki/)")): if href in link.attrs:if link.attrs[href] not in pages: #We have encountered a new page newPage = link.attrs[href] print("----------------\n"+newPage) pages.add(newPage) getLinks(newPage)getLinks("")

一般来说Python的递归限制是1000次，所以需要人为地设置一个较大的递归计数器，或者用其他手段让代码在迭代1000次之后还能运行。

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

更多Python爬虫包 BeautifulSoup 递归抓取实例详解相关文章请关注PHP中文网！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。