1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 【python爬虫】求人不如求己 自己动手写一个CSDN博客备份小工具?

【python爬虫】求人不如求己 自己动手写一个CSDN博客备份小工具?

时间:2021-08-16 16:41:22

相关推荐

【python爬虫】求人不如求己 自己动手写一个CSDN博客备份小工具?

求人不如求己,自己动手写一个CSDN博客备份小工具?

如果觉得对你有帮助,能否点个赞或关个注,以示鼓励笔者呢?!博客目录 | 先点这里

前提概要背景cabtool实践基础爬虫实践(一)分析如何爬取博客的markdown内容(二)分析如何批量爬取博客的markdown(三)如何模拟登录,获得cookies使用说明方式一方式二

前提概要

背景

因为笔者在上个月的时候,突然想扩展一下技术栈,不能仅仅局限于Java,还是得掌握一门工具语言,不然显得太low。所以也就对Python和Golang类的语言有了一些兴趣。也就在上个月简单的学习了Python3。但是呢,苦于没有时间也没有项目可以实践,所以爬虫就成为了避免忘记python的最佳实践

同时笔者发现在CSDN写的笔记好像也堆积了八九十篇啦。但是CSDN好像却没有类似简书一键导出的备份功能。于是之前没有数据备份意识的我本来想着从GayHub找找现成的Tool, 也不知道为什么GayHub上Tool不是过时了,就是效果不太符合我的意愿。个人琢磨着应该是大牛们嫌太简单,懒得放出来。于是,求人不如求己,虽然之前没有实践过爬虫,但还是花了半天的时间,把这个cab-tool小工具是写出来啦

本着记录笔记的,分享大众的原则,于是本博就出来了

cabtool

什么是CAB-Tool?这是什么玩意。其实就是csdn-article-backup-tool的缩写。为什么要缩写,本质就是装的一手好逼(狗头)

所以有需要的童鞋,可以去GibHub - CAB-Tool上顺手牵羊,支持小白式exe文件启动哈

实践基础

基本的python语法基础,懂一丢丢requests,beautifulsoup4库(简单的即可)会使用fiddle4对网络请求抓包需要知道基础的web知识

因为博客备份工具还挺简单的,所以涉及内容并不复杂,主要是CSDN本身也没有防爬机制,所以只要了解简单爬虫知识的同学,都可以自己动手做一份,实践一下。

爬虫实践

(一)分析如何爬取博客的markdown内容

首先我们并不是根据爬取html,然后根据博文的html解析成markdown文本,因为每个编辑器都有自己的一些特俗规则。使用第三方库解析html,很可能得不到我自己想要的效果。所以我的直接策略就是,看能否直接从平时我们写markdown文字的编辑器中获取。

我们可以随便选择自己写过的一篇文章,点击编辑(必须是markdown文章,非富文本写的),同时打开浏览器的开发者工具(我是Chrome)

因为点击编辑,就会触发/mdeditor/95618910#请求,我们就会进入markdown编辑器,编辑器会请求获取文章的markdown内容。所以我们就点开浏览器的开发者工具的Network选项,勾选XHR。于是我们就可以看到只剩两条请求。逐行分析那个URL才是获得markdown文本内容的请求。经过在response,preview简单的查看,很容易就能够知道第一个并没有什么卵用。只有第二个/mdeditor/getArticle?id=95618910才是我们需要的。而95618910就是这篇文章在csdn中的唯一文章id

从上面的开发者工具中,我们就可以知道编辑器请求markdown内容的url是什么了,这就是成功的第一步,所以这个要记住!既/mdeditor/getArticle?id=。因为已经得到请求数据的url,所以我们就要开始模拟请求,让程序可以请求该url, 并获得数据。也因为要模拟请求,那我肯定得知道url是什么类型的请求,请求头带有什么数据,是否有body对吧。所以我们继续从浏览器的开发者工具对该请求进行分析

从上,我们就可以知道请求是get请求,走的https协议,请求头数据也都有了。包括cookies!(额,我之前应该是无法通过浏览器直接看到https请求的header的,也就是说这个url的headers是对我隐藏的。可能是在用fiddler4分析时,安装了证书吧,毕竟这方面的知识有些十分薄弱。总之,如果你在浏览器的开发者工具中无法分析出url的请求头,可以使用fiddler4对其分析,fiddler4默认是不监听https请求,但可以开启,这个方法百度即可)

请求的所有参数,我们都知道了。我们就可以在程序中模拟请求,让其自动化啦!(之前,可以用postman模拟)

以上,我们就可以得到单篇的文章的markdown内容啦!!Wow !剩下的就要做如何把所有文章的markdown内容都获取到 。同时这里提醒一下。因为markdown编辑器是需要用户登录才能访问的,所以必须要带有正确的cookies,否则是会提醒你权限不足,要求登录的奥,既Cookies的获取也是十分重要的一步

(二)分析如何批量爬取博客的markdown

从上面,我们知道了如何爬取单篇文章的markdown ,很简单,只要通过url + 文章id就可以了。那我们如何批量爬取呢?也很简单。如果我们一开始就知道自己所有文章的id集合, 然后遍历请求不就可以了嘛。

没错,但是我们怎么拿到所有文章的ID集合呢?这就是我们要解决的问题

如何爬取所有文章的ID集合,思路也很简单,我们知道自己的主页,会显示一列列的博客,点击博客就能跳转到对应的博文,所以简单的分析一下,我们就可以知道,自己主页一页会列出大概20篇文章的URL, 而这些URL的后缀就是文章ID。我们要做的就是得到请求主页的URL, 获得返回的HTML ,从HTML中找到一页的所有文章的URL, 并用正则表达式,从URL中截取出文章ID

从上,我们就可以知道主页是/SnailMann, 主页中文章列表会存在文章ID,可以爬取获取。所以我们在通过requests获取主页的html之后,通过bs4先找到文章列的对应的article-list的div内容,再递归找到article-item-box csdn-tracking-statistics的div内容。然后的通过正则表达式获得每一行data-articleid=后面的ID

以上,我们就得到主页中一页所有文章的ID,例如我目前就有5页,所以就需要爬取5页,然后汇总。怎么爬所有页呢?首先要知道跳页的URL/SnailMann/article/list/2?, 然后要知道自己总共有多少页

跳页URL很容易就知道了,总共多少页要怎么知道呢?这个我也不知道为什么呀,python爬取的html中并没有<div class = pagination-box>内部的内容。所以最后只能曲线救国,在一个js脚本找到,文章总数和每页大小,通过ceil(文章总数 / 每页大小)就是用户的总页数,比如我的ceil(89 / 20) = 5,ceil就是向上取整的意思

总之通过以上的一顿操作,我们就可以通过py爬虫,抓取到所有页的文章ID,汇总成一个集合。然后遍历该集合,我们就可以获得所有文章的markdown内容啦!!!

(三)如何模拟登录,获得cookies

为什么要模拟登录,拿到cookies呢?因为从markdown编辑器中获取markdown文本内容,需要用户登录,所以我们请求markdown内容的请求必须带上cookies,否者是会被提示无权限访问,需要用户登录的。

当然最简单的做法就是从浏览器上把cookies复制下来,放到代码中,写死。但是这样不灵活,每次都需要浏览器登录,复制cookies,写死代码。所以我们就直接在程序上模拟登录,直接获得cookies就好啦!!!

这里浏览器就抓不到登录的链接了,所以我们还得切换成更牛逼的fiddler4, 从中,我们可以知道URL是/v1/register/pc/login/doLogin, 请求类型是Post, Headers图中都有。

既然是Post请求,那肯定有Body呀,账号密码也就是在body中传递的,点击TextView就可以看到Body,然后我们就可以看到登录请求传递了5个属性。pwdOrVerifyCode是你的密码,userIdentification是你的账号(为了防止泄露,我这里对内容做了修改)

现在要知道的东西都知道了,我们就可以在程序模拟登录了。url和headers从fiddler4拷贝就行了。主要是body的数据,在代码中就是data字典。我们默认loginType就是1,不变。账号密码修改成自己的,uaToken,webUmidToken经过测试,不用管,为空即可

def dologin(self, username='', password=''):"""Simulated login CSDN account:param username::param password::return:"""url = '/v1/register/pc/login/doLogin'urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36','referer': '/login','origin': '','content-Type': 'application/json;charset=UTF-8','x-requested-with': 'XMLHttpRequest','accept': 'application/json, text/plain, */*','accept-encoding': 'gzip, deflate, br','accept-language': 'zh-CN,zh;q=0.9','connection': 'keep-alive','Host': ''}data = {'loginType': '1','pwdOrVerifyCode': str(password),'userIdentification': str(username),'uaToken': '','webUmidToken': ''}# login in csdn and get responseres = requests.post(url, data=json.dumps(data), headers=header, verify=False)# login errorif not res.status_code == 200:raise Exception(res.text)# assemble user data (username and cookies)body = res.json()cookies = requests.utils.dict_from_cookiejar(res.cookies)

以上就完成了模拟登录,获取cookies的过程

(四)总结

大体思路分为三个部分:

先做到获取一个文章的markdown内容再做到批量获取所有文章的markdown内容再通过模拟登录获取cookies做到自动化

总之,求人不如求己,简单的小例子,自己动手,丰富实践喔

本节重点讲解的是思路,因为小细节太繁琐,时间也有限呢,代码可以直接去我的GayHub看如果浏览器无法看到https请求的headers,可以使用fiddler4查看,前提是fiddler4开启了https请求监控喔

cabtool使用说明

方式一

如果你是没有任何python基础的同学,或是懒得安装py环境。没有关系,这里也是支持小白式运行的

点击cab-tool releases,下载cabtool.exe的最新版本双击运行cabtool.exe就好啦

方式二

第一步

CAB-Tool 开源地址把项目克隆本地git clone git@:SnailMann/CAB-Tool.git确保本地有python3的环境, 并且可以使用pip安装依赖进入项目目录,命令行输入pip install -r requirements.txt,使用pip安装py项目的必要依赖

第二步

打开setting.yaml配置文件按照yaml规范填写CSDN的账号密码按照yaml规范在download-path填写本地导出地址,不填默认为D:\csdn-blog-backup填写是否开启图片备份(True,False

第三步

确认配置无误后项目路径打开命令行,输入py main.py

链接

/SnailMann/CAB-Tool

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。