1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 爬虫逆向——某建筑市场监管平台的滑块验证码分析

爬虫逆向——某建筑市场监管平台的滑块验证码分析

时间:2018-10-08 10:46:43

相关推荐

爬虫逆向——某建筑市场监管平台的滑块验证码分析

目录

网址链接:

正文:

一、思路分析

二、图片处理

三、完整代码

网址链接:

aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw=

(bs64解密可见)

正文:

注:分步的代码为示例代码,文章最后会给出图像处理部分的完整代码

一、思路分析

1、首先看验证码样式,可以看到是个滑块验证,包含一张带缺口的背景大图和一张用于拖动的小图,这类图片处理起来就比较简单。

2、再看图形验证码接口,请求没什么特别需要注意的参数

重点看一下响应预览,返回数据是一个列表,观察可知0、1元素分别是小图和大图的bs64编码,2、3元素用处下面会用到

3、画错一次验证码看看请求结果

4、在请求载荷中有moveX,verifyid。verifyid结合第二步,可知是请求图形验证码接口返回参数中的元素2;moveX应该就是拖动小图进行平移的距离。其他参数除了翻页pageIndex和列表大小pageSize外固定不变。

5、看图片可知,正确的的moveX应该是背景大图缺口的左侧边缘到背景大图左侧边缘的距离,只需要计算出这个长度即可

二、图片处理

大致分为4步:

原图:

1、二值化处理:缺口处填充空白,其他部分填充黑色。其中先对图片进行高斯模糊处理,然后做了灰度处理,最后进行二值化处理。高斯模糊等图像处理相关的看这里:python-opencv 图像处理(滤波,噪点,模糊)

以下是相关示例代码:

# 读取图片image = cv2.imread(img1)# 高斯模糊GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)GAUSSIAN_BLUR_SIGMA_X = 0image = cv2.GaussianBlur(image, GAUSSIAN_BLUR_KERNEL_SIZE, GAUSSIAN_BLUR_SIGMA_X)# 二值化gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) ##要二值化图像,必须先将图像转为灰度图ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)# 另存为cv2.imwrite(img2, binary)

下面是处理后的图片:

2、边缘检测:

名词解释为图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的那些像素集合。

图像中两个灰度不同的相邻区域的交界处,必然存在灰度的快速过渡或称为跳变,它们与图像中各区域边缘的位置相对应,边缘蕴含了丰富的内在信息,如方向、阶跃性质、形状等,沿边缘走向的像素变化平缓,而垂直于边缘方向的像素变化剧烈。

绘制上图空白处的边缘后结果如下:

3、 绘制外接矩形:

为方便计算距离,这里需要绘制出上图的最小外接矩形,结果如下:

4、 计算外接矩形到图像左侧的距离:

实际上在绘制外接矩形时会得到矩形的边界坐标,其中最小的(x,y)为矩形的左上角坐标;最大的(x,y)为矩形的右下角坐标。即最小的坐标x就是验证码接口中的 moveX参数。

运行结果如下:

最后将得到的距离作为moveX参数去请求校验接口即可。

三、完整代码

为便于观察,将每一步的图片都进行了保存

import cv2from PIL import Imagefrom loguru import loggerclass OcrImg():def __init__(self):# 验证码原图self.img1 = './b1.png'# 二值化后的图片self.img2 = './b2.png'# 边缘检测后的图片self.img3 = './b3.png'# 绘制边缘矩形后的图片self.img4 = './b4.png'self.GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)self.GAUSSIAN_BLUR_SIGMA_X = 0self.CANNY_THRESHOLD1 = 200self.CANNY_THRESHOLD2 = 450def main(self, input_img_file='./b1.png'):self.img1 = input_img_fileself.threshold_By_OTSU()self.detectEdge()x1 = self.get_contours()logger.info('缺口距左侧边缘 {} 个像素'.format(x1))return x1# 图片预处理def threshold_By_OTSU(self):# 读取图片image = cv2.imread(self.img1)# 高斯模糊image = cv2.GaussianBlur(image, self.GAUSSIAN_BLUR_KERNEL_SIZE, self.GAUSSIAN_BLUR_SIGMA_X)# 二值化gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) ##要二值化图像,必须先将图像转为灰度图ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)cv2.imwrite(self.img2, binary)# 求图像img中(x,y)处像素的卷积cdef convolute(self, img, x, y):juanjihe = [1, 1, 1, 1, -8, 1, 1, 1, 1]L = []xl = [x - 1, x, x + 1]yl = [y - 1, y, y + 1]for j in yl:for i in xl:gray = img.getpixel((i, j)) # 取出灰度值L.append(gray)c = 0for i, j in zip(juanjihe, L):c = c + i * jreturn c# 边缘检测def detectEdge(self):img1 = Image.open(self.img2) img1 = img1.convert('L') w, h = img1.sizeimg2 = Image.new('L', (w, h), 'white') for x in range(1, w - 1):for y in range(1, h - 1):c = self.convolute(img1, x, y) if c > 0:s = 0else:s = 255img2.putpixel((x, y), s) img2.save(self.img3)# 绘制外接矩形def get_contours(self):image = cv2.imread(self.img3)# 图像转灰度图img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# 图像转二值图ret, thresh = cv2.threshold(img, 2, 255, cv2.THRESH_BINARY_INV)contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)x1 = []y1 = []x2 = []y2 = []for c in contours:# 找到边界坐标x, y, w, h = cv2.boundingRect(c)if x != 0 and y != 0 and w != image.shape[1] and h != image.shape[0]:cv2.rectangle(image, (x, y), (x + w, y + h), (215, 42, 32), 2)x1.append(x)y1.append(y)x2.append(x + w)y2.append(y + h)x11 = min(x1)y11 = min(y1)x22 = max(x2)y22 = max(y2)print(x11, y11, x22, y22)cv2.imwrite(self.img4, image)cv2.waitKey(0)return x11if __name__ == '__main__':ocr = OcrImg()# 传入图片位置ocr.main('./a.png')

注:本篇博客只对验证码图片进行了技术分析,不做任何数据抓取存储等操作。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。