vlambda博客
学习文章列表

python+Ocr.dll 突破搜狗站长网址推送验证码

今天我在做SEO收录提升工具集的搜狗推送功能的时候,发现搜狗根本没有推送URL的接口,不过好在有一个地方可以推送URL,如下图:

但是一次只能提交20个URL并且还需要验证码,这就有点困难了,本来打算用请求验证码识别平台返回验证码结果,但考虑到如果每天都要使用的话验证码识别费用也是一笔不小的开销,所以破解掉搜狗验证码势在必行
先把 验证码 下载下来
python+Ocr.dll 突破搜狗站长网址推送验证码
没想到验证码竟然不是一张图片,而是一个SVG

python+Ocr.dll 突破搜狗站长网址推送验证码
这里解释一下SV G ,简单来说就是用代码绘制成 图片 无法直接下载 保存为图片
我们这里就需要用python 把SVG转成jpg格式的图片保存下来
这里我们用到的库为svglib
  
    
    
  
from reportlab.graphics import renderPM from svglib.svglib import svg2rlg
for i in range(100): res = requests.get('http://zhanzhang.sogou.com/api/user/generateVerifCode')
f = io.StringIO(res.text) drawing = svg2rlg(f) renderPM.drawToFile(drawing, f"img/{i}.png", fmt="PNG")
python+Ocr.dll 突破搜狗站长网址推送验证码
转换下载完成
调用ocr.dll进行验证码识别
ocr.dll据说是一个易语言编写的动态链接库,训练了大量图形验证码,识别成功率非常高
但是 仅运行在32位Python中,因为ocr.dll它们是使用语言训练而成的,而易语言是32位的..
那么动态链接库,python中如何调用呢
  1. 导入ctypes 库

  2. 选择要调用的动态链接库,ctypes.windll.LoadLibrary可以调用动态链接库

  3. 初始化方法

  4. 请求验证码转成PNG格式的字节流并临时存储在内存中

  5. 调用ocr.dll动态链接库中的ocr方法

  6. 传入 PNG格式的字节流和字节流长度 这两个参数

  7. 返回结果

下面是代码demo

import ctypesimport osimport requestsimport iofrom reportlab.graphics import renderPMfrom svglib.svglib import svg2rlgos.environ['GLOG_minloglevel'] = '4'ocr = ctypes.windll.LoadLibrary('../utils/ocr.dll')ocr.init()crack_func = ocr.ocr

res = requests.get('http://zhanzhang.sogou.com/api/user/generateVerifCode')f = io.StringIO(res.text)drawing = svg2rlg(f)img = renderPM.drawToString(drawing,fmt="PNG")img_len = len(img)ret = str(ctypes.string_at(crack_func(img, img_len)), encoding='utf-8')print(ret)

测试识别结果


对比一下原图,可以看到验证码识别率是非常高的,最重要的是不需要花一分钱去打码
不光是搜狗站长的验证码,市面上常见的数字字母组合验证码都可以轻松破解
感兴趣的同学私信发源码