遇到验证码束手无策?简单分析其原理,Python破…

2018-06-29 06:08:19来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

内容

Python爬虫程序员在爬取一些数据时,经常会遇到验证码的阻碍,这次教程内容就是认识验证码的一些特性,并且利用 Python 中的 pillow 库实现对验证码的突破。

稍微有难度,适合有一定的Python基础的人学习。

准备工作

  1. 安装 pillow(PIL)库,不多讲解。
  2. 下载此教程所需要的验证码文件
遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

找到 captcha.gif为本次教程所使用。

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

项目文件结构

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

步骤

1、提取文本图片

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

输出:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

颜色直方图的每一个数字都代表了在图片中含有对应位的颜色的像素的数量。

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

输出:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

得到的结果:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

2、提取单个字符图片

我们对其进行纵向切割,得到单个字符的像素集合:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

输出:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

得到每个字符开始与结束的列序号。

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

对图片进行切割,就可以得到每一个字符所在的那部分图片。

3、向量空间图像识别

用向量空间搜索引擎做字符识别

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

Python 类实现向量空间:

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

比较两个 python 字典类型并输出它们的相似度,且用 0~1 的数字表示

4、将之前的内容放在一起

用提供的训练集合进行如面的操作

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

全部的Python代码

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

5、测试

遇到验证码束手无策?简单分析其原理,Python破解验证码!

 

6、总结

此次分割图片 + 向量识别的方法只能够实现简易的验证码,当验证码复杂,需要提升系统的适应性,在原有的基础上增添新的判别方式。

遇到验证码束手无策?简单分析其原理,Python破解验证码!

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:PyCharm操作指南,Python必用的IDE难吗?上手真简单!

下一篇:Python基础-1