遇到验证码束手无策?简单分析其原理,Python破…
2018-06-29 06:08:19来源:博客园 阅读 (389)


内容
Python爬虫程序员在爬取一些数据时,经常会遇到验证码的阻碍,这次教程内容就是认识验证码的一些特性,并且利用 Python 中的 pillow 库实现对验证码的突破。
稍微有难度,适合有一定的Python基础的人学习。
准备工作
- 安装 pillow(PIL)库,不多讲解。
- 下载此教程所需要的验证码文件

找到 captcha.gif为本次教程所使用。

项目文件结构

步骤
1、提取文本图片



输出:

颜色直方图的每一个数字都代表了在图片中含有对应位的颜色的像素的数量。


输出:



得到的结果:

2、提取单个字符图片
我们对其进行纵向切割,得到单个字符的像素集合:

输出:

得到每个字符开始与结束的列序号。

对图片进行切割,就可以得到每一个字符所在的那部分图片。
3、向量空间图像识别
用向量空间搜索引擎做字符识别

Python 类实现向量空间:

比较两个 python 字典类型并输出它们的相似度,且用 0~1 的数字表示
4、将之前的内容放在一起
用提供的训练集合进行如面的操作


全部的Python代码

5、测试

6、总结
此次分割图片 + 向量识别的方法只能够实现简易的验证码,当验证码复杂,需要提升系统的适应性,在原有的基础上增添新的判别方式。

标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- xadmin邮箱验证码 标题 EmailVerifyRecord object 2019-07-24
- Python socket编程 (2)--实现文件验证登入 2019-07-24
- django celery 异步执行任务遇到的坑 2019-07-24
- python随机验证码(数字和字母组合) 2019-07-24
- python_装饰器之页面登陆验证 2019-07-24
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash