python实战===用python识别图片中的中文

2018-06-23 13:27:18来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折

需要安装的模块

PIL

pytesseract

需要下载的工具:

http://download.csdn.net/download/bo_mask/10196285

因为之前百度云的链接总失效,所以上传到了csdn,如果csdn没有积分的朋友可以到qq群:152376662 的群文件中下载

下载解压后,安装到默认的路径下,安装完成后如下图1:

 

 

并且复制解压文件的chi_sim.traineddata 文件到安装路径 C:\Program Files (x86)\Tesseract-OCR\tessdata  下图2,图3:

好的,如果你上面所有安装完了,那么还有最后一步,更改配置文件,位置如下图4:

打开后将原来的注释掉,新增:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
# tesseract_cmd = 'tesseract'

tesseract_cmd = u'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'        #此路径是你安装后的路径,对应的是图1的路径

 保存!环境配置结束~



 

 

如下图,保存为111.png:

 

#test.py

from
PIL import Image import pytesseract text=pytesseract.image_to_string(Image.open('111.png'),lang='chi_sim') print(text)

执行结果:

 

(─.─|||   。。。 。。。。

 

 


总结:

  1. 用到的模块本身不具备识别汉字的功能,因此引入了第三方工具。
  2. 从执行效果来看,能力还有待提高。

 

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Python day 8(5) 内置函数学习3

下一篇:Python中str()与__str__、repr()与__repr__区别与关系