pytesseract库的安装和使用
2018-09-10 01:06:24来源:博客园 阅读 ()
在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR
1. 安装pytesseract
pip insatll pytesseract
2. 安装pillow
pip install pillow
3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract)
4. 安装完后将Tesseract-OCR的安装路径添加到环境变量中PATH和Path中都要添加
例如:
5. 在python的安装路径下的修改安装的pytesseract库里面的pytesseract.py,将默认的改成Tesseract-OCR的安装路径
7. 配置完了开始撸代码吧
运行后发现会报错
用Google查了一下,发现是因为验证码的图片模式为RGBA,是无法分配调色盘给透明通道的。更换为RGB模式则不会出现该问题。
对原先的代码修改一下,变为:
修改后就能正常使用了。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:Python净化百度搜索结果!真正的做到无广告环境!
下一篇:Python_装饰器
- Python3安装impala 2019-08-13
- Django项目中使用qq第三方登录。 2019-08-13
- python指定pip安装源 2019-08-13
- Python连载30-多线程之进程&线程&线程使用 2019-08-13
- Python学习日记(十) 生成器和迭代器 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash