Python做简单的验证码识别(ocr)

本文涉及的产品
文档理解,结构化解析 100页
小语种识别,小语种识别 200次/月
票据凭证识别,票据凭证识别 200次/月
简介:

1、环境:

系统:XP

Python版本:2.7.5

2、所需文件:

wKioL1Lc21LBEt2GAABXOaBfAgs848.jpg

(1)、pillow地址:https://pypi.python.org/pypi/Pillow/

(2)、tesseract地址:https://github.com/tesseract-ocr

(3)、pytesser地址:https://code.google.com/p/pytesser/

3、安装

(1)、pillow和tesseract直接双击安装,没什么值得注意的。

(2)、pytesser无需安装,解压到某个文件夹,让后添加环境变量(PYTHONPATH)。比如walker的PYTHONPATH环境变量值是 C:\Python27\Lib\site-packages\pytesser_v0.0.1

注意:将pytesser_v0.0.1目录下pytesser.py第6行的import Image改为from PIL import Image

4、测试

wKiom1Lc4KmikVlFAABl75YI0G4983.jpg

其中图片:

wKioL1Lc4M6iHsRoAAANN43JkXI931.jpg 3.jpg

wKiom1Lc4PHivm7uAAANEmofN3Q454.jpg 13.jpg

5、可以看到,识别并不是很精确。可以将得到的字符串转为大写,取出可能的字符,比如上面的验证码可能的字符集为 大写字母和数字,将两个字符串的大写字母和数字取出来是可以得到正确验证码的。

6、如果发现彩色图片不能识别,可以先将其转换为黑白图片再识别。(PIL模式介绍

1
2
3
4
5
from  PIL  import  Image
 
image  =  Image. open (r 'D:\tmp\in.jpg' )
image  =  image.convert( "1" )     #转换成黑白图片  
image.save(r 'D:\tmp\out.jpg' )


推荐阅读:

1、验证码图片字符识别两种python实现方法

2、tesseract-ocr tips

3、Python图像处理库PIL的基本概念介绍。(pillow.readthedocs.iopillow-zh-cn.readthedocs.io

4、Python图像处理库PIL中图像格式转换(一)


*** walker * 2014-01-20 ***

本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1353180如需转载请自行联系原作者


RQSLT

相关文章
|
9月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
488 0
|
4月前
|
数据采集 自然语言处理 API
Python反爬案例——验证码的识别
Python反爬案例——验证码的识别
67 2
|
4月前
|
人工智能 文字识别 API
Python反爬机制-验证码(二)
Python反爬机制-验证码(二)
33 1
|
4月前
|
数据采集 自然语言处理 Python
用 Python 生成并识别图片验证码
用 Python 生成并识别图片验证码
101 1
|
4月前
|
数据采集 消息中间件 API
Python爬虫验证码识别——手机验证码的自动化处理
Python爬虫验证码识别——手机验证码的自动化处理
200 0
|
4月前
|
文字识别 开发者 iOS开发
Python反爬机制-验证码(一)
Python反爬机制-验证码(一)
48 0
|
6月前
|
机器学习/深度学习 人工智能 文字识别
轻松识别文字,这款Python OCR库支持超过80种语言
轻松识别文字,这款Python OCR库支持超过80种语言
346 2
|
7月前
|
机器人 计算机视觉 Python
使用Python生成图片验证码
本文介绍了如何使用Python的PIL库生成简单的验证码图片和文本。通过实现CaptchaGenerator类,我们可以轻松生成包含随机字符和干扰元素的验证码。这种技术可以应用于Web应用程序中,用于增强用户验证的安全性和可靠性。
|
7月前
|
文字识别 前端开发 Java
印刷文字识别使用问题之如何使用Python SDK来上传图片并获取识别结果
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
9月前
|
人工智能 开发工具 Python
2024年利用Python突破验证码限制,2024年最新Python高级开发工程师面试题
2024年利用Python突破验证码限制,2024年最新Python高级开发工程师面试题
2024年利用Python突破验证码限制,2024年最新Python高级开发工程师面试题

热门文章

最新文章