1、引言
小鱼:小屌丝,你在干啥呢?
小屌丝:我女神给我的任务啊,把图片上的文字都给写下来。
小鱼:这图片上的文字,可不少啊,你都是手敲的??
小屌丝:可不,不然还有啥法子?
小鱼:我敬佩你是一条汉子。
小屌丝:鱼哥,难道你有什么好的法子?
小鱼:嗯,突然想到的, OCR 。
小屌丝:那你还不赶紧救救我,
小鱼:唉~ ~ 好吧…
图像识别,这里就要提到OCR了,
但是提到OCR,又不得不提到的两个库:
cnocr :识别图片的汉字;
Pytesseract:识别图片的英文
分别对图片的文字的中文和英文进行识别的。
话不多说,我们直接代码示例演示。
2、Cnocr
2.1 安装
老规矩,直接pip 安装
pip install cnocr
其它安装方式,直接看这两篇:
《Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!》
《Python3:我低调的只用一行代码,就导入Python所有库!》
提示一下,
cnocr下的torch 有161.8MB,
所以下载的话,最好在网速快或者国内镜像网站进行下载,否则就会下载失败。
2.2 代码示例
代码示例
# -*- coding:utf-8 -*- # @Time : 2022-10-16 # @Author : Carl_DJ ''' 实现功能: 识别图片中的汉字 ''' from cnocr import CnOcr #图片名称 file_name = './data/cn_name.png' ocr = CnOcr() result = ocr.ocr(file_name) print(f"Predicted Chars:{result}")
3、Pytesseract
3.1 安装
1、pytesseract,
老规矩,直接pip 安装
pip install pytesseract
2、Tesseract
Windows版本,需要手动安装,下载地址如下:
Tesseract-OCR:https://github.com/tesseract-ocr/tesseract/wiki
下载完成后,手动添加路径到到环境变量(path)里面即可。
3.1 代码示例
代码示例
# -*- coding:utf-8 -*- # @Time : 2022-10-16 # @Author : Carl_DJ ''' 实现功能: 识别图片中的英文 ''' import pytesseract from PIL import Image #图片名称 file_name = './data/en_name.png' #打开图片 image = Image.open(file_name) result = pytesseract.image_to_string(image, lang='eng') print(f'识别结果:{result}')
4、总结
看到这里,今天的分享就到这里了。
关于识别图片中的文字,这里例举了OCR中的 cnocr 与pytesseract,
其实代码很简单,只是安装过程中需要一点点的耐心。