Python3，自动识别图片文字，这个库，我爱了。

2022-11-03 48375

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

票证核验，票证核验 50次/账号

自定义KV模板，自定义KV模板 500次/账号

OCR统一识别，每月200次

简介： Python3，自动识别图片文字，这个库，我爱了。

1、引言

小鱼：小屌丝，你在干啥呢？

小屌丝：我女神给我的任务啊，把图片上的文字都给写下来。

小鱼：这图片上的文字，可不少啊，你都是手敲的？？

小屌丝：可不，不然还有啥法子？

小鱼：我敬佩你是一条汉子。

小屌丝：鱼哥，难道你有什么好的法子？

小鱼：嗯，突然想到的， OCR 。

小屌丝：那你还不赶紧救救我，

小鱼：唉~ ~ 好吧…

图像识别，这里就要提到OCR了，

但是提到OCR，又不得不提到的两个库：

cnocr ：识别图片的汉字；

Pytesseract：识别图片的英文

分别对图片的文字的中文和英文进行识别的。

话不多说，我们直接代码示例演示。

2、Cnocr

2.1 安装

老规矩，直接pip 安装

pip install cnocr

其它安装方式，直接看这两篇:

《Python3，选择Python自动安装第三方库，从此跟pip说拜拜！！》

《Python3：我低调的只用一行代码，就导入Python所有库！》

提示一下，

cnocr下的torch 有161.8MB，

所以下载的话，最好在网速快或者国内镜像网站进行下载，否则就会下载失败。

2.2 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能：
  识别图片中的汉字
'''
from cnocr import CnOcr
#图片名称
file_name = './data/cn_name.png'
ocr = CnOcr()
result = ocr.ocr(file_name)
print(f"Predicted Chars:{result}")

3、Pytesseract

3.1 安装

1、pytesseract，

老规矩，直接pip 安装

pip install pytesseract

2、Tesseract

Windows版本，需要手动安装，下载地址如下：

Tesseract-OCR：https://github.com/tesseract-ocr/tesseract/wiki

下载完成后，手动添加路径到到环境变量(path)里面即可。

3.1 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能：
  识别图片中的英文
'''
import pytesseract
from PIL import Image
#图片名称
file_name = './data/en_name.png'
#打开图片
image = Image.open(file_name)
result = pytesseract.image_to_string(image, lang='eng')
print(f'识别结果：{result}')

4、总结

看到这里，今天的分享就到这里了。

关于识别图片中的文字，这里例举了OCR中的 cnocr 与pytesseract，

其实代码很简单，只是安装过程中需要一点点的耐心。

Python3，自动识别图片文字，这个库，我爱了。

1、引言

2、Cnocr

2.1 安装

2.2 代码示例

3、Pytesseract

3.1 安装

3.1 代码示例

4、总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python3，自动识别图片文字，这个库，我爱了。

1、引言

2、Cnocr

2.1 安装

2.2 代码示例

3、Pytesseract

3.1 安装

3.1 代码示例

4、总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像