Tesseract-OCR安装及使用

本文涉及的产品
文档理解,结构化解析 100页
通用文字识别,通用文字识别 200次/月
自定义KV模板,自定义KV模板 500次/账号
简介: Tesseract-OCR安装及使用

1、tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/


     其中带有dev的为开发版本,作者下载的版本为:tesseract-ocr-setup-3.05.01.exe


2、双击ex进行安装,同意协议并继续。



为.png

   勾选Additional language data(download)选项支持识别的语言包。


我.png


    选择安装目录


前.png


   安装完成


其.png


3、配置环境变量,在path里面添加Tesseract-OCR的安装目录。



请.png

   在CMD里面验证,是否安装成功,输入tesseract -v,出现以下信息则表示安装成功。


q1.png

4、在python里面使用tesseract。安装pytesseract。


pip install pytesseract

5、使用


from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open(r'test.png'))
print(text)

运行报错:pytesseract.pytesseract.TesseractError: (1,’Error opening data file /usr/local/share/tessdata/eng.traineddata’)。解决办法为添加系统变量TESSDATA_PREFIX,值为D:\Program Files (x86)\Tesseract-OCR\tessdata。然后重启以下电脑即可。

去.png

相关文章
|
4月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
|
文字识别
autojs之浩然ocr-不安装插件就能用ocr
使用场景 不想安装浩然ocr插件
1622 0
光学字符识别引擎 Tesseract-ocr 安装过程
上篇我们对 Tesseract-ocr 做了一个简要的介绍,下面我们来看一下  的安装过程。 注意:这里只是当你不想去下载源代码进行编译或优化、修改、定制的情况,使用现有的安装包去安装使用。 安装包下载地址: 稳定版:https://digi.
1328 0
|
4月前
|
文字识别
印刷文字识别使用问题之是否支持非标发票的识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
存储 文字识别 运维
印刷文字识别使用问题之如何开通统一识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
文字识别 容器
印刷文字识别使用问题之是否支持医疗检测报告识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
文字识别 数据安全/隐私保护 iOS开发
印刷文字识别使用问题之如何识别礼品册上的卡号、密码信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
机器学习/深度学习 文字识别 API
印刷文字识别使用问题之是否支持识别香港和澳门食品经营许可证
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
下一篇
无影云桌面