阿里云文字识别(OCR)通用文字识别-全文识别高精版产品说明

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 阿里云读光通用识别类OCR识别产品,可将各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了能够更好的还原文字信息和文档结构,读光文档识别在通用全文识别能力(文字定位、行分析、文字识别)的基础上,增加了文档结构的版面分析和文档图像处理能力,使得文档类图像也能按照结构化的方式进行文档元素提取,进一步提升文档识别的产品体验。本文着重介绍通用文字识别-全文识别高精版产品各参数说明。

请求参数

1.Action (String) 必选

示例值:RecognizeAdvanced
描述:系统规定参数。取值:RecognizeAdvanced。

2.Url (String) 非必选

示例值:https://img.alicdn.com/tfs/TB1Wo7eXAvoK1RjSZFDXXXY3pXa-2512-3509.jpg
描述:图片链接(长度不超 2048,不支持 base64)。

3.OutputCharInfo (Boolean) 非必选

示例值:false
描述:是否输出单字识别结果。

4.NeedRotate (Boolean) 非必选

示例值:false
描述:是否需要自动旋转功能(结构化检测、混贴场景、教育相关场景会自动做旋转,无需设置),返回角度信息。

5.OutputTable (Boolean) 非必选

示例值:false
描述:是否输出表格识别结果,包含单元格信息。

6.NeedSortPage (Boolean) 非必选

示例值:false
描述:是否按顺序输出文字块。false表示从左往右,从上到下的顺序;true表示从上到下,从左往右的顺序。

返回数据

1.RequestId (String) 请求唯一 ID

示例值:43A29C77-405E-4CC0-BC55-EE694AD00655

2.Data (String) 返回数据

{ "content": "2017年河北区实验小学", "height": 3509, "orgHeight": 3509, "orgWidth": 2512, "prism_version": "1.0.9", "prism_wnum": 126, "prism_wordsInfo": [{ "angle": -89, "direction": 0, "height": 541, "pos": [{ "x": 982, "y": 223 }, { "x": 1522, "y": 223 }, { "x": 1522, "y": 266 }, { "x": 982, "y": 266 }], "prob": 99, "width": 43, "word": "2017年河北区实验小学", "x": 1230, "y": -26 }], "width": 2512 }

3.Code (String) 状态码

示例值:200/400/404/500/503

4.Message (String) 详细信息

示例值:message

SDK依赖

<dependency>
  <groupId>com.aliyun</groupId>
  <artifactId>ocr_api20210707</artifactId>
  <version>1.1.2</version>
</dependency>

JAVA示例代码

// This file is auto-generated, don't edit it. Thanks.
package com.aliyun.sample;

import com.aliyun.tea.*;
import com.aliyun.ocr_api20210707.*;
import com.aliyun.ocr_api20210707.models.*;
import com.aliyun.teaopenapi.*;
import com.aliyun.teaopenapi.models.*;

public class Sample {

    /**
     * 使用AK&SK初始化账号Client
     * @param accessKeyId
     * @param accessKeySecret
     * @return Client
     * @throws Exception
     */
    public static com.aliyun.ocr_api20210707.Client createClient(String accessKeyId, String accessKeySecret) throws Exception {
        Config config = new Config()
                // 您的AccessKey ID
                .setAccessKeyId(accessKeyId)
                // 您的AccessKey Secret
                .setAccessKeySecret(accessKeySecret);
        // 访问的域名
        config.endpoint = "ocr-api.cn-hangzhou.aliyuncs.com";
        return new com.aliyun.ocr_api20210707.Client(config);
    }

    public static void main(String[] args_) throws Exception {
        java.util.List<String> args = java.util.Arrays.asList(args_);
        com.aliyun.ocr_api20210707.Client client = Sample.createClient("accessKeyId", "accessKeySecret");
        RecognizeAdvancedRequest recognizeAdvancedRequest = new RecognizeAdvancedRequest()
                .setUrl("https://img.alicdn.com/tfs/TB1Wo7eXAvoK1RjSZFDXXXY3pXa-2512-3509.jpg")
                .setOutputCharInfo(true)
                .setNeedRotate(true);
        // 复制代码运行请自行打印 API 的返回值
        client.recognizeAdvanced(recognizeAdvancedRequest);
    }
}

参考文章:文字识别(OCR)通用文字识别-全文识别高精版

目录
相关文章
|
2月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
6月前
|
文字识别 API 开发工具
印刷文字识别使用问题之如何提高OCR的识别率
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
|
文字识别 前端开发 API
印刷文字识别操作报错合集之通过HTTPS连接到OCR服务的API时报错,该如何处理
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
5月前
|
机器学习/深度学习 文字识别 算法
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
392 0
|
6月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
6月前
|
JSON 文字识别 数据格式
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
|
6月前
|
文字识别 Java API
印刷文字识别操作报错合集之复制文字识别OCR的标注任务时出现报错,该怎么办
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
7月前
|
文字识别 自然语言处理 开发工具
印刷文字识别产品使用合集之OCR统一识别功能已开通,响应为200但没有content信息,是什么原因
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
7月前
|
文字识别 API
印刷文字识别产品使用合集之如何创建RAM用户和阿里云账号的访问密钥
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
7月前
|
文字识别
印刷文字识别产品使用合集之可以支持对哪些类型的票据进行识别支持数电发票的ocr识别吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章