文字识别OCR混贴发票识别中最外层的1部分与2部分,这些个数据,分别表示什么意思呢?截取时的原图的高宽是不是用1部分的吗?若是,用的是带org还是不带org开头的?
https://help.aliyun.com/document_detail/442266.html?spm=a2c4g.442266.0.0.40ea29a1BAiMBy
此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”。
您好,文字识别OCR混贴发票识别中返回参数orgHeight 表示 原图的高度 ;height 表示 算法矫正图片后的高度;宽度的处理也是这样的逻辑
您理解的是正确的,外层位置的高度宽度,也就是您说的1位置的高度宽度是您截图时的高宽;内层的高宽也就是2位置的高宽是混贴发票截图内部的子项的高度和宽度。
阿里云混贴发票识别,是阿里云官方自研OCR文字识别产品,适用于获取多种发票集合在一个页面的场景,需要获取多种发票上的关键信息。
阿里云OCR产品基于阿里巴巴达摩院强大的AI技术及海量数据,历经多年沉淀打磨,具有服务稳定、操作简易、实时性高、能力全面等几大优势。
一般都带的,直接拉满就行
在阿里云文字识别OCR混贴发票识别中,"1部分"和"2部分"主要代表了混贴发票的不同区域或部分,具体含义如下:
"1部分":代表混贴发票中一个发票的识别结果,即一个子图的识别结果。一般情况下,每个子图对应一个发票,"1部分"表示对于该发票的识别结果。
"2部分":代表混贴发票中的其他部分,即除了每个发票外的区域或内容。在混贴发票识别中,有时候除了识别每个发票的详细内容之外,还可能提供一些其他的汇总信息或整体识别结果,这些信息通常包含在"2部分"中。
而对于截取时的原图的高和宽,根据阿里云文字识别OCR混贴发票识别接口的说明,可以使用返回的sliceRect中的orgWidth和orgHeight作为原图的宽度和高度。
具体来说,orgWidth表示原图的宽度,orgHeight表示原图的高度。在截取操作中,可以使用这两个值来指定原图的尺寸,并根据截取的区域和这两个值进行相应的计算和操作。对于原图的截取,可以根据您提供的代码示例,使用Graphics2D的drawImage方法,并使用orgWidth和orgHeight作为源图像的宽度和高度。
混贴发票指的是多张发票在同一张图片中混合出现的情况。OCR技术可以用于识别混贴发票,并对每个部分进行区分和解析。
在混贴发票识别中,通常将发票分为以下两个部分:
第一部分(1部分):也称为"主体部分"或"主体发票",是指位于混贴发票的最外层的一张发票,即整个图片中占据较大面积的部分。这部分发票往往包含了重要的基本信息,如发票代码、发票号码等。
第二部分(2部分):是指位于混贴发票的次外层的一张或多张发票,即图片中较小面积的部分。这些发票往往是作为附属发票与主体发票一起存在的,例如购买明细或增值税专用发票的明细等。
在使用OCR进行混贴发票识别时,通常会首先对整个图片进行处理和分割,将其中的第一部分和第二部分分开。然后针对每个部分单独进行文字识别和数据提取。
关于截取时的原图的高宽,通常会以第一部分作为参考。具体来说,可以使用第一部分的位置和尺寸信息来确定截取区域,以确保识别和提取的准确性。
至于带"org"还是不带"org"开头的命名方式,这可能取决于具体的实现和系统设计。在实际应用中,可以根据需要进行命名约定,以方便标识和处理不同部分的发票图像。
需要注意的是,混贴发票的识别是一项复杂的任务,可能受到图像质量、发票排列方式等因素的影响。为了获得更好的识别结果,可能需要综合使用图像处理、分割和OCR技术,并根据实际情况进行调整和改进。
楼主你好,1部分表示识别出的发票总体信息,包括发票代码、发票号码、开票日期、合计金额、合计税额等核心信息。
2部分表示发票明细信息,包括商品名称、规格型号、单位、数量、单价、金额、税率、税额等详细信息。
截取时的原图的高宽可以使用1部分中的“发票图像大小”参数,它是表示识别区域在原图中的位置和大小。该参数中的高宽都是不带org开头的。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。