开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR有办法开放出来表格识别的charInfo吗?有数字和汉字,pos算出来单字坐标不准确

文字识别OCR有办法开放出来表格识别的charInfo吗?有数字和汉字,pos算出来单字坐标不准确

展开
收起
真的很搞笑 2024-01-04 07:57:59 51 0
2 条回答
写回答
取消 提交回答
  • 文字识别OCR技术在表格识别方面的确已经取得了一些进展,特别是微软亚洲研究院提出的TSRFormer算法,它在复杂场景中表格结构识别的任务上表现出了优越的性能。TSRFormer算法是基于拆分-合并范式的方法,通过直接回归的方式来预测分割线,有效地解决了无实线边框、包含大量空白单元格或跨行跨列单元格的表格,以及行列之间存在大片空白区域等的识别问题。

    对于您提到的charInfo,这通常是指字符级别的信息,包括每个字符的内容及其在表格中的位置。在OCR技术中,字符识别后通常会伴随位置信息的输出,这对于表格这种结构化的文档尤为重要。位置信息可以帮助我们了解每个字符在表格中的精确坐标,这对于表格数据的提取和分析非常关键。

    如果您希望提高单字坐标的准确性,可以尝试使用一些先进的OCR工具包,如CnOCR,它内部集成了场景文字检测功能,能够检测文字行,进而提供单字的坐标位置。CnOCR工具包支持多种语言和数字的识别,包括竖排文字,并且提供了简单的训练命令,用户可以根据需要训练自己的模型。

    此外,您还可以关注一些专门针对表格识别的开源工具和研究。例如,有一些基于深度学习的框架,如PaddleOCR(ppocr),它提供了一些预训练的模型,这些模型能够识别不同类型的表格,包括竖排文字。

    为了提高表格中字符位置识别的准确性,您可以采取以下措施:

    1. 图像预处理:确保扫描件或图片质量足够高,并进行适当的图像预处理,如二值化、降噪和调整对比度等,这有助于提高OCR的准确性。

    2. 区域切割:针对表格部分进行准确的切割,可以借助图像处理库如OpenCV来确定感兴趣区域的坐标和尺寸,并提取出表格部分进行OCR识别。

    3. 模型选择和调整:根据您的应用场景选择合适的OCR模型,并尝试调整模型参数以获得最佳性能。对于表格文字,可以选择专门针对表格设计的识别模型,这些模型往往对表格结构的识别更有优势。

    4. 后处理:在OCR识别后,可以对结果进行后处理,如矫正识别错误、修正位置信息等,进一步提高识别的准确性。

    通过这些技术,您可以改善表格中字符位置识别的准确性,从而更有效地利用OCR技术处理表格数据。

    2024-01-06 11:54:28
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    文字识别OCR技术在对表格进行识别时,的确可能遇到数字和汉字混合,位置计算不准确的问题。针对这种情况,一些OCR服务提供商提供了高级的表格识别功能,如阿里云表格识别和百度AI开放平台的表格文字识别等。这些服务不仅能够高精度地识别文字,还能将识别结果结构化输出,包括各表格的表头表尾内容、单元格文字内容及其行号列号等信息。

    此外,这些高级功能还支持用户自定义抽取字段,通过平台可视化引导,完成数据标注和模型训练。这样,您可以根据实际情况调整识别模型,使其更符合您的需求。

    2024-01-04 17:52:32
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载