python opencv识别并提取表格数据-阿里云开发者社区

python opencv识别并提取表格数据

2022-06-18 2541

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

票据凭证识别，票据凭证识别 200次/月

教育场景识别，教育场景识别 200次/月

小语种识别，小语种识别 200次/月

简介： 使用opencv、PaddleOCR 识别表格并提取表格数据

表格识别效果图

思路参考

获取表格

之前我想获取表格是通过canny+HoughLines处理的。
但是这里是通过腐蚀（erode）和膨胀（dilate）得到边界线条的图片。
然后合并在一起形成一个表格
根据轮廓检测函数（findContours）提取表格
ocr文字识别

文字提取
上面用过的tesseract对于中文的识别效果不明显；
我这里改为了使用PaddleOCR

代码

import cv2
import numpy as np
from paddleocr import PaddleOCR

image = cv2.imread(r'D:/BaiduNetdiskDownload/kearsImg/bank_/test222.webp', 1)
image_copy = image.copy()
#二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
binary = cv2.adaptiveThreshold(~gray, 255,
             cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 15, -10)
# cv2.imshow("cell", binary)
# cv2.waitKey(0)

rows,cols=binary.shape
scale = 20
#识别横线
kernel  = cv2.getStructuringElement(cv2.MORPH_RECT,(cols//scale,1))
eroded = cv2.erode(binary,kernel,iterations = 1)
#cv2.imshow("Eroded Image",eroded)
dilatedcol = cv2.dilate(eroded,kernel,iterations = 1)
#cv2.imshow("Dilated Image",dilatedcol)
#cv2.waitKey(0)

#识别竖线
kernel = cv2.getStructuringElement(cv2.MORPH_RECT,(1,rows//scale))
eroded = cv2.erode(binary,kernel,iterations = 1)
dilatedrow = cv2.dilate(eroded,kernel,iterations = 1)
#cv2.imshow("Dilated Image",dilatedrow)
#cv2.waitKey(0)

#标识交点
bitwiseAnd = cv2.bitwise_and(dilatedcol,dilatedrow)
#cv2.imshow("bitwiseAnd Image",bitwiseAnd)
#cv2.waitKey(0)

#标识表格
merge = cv2.add(dilatedcol,dilatedrow)
#cv2.imshow("add Image",merge)
#cv2.waitKey(0)

contours, hierarchy = cv2.findContours(merge, cv2.RETR_TREE, cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image, contours, -1, (0, 0, 255), 3)
cv2.imshow("findContours",image)
cv2.waitKey(0)

ocr=PaddleOCR(use_angle_cls = True,use_gpu= True) #使用CPU预加载，不用GPU
contours.reverse()
msg = []
for i in range(0,len(contours)-1):
    #if cv2.contourArea(contours[i])>10:
        x,y,w,h=cv2.boundingRect(contours[i])
        im = image_copy[y:y + h, x:x + w]
        #cv2.imshow("im", im)
        #cv2.waitKey(0)
        text = ocr.ocr(im, cls=True)
        if(len(text)==0):
            continue

        text2 = ""
        for t in text:
            if t[1][0] == "":
                continue
            text2 += t[1][0]
            #print(t[1][0])
        msg.append(text2.replace("\n", ""))
for j in range(0,len(msg)):
    print("---",msg[j])
cv2.waitKey(0)

提取效

python opencv识别并提取表格数据

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python opencv识别并提取表格数据

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像