PaddleOCR学习笔记 01-PaddleOCR简介

简介: 《PaddleOCR学习笔记 01-PaddleOCR简介》涵盖了PaddleOCR的基础介绍、OCR技术概览、PaddleOCR的开源状态及主要算法,包括文字检测与识别算法、百度自研的SAST、SRN和End2End-PSL等,以及9m超轻量模型的介绍。适合初学者入门学习。

PaddleOCR学习笔记 01-PaddleOCR简介

视频链接:https://www.bilibili.com/video/BV1nf4y1U7RX?p=4

官网地址:https://github.com/PaddlePaddle/PaddleOCR

入门教程:https://aistudio.baidu.com/aistudio/projectdetail/467229

OCR简介

image-20210319084824874

image-20210319084920478

image-20210319085015245

image-20210319085141214

image-20210319085309535

PaddleOCR开源情况

image-20210319085537431

image-20210319085604546

PaddleOCR文字检测算法

image-20210319085811326

17年cvpr,基于回归

弃用了anchor,多通道的FCN接一个NMS,对feature map的每个像素点都有一个检测结果

image-20210319090018061

image-20210319090217415

image-20210319090600079

image-20210319090825390

image-20210319090953127

基于分割的方法可以检测不规则的文本,更加准确。

image-20210319091228823

总的来说,在本地的话使用模型resnet50_vd比较好一些,在端侧使用mobilenetv3比较好些。

PaddleOCR文字识别算法

image-20210319091615079

image-20210319091916464

image-20210319092226967

image-20210319092246663

PaddleOCR总结

image-20210319092416895

image-20210319092450764

百度自研文本检测算法-SAST

image-20210319092558983

image-20210319093201559

百度自研文字识别算法-SRN

image-20210319093144856

image-20210319093624447

百度自研端到端算法-End2End-PSL*

image-20210319093803760

image-20210319094115799

image-20210319094201440

PaddleOCR 9m超轻量模型

image-20210319094237193

image-20210319094250137

image-20210319094323856

image-20210319094426465

image-20210319094457240

结束

image-20210319094822801

image-20210319094944208

image-20210319095010063

image-20210319095127265

image-20210319095228216

image-20210319095337424

image-20210319095419033

image-20210319095812466

image-20210319100522602

image-20210319100702474

目录
相关文章
|
并行计算 Linux C语言
PaddleOCR
PaddleOCR
1368 0
|
10月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
计算机视觉
Opencv学习笔记(三):图像二值化函数cv2.threshold函数详解
这篇文章详细介绍了OpenCV库中的图像二值化函数`cv2.threshold`,包括二值化的概念、常见的阈值类型、函数的参数说明以及通过代码实例展示了如何应用该函数进行图像二值化处理,并展示了运行结果。
3649 0
Opencv学习笔记(三):图像二值化函数cv2.threshold函数详解
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
3838 2
|
机器学习/深度学习 编解码 监控
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章详细介绍了如何使用YOLOv8进行目标检测任务,包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。
21712 59
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
并行计算
PaddleOCR环境配置
PaddleOCR环境配置
469 1
|
机器学习/深度学习 算法 计算机视觉
卷积神经网络(CNN)的工作原理深度解析
【6月更文挑战第14天】本文深度解析卷积神经网络(CNN)的工作原理。CNN由输入层、卷积层、激活函数、池化层、全连接层和输出层构成。卷积层通过滤波器提取特征,激活函数增加非线性,池化层降低维度。全连接层整合特征,输出层根据任务产生预测。CNN通过特征提取、整合、反向传播和优化进行学习。尽管存在计算量大、参数多等问题,但随着技术发展,CNN在计算机视觉领域的潜力将持续增长。
1102 3
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
机器学习/深度学习 编解码 文字识别
【开源】轻松实现车牌检测与识别:yolov8+paddleocr【python源码+数据集】
【开源】轻松实现车牌检测与识别:yolov8+paddleocr【python源码+数据集】
|
机器学习/深度学习 人工智能 文字识别
AI计算机视觉笔记二十:PaddleOCR环境搭建及测试
OCR技术广泛应用于日常生活中,与人脸识别一样常见。PaddleOCR是一个基于飞桨的OCR工具库,具有超轻量级中文OCR模型,支持中英文数字组合、竖排及长文本识别。本文档详细介绍了PaddleOCR的学习过程,包括环境搭建、安装、样本标注及测试步骤。使用AutoDL云平台进行环境创建,并提供了详细的命令行操作指南,帮助用户顺利完成PaddleOCR的部署与测试。
1183 1