基于PaddleOCR的体检报告识别
一、项目背景与意义
面对飞速发展互联网医疗时代,医疗信息化建设已经成为医疗行业发展的趋势。经调研,约80%的医学病历是处于非结构化状态的,难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本,医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此,针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。
体检报告识别可以帮助医务服务人员自动识别录入用户征信信息,节约人力成本、提升服务效率,实现降本增效,具有重要实际意义。基于PaddleOCR已在文字识别领域取得优秀成果,本项目基于PaddleOCR实现体检报告检测与识别,对数据进行结构化处理,结合CV+NLP技术达到一定识别精度,未来推广应用场景可以基于识别信息做个性化疾病预测与健康推荐。
二、项目链接
PaddleOCR体检报告识别 - 飞桨AI Studio
三、项目流程
PaddleOCR是百度开源的超轻量级OCR模型库,本文使用其框架进行体检报告识别,本次项目具体流程包括:
PaddleOCR环境安装与快速预测
体检报告检测模型训练det
体检报告识别模型训练rec
四、技术介绍
针对PaddleOCR提供的算法模型,本次选择基础模型用于体检报告识别与检测,流程如下:
1.检测:DB算法
文字检测参考这篇:
OCR文字识别技术总结(三)__文本检测算法总结
2.识别:CRNN+CTC
CRNN可参考这篇文章:
CRNN文字识别_GoAI的博客-CSDN博客_crnn