深源恒际医疗票据OCR落地九省市 服务范围覆盖过半市场

简介: 保险科技公司深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,旨在通过计算机视觉替代人力作业,大幅降低人力投入、缩短业务耗时,帮助健康险提升理赔服务效率、优化理赔服务体验。

近年来,我国健康险市场规模持续保持高增长。银保监会最新统计数据显示,2019年中国健康险业务原保险保费收入6564亿元,同比增长29.75%。同时,随着民众风险保障意识的不断提升,未来健康险仍有巨大的潜在增长空间。据天风证券研报预测,未来五年内健康险复合增速将保持在20%左右。

与市场规模呈正相关,健康险理赔案件数也在逐年走高。据了解,自2015年起,健康险理赔案件数量和赔付金额正以年均20%的速度增长。因此,如何提升服务效率、优化服务体验,成为保险机构增强市场竞争力的重要抓手。

保险科技公司深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,旨在通过计算机视觉替代人力作业,大幅降低人力投入、缩短业务耗时,帮助健康险提升理赔服务效率、优化理赔服务体验。

截至目前,该产品已先后在北京、天津、上海、广东、浙江、江苏、山东、河南及河北九省市完成落地,预估服务范围覆盖健康险过半市场。

01
切中要害 直击痛点

出于行业监管因素,目前商业医保机构无法直接获取或即时共享到投保用户的医疗信息。在涉及健康险理赔时,理算人员需要从用户提交的医疗单据上获取原始的理算数据,并将相关信息逐项录入系统,通常单个案件涉及录入的信息多达百余项。而人工录入的作业方式不够经济,一方面人工作业难免出现错漏,影响理算准确性,容易造成理赔渗漏,另一方面配置大量人力资源从事高度重复的事务性工作,耗时费力、效率低下。

深源恒际基于OCR识别技术,开发了集识别、提取、结构化功能于一体的信息识别录入自动化解决方案。在健康险核赔理算中,自动从各类医疗票据图像中识别、提取出理算所需的字段信息,并同步完成结构化录入,大幅缩短信息处理耗时,减少八成以上人力投入,使理赔效率整体提升60%-80%。同时,医疗票据OCR的应用,有助于健康险机构优化人力资源配置,基于流程自动化而释放的劳动力可参与从事对脑力依赖更强的工作。

目前,支持识别录入的票据类型包括门诊发票、住院发票、医保结算单、费用清单,字符识别准确率超过98%。

02
对症下药 攻破难点

事实上,医疗票据OCR在实际落地应用中面临诸多技术难点,如票面信息模糊、发票折叠畸变、内容重叠、信息串行等,均会对识别准确率形成干扰,给算法模型训练带来相应挑战。为降低、消弭噪音,深源恒际结合多种图像处理技术,在不损害文字信息的前提下排除干扰因素,让识别模型具备很好的抗干扰能力和鲁棒性。

image

首先,医疗票据在全国范围内没有统一的制版格式,各地版式差异明显。面对此类情形,通用OCR算法难以突破模版多样化的问题。深源恒际针对各地模版进行独立强化训练,在模型训练中增强特征提取细粒度,根据不同模版上的启发性信息辅助文字区域的定位和切分,弱化版式差异带来的不良影响。目前,已有包含北京、天津、上海、广东、浙江、江苏、山东、河南及河北九省市在内的票据模版完成针对性强化训练并发布上线。

其次,医疗票据多采用数据与格式分离的套打方式,在OCR识别中通常会带来两方面困扰:一是套打发票大多采用针式打印技术,图像分辨率低、打印字迹模糊,影响识别准确率;二是难免出现机打信息和印刷信息串行或内容重叠的情形,串行增加了信息提取难度,影响数据结构化;内容重叠造成部分信息被遮挡,在文本检测时容易导致漏检,在文本识别时容易导致误识。

深源恒际基于深度学习算法,通过图层分离技术解决了突破性地解决了套打票据识别中存在的技术难题,使识别准确率大幅提升。

图层分离:通过大量分析样本数据,提取机打部分与印刷部分的差异化特征,强化特征提取细粒度,基于深度学习方法搭建像素级图层分离模型,实现从原始图像中分离出机打信息与印刷信息,通过图层分离完成信息剥离。

坐标定位:图层分离后,基于图像识别技术获取所有文本条目的坐标信息,通过传统匹配算法完成印刷类文本条目坐标信息与机打类文本条目坐标信息的关联,实现印刷字段信息与机打字段信息的匹配,从而解决信息串行带来的干扰。

双识别模型:针对机打和印刷两类文本信息分别训练算法模型,大幅提升图层分离精确度,降低信息重叠带来的干扰。

再次,为确保理算信息完整无误,深源恒际提出“机器校验为主、人工复核为辅”的校验机制,开发了多重校验规则引擎。基于字段间的内在逻辑与关联关系,自动甄别置信度较低的字段信息,对存疑的高风险信息进行预警提示,并依据内在逻辑对可能出错的数据进行启发式纠正;对于模糊文字,则通过医疗词典库进行智能校验。综合多种方式辅助复核,快速完成数据的校验与纠正,为理算提供完整、精确的数据依据。

此外,医疗票据OCR服务与健康险理算中常用的智能理算规则引擎相衔接,可实现从信息录入到结果输出全面自动化,让健康险理赔真正驶入快车道。

未来,深源恒际将持续迭代算法模型,进一步扩大产品落地范围,在不间断的落地应用中优化产品性能,将技术创新优势延展到行业全流程中,打造全栈式智能服务。

相关文章
|
Java 应用服务中间件 Maven
Maven - 两种Tomcat插件的配置
Maven - 两种Tomcat插件的配置
1285 0
|
7月前
|
算法 测试技术 决策智能
美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s
9月1日,美团正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
514 1
|
6月前
|
人工智能 数据安全/隐私保护 开发者
一条AI指令,解决"发朋友圈不知道写啥"的千古难题
技术人发朋友圈总犯难?项目上线怕炫耀,生活瞬间不知如何表达。其实,用AI辅助写作是个妙招。关键在于给出清晰指令:明确场景、风格与需求,让AI生成真实自然、有温度的文案。本文提供一套即拿即用的AI指令模板,覆盖生活、工作、旅行等六大场景,帮你快速生成不“AI味”的朋友圈内容。省下纠结时间,真诚分享生活,才是正解。
765 10
|
6月前
|
传感器 机器学习/深度学习 监控
车库一氧化碳空气质量监控系统,沃思智能
随着城市化发展,车库空气质量问题凸显。监控系统通过实时监测CO、NOx、PM2.5等污染物,联动通风与消防设备,结合智能算法与云端管理,保障地下空间环境安全。广泛应用于住宅、商业及特种车库,助力智慧城市建设,市场前景广阔。
258 1
|
Rust 编译器
|
负载均衡 监控 网络协议
OSPF中的度量值(Metric)设置:原理与应用
OSPF中的度量值(Metric)设置:原理与应用
1620 2
|
传感器 Java 测试技术
📖Java零基础-do-while循环语句的深入剖析
【10月更文挑战第5天】本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
605 1
|
Windows
Windows——windows10下如何和子系统Ubuntu18.04互传文件
Windows——windows10下如何和子系统Ubuntu18.04互传文件
284 1
|
存储 缓存 监控
X86架构服务器硬件设计
8月更文挑战第16天
749 0