2017年1月4日,国家人口与健康科学数据共享平台在国家人口与健康科技资源发布会上,首次向社会发布我国人口与健康领域的大数据资源。本次发布的大数据数据量高达49.1TB、2.8亿条,包括生物医学、基础医学、临床、公共卫生、中医药学、药学、人口与生殖健康七大类。
中国工程院院士、共享平台管理中心主任刘德培院士说,此次发布的数据较为详尽地反映了我国居民健康状况。以我国国民体质与健康数据库的建设为例,抽样调查了16个省份的48个县市居民,其中4省还进行了二次跟踪调查,指标涉及12大类、240余项,还包括生理信号和图像类数据。
据刘德培介绍,为保护数据提供者权益和个人隐私,共享平台在建设过程中,自动为每个数据集提供唯一标识,并为数据提供者创立电子注册证书。在数据导出时,去掉个人姓名等关键信息,实现个人隐私安全。
平台承担了健康数据建设重任
2016年10月,“健康中国2030”规划纲要强调推进健康医疗大数据应用。国家人口与健康科学数据共享平台在此背景下向社会发布我国人口与健康领域的大数据资源,对落实国家人口与健康大数据政策有着重大意义。作为中国科学数据共享工程重大项目立项的国家人口与健康科学数据共享平台承担着国家科技重大专项、科技计划、重大公益专项等人口健康领域科学数据汇交、数据加工、数据存储、数据挖掘和数据共享服务的任务。
中国工程院院士、中国医学科学院院长曹雪涛表示,数据难以共享是我国医学健康大数据开发应用的最大瓶颈。共享平台首次向社会公开发布数据资源,有利于进一步推动人口与健康科学数据共享,促进相关领域的科学研究成果和数据红利得到充分释放,带动生物医学数据资源整合与共享,为推进健康中国建设,实现健康中国2030的战略目标发挥更大作用。
共享平台建设始于2002年,历经四期建设工程,如今已发展成为国家科技基础条件重要平台之一。平台的科学数据总量已达到67.76TB,并与10多个国家建立了科学数据共享,其数据分类和组织框架得到了国际权威部门的认可。“十二五”期间,该平台的数据已累计服务形成科研成果数91个,支持政府决策数155个,支持重大工程102个,支持应急事件43个,服务民生数144项。
2.8亿条数据极为详尽
此次发布的数据较为详尽地反映了我国居民健康状况。以我国国民体质与健康数据库的建设为例,该调查采用分阶段、随机、整群抽样的调查数据。目前,该数据库已经存储了三阶段,来自全国十余个省份不同民族16万受试者、二百余项的体质与健康指标数据,并存储了相关图形图像数据,总量已超过50G。该数据库可以为客观地反映国民的生长发育、重要器官功能、以及疾病的流行趋势等体质与健康水平提供参考数据,可用以评估我国在不同的社会和经济发展阶段人口的健康水平,评估人口流动及农村城市化给人口健康带来的影响,评估环境污染及其治理措施所产生的人群健康效应,为我国重大疾病的研究提供基础数据和科技支撑。同时,也可为政府制定人口与健康相关的宏观决策提供重要的科学依据。
来源:软件定义世界