基因行业是一个天然的大数据行业,一个人的全基因组数据有近200G,随着测序成本的降低,越来越多的物种被检测分析,积累了大量的有价值的数据,这么庞大的数据该如何存储和分析应用,传统的IT设施显然已经不能满足如今的业务需求甚至影响到了业务的发展:
- 硬件固定资产采购投入大,规模有限,难以满足业务波峰波谷的需求
- 数据存储空间不足,成本高,管理维护困难
- 分析流程缺少标准化,升级维护工作量大
- IT人员不足,无法进行系统的软件开发和平台建设
本次基因解决方案专场将从数据、计算、应用等多方面解决基因测序行业的问题。
基因数据分析管理解决方案:https://www.aliyun.com/solution/collection/gene
下载更多阿里云基因行业介绍:https://page.aliyun.com/form/act1829142118/index.htm
从1到1000,从1000到百万
从1900年孟德尔遗传定律被重新发现,到摩尔根的连锁和交换定律,再到1953年沃森(James D. Watson)和克里克(Francis Crick)发现DNA双螺旋结构,在不远的近现代科学史中,人们逐渐揭开自然界丰富多彩生物多样性背后的遗传与演化规律,建立了一套完整的学科体系。所有物种都有共同的起源,本质上就是一段具有功能性的DNA或者RNA的序列,它存储着生命体的所有信息,与我们每个人的生老病死都息息相关。
基因测序技术,就是弄懂DNA序列的排布情况。1990年开始,由包含中国在内的六国科学家们,用10年时间,花费30亿美金来破译人类的遗传信息。2000年6月26日,美国总统克林顿与英国首相布莱尔共同宣布人类基因组计划工作草图完成,2001年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被分别公开发表于《自然》与《科学》杂志。
但是人类基因组测序还不能算是“完成”了,部分区域序列还无法进行测序。同时,单个的参考基因组也不能代表所有人群的遗传特点。科学家们从1到1000,继续在探索人类基因遗传的奥秘。2010年,英国科学家宣布UK10K项目,希望通过1万人的基因序列和个人健康信息结合,来更好理解低频的基因突变与人类疾病之间的关联关系。这也是之后各国大型人群的基因组学研究的一个通用思路:如何从百万级别的基因和表型数据中,去发现更多的疾病发生机理,诊断方法和治疗措施。
精准医学计划与“全民”基因组时代
从重大事件的时间进程来看,基因组学是一个完全崭新的前沿领域。DNA理论发现60多年,测序技术发明40多年,以高通量,低成本的NGS测序技术为代表的商业应用可能才10多年的时间。DNA测序的价格从人类基因计划时的30亿美金,到现在低于600美金一个人。测序技术的进度,不仅帮助基础科学继续前进,也催生了基因组医学研究和应用的快速发展。
2016年,时任美国总统的奥巴马宣布了精准医疗计划,该计划致力于治愈癌症和糖尿病等疾病,目的是让所有人获得健康个性化信息。同年,我国科技部也发布了“精准医学研究”国家重点专项,以我国常见高发、危害重大的疾病及若干流行率相对较高的罕见病为切入点,实施精准医学研究的全创新链协同攻关,构建百万人以上的自然人群国家大型健康队列和重大疾病专病队列。
进入2019年,这一趋势更加明显。9月11日,英国政府宣布与四家全球领先制药公司及一家慈善机构达成战略合作,将共同提供2亿英镑巨额资金,支持对英国生物生物样本库(UK Biobank)共计50万名参与者的全基因组测序项目。该项目将探索基因如何与人类生活方式及生活的环境相结合从而导致疾病,并旨在通过遗传学研究改善人类健康状况,并为全球科学界了解、诊断、治疗以及预防癌症、心脏病、糖尿病、关节炎、痴呆以及慢性肾病等重大疾病提供宝贵的数据资源,最终推动全球个体化医学的发展。12月10号,阿联酋更是公布了全球最全面的全民基因组计划——“阿联酋全民基因组计划”,目标是运用大规模人群基因组数据,为阿联酋人民建立可预测、可预防和个性化治疗的全民医疗卫生体系。
写在2020年,展望未来10年,“全民”的基因组时代正在加速到来,它必然将全方位的加深我们对于生命科学的理解,为人类疾病的预防、诊断和治疗提供全新的技术手段,诞生一个庞大的生命经济产业。根据统计,全球用于罕见病,癌症的全基因组测序的样本数,在未来几年内可能很快就超过10亿级别的规模。这对于任何从事这一领域的科学家、研究机构、政府和企业来说,面临行业的浪潮,都是巨大的机遇,也必然是巨大的挑战。
除了测序,我们还需要什么样的能力(查看更多)
美国的精准医学计划的介绍材料中,对于项目的背景做一个解释说明。为什么是现在,我们可以开展百万人规模的大型基因组研究项目。其中提到了三个必要条件,也可以从侧面来回答我们哪些是需要去解决的问题:
- 测序技术的发展。不管是测序的数据通量、测序时间和测序成本,相比过往都有大幅度的提升。这使得超大型的研究项目对应的海量测序数据,在时间上和经济上都是可以负担的起的。
- 数据分析能力的提升。信息技术中机器学习,深度学习,以及人工智能算法等技术的进步,使得我们在面对复杂多维的生物医学数据时,不依赖现有知识,也能够进行更多探索发现式的科学研究。
- 新型工具和平台。云计算技术的出现和普及,为大规模的基因数据存储管理、计算和分析,以及共享协作提供了基础平台和工具。
以英国UK Biobank的50万全基因组测序项目为例,未来2年内可以完成所有的50万份样本全基因组测序,每个样本按照100G文件大小来计算,原始数据预计50PB。只是对于原始基因数据进行变异检测,粗略估计就需要近亿计算核时,更是要结合所有的数据,才能让单个基因或者多个基因组合、环境因素、生活方式,和一系列疾病的关系和模式变的更清楚。
所以,除了通过测序来获取大量样本的基因序列信息外,我们更需要有先进的工具和平台来管理和挖掘这些数据背后的价值。并且在测序成本不断下载,甚至趋近于“免费”时,数据计算和分析的重要性会越来越大。工欲善其事,必先利其器。在面对未来样本数据大爆发时,我们就需要从云计算的角度去考虑构建安全可靠、经济高效,敏捷弹性和智能化的“新基础设施”。
在阿里云上我们看到的趋势(查看更多)
早在2015年,阿里云就已经开始为基因行业客户提供存储和计算服务。过去几年时间,我们与科技服务、临床诊断、健康检测、科研院所、政府机构和软件工具提供者建立了广泛且深入的合作关系,并且积累了丰富的经验。
从客户的视角出发,在基因测序行业发展过程中,其自身的IT基础设施存在诸多限制:
- 硬件固定资产采购投入大,规模有限,管理维护水平参差不齐,难以满足项目型业务波峰波谷的需求。存在资源浪费或阻碍生产的情况。
- 数据存储空间不足,成本高,管理维护困难,只能通过硬盘来交付。同时缺少数据治理,只是数据文件,且分散在各个生产中心,难以挖掘数据价值。
- 分析流程缺少标准化,升级维护工作量大。部分分析工具效率低,占用资源多,耗时长。
- IT人员不足,无法进行系统的软件开发和平台建设。同时缺少前沿的硬件设备,最新的IT技术环境,难以进行业务创新。
- 安全防护措施有限。不管是数据冗余灾备,还是加密存储和传输,以及对外防攻击,业务系统高可用都受规模和管理水平限制。未来也可能难以满足监管合规的要求。
基因行业同时具备数据密集型和计算密集型的业务特点,云计算的出现有利于我们来帮助生物学家、医生们来解决这些底层的IT问题,只需要专注在数据或者业务本身即可。从众多客户的经历来看,我们看到了以下转变的趋势。
转变使用模式
基因行业客户,从个人用户到政府的基因组学机构,规模差异很大。在过去几年时间内,出于成本、业务、管理、开发等等因素的考虑,可能使用的方案,从单台服务器,到大型高性能计算集群,SaaS平台都有,种类多样。但是随着业务规模增大和分析速度下降,云计算以其弹性扩展,按需付费的最大优势,成为所有方案演化的方向或必不可少的组成成分。对于初创型的公司,可以完全基于云环境的各种产品和服务,0成本、敏捷快速的构建自己云原生的业务系统。对于已有大型集群的客户,可以通过混合云的方案,来最大化利用本地资源,同时又利用云的弹性来消化业务高峰,避免再采购资源。
重视数据资产
基因公司都应该是大数据公司。随着自身业务的开展,内部积累的样本数据也是越来越多。在达到千万级别的显著规模,如何利用样本数据去构建知识库,建立变异基线,开发和优化临床应用,是每个用户都需要考虑的重要问题。将基因数据,表型数据集中存储到阿里云上,构建统一的企业基因数据湖,使用阿里云DLA,EMR,PAI等丰富的分析产品生态来进行多来源,多种类,多维度的数据查询和高级分析工作。而不是自己使用初级的程序脚本读取文件解析,或者搭建维护一套难以满足真实生产需要的复杂系统。通过完整方法论和工具来进行数据治理和数据智能分析会是基因的核心竞争力之一。
标准化与自动化
基因公司都在进入精细化管理模式。在海量样本面前,难以通过更多的人工分析来跟上业务增长。同时在保证业务质量,满足外部评审要求等情况下,分析流程的标准化、模块化及自动化成为大家的共同的方向。与此同时,借助标准化,更能够清晰样本的存储和分析成本。通过阿里云存储阵列,函数计算,对象存储,批量计算这样的产品组合,可以实现数据下机之后自动上云,自动调用标准的WDL流程分析,并且最终交付到指定位置,等待释放,整个过程分析结果可重复,操作记录可审计,成本完全透明可控。这样的用户场景,和围绕这一过程的自动化生产系统和云平台,也必然会越来越多。
然而必须看到的是,将信息技术和生物技术结合,利用云计算和大数据的技术,来促进生物科研和产业的发展,还有很长的路要走。相较于国产测序仪进步,能够直接为阿联酋的项目提供测序服务,我们还必须在基因数据工具和平台上加快能力建设,才能匹配像UK Biobank这样的大型项目的实际需要,充分发挥基因大数据的价值。
阿里云基因行业解决方案(下载更多行业介绍)
基因行业客户需要的从来不是,也不应该是存储、计算、网络等基础资源。我们需要从基因测序的不同场景来考虑用户从样本到报告的需求是什么,再提出完整的解决方案。不仅仅是阿里云本身,更需要行业上下游合作伙伴一起来构建完整的应用生态。同时,阿里云是全球基因组学与健康联盟(GA4GH)的成员,Cloud Work Stream小组成员,生物信息云计算产业促进会会员,我们也不断的从数据共享,行业标准的角度来为社区提供服务。
我们可以从三个角度,来谈谈阿里云的基因行业解决方案,我们为“全民”基因组时代准备的“新基础设施”
数据
通过阿里云,基因数据可以快速流动,不管是从测序中心,还是到下游客户,借助阿里云遍布全球的数据中心和高速网络的基础设施,可以在线交付数据。更重要的是,阿里云的众多的上下游共同的用户群体,已经形成了基因行业的“局域网”,更是确保能够双方的连通性。
我们为用户提供多种方式来传输和分发基因数据,并为不同规模的用户提供长期、经济、可负担的存储方案,保证数据安全和自动生命周期管理。用户业务数据可以沉淀到企业的基因数据湖中,并且利用阿里云多种分析产品进行机器学习、深度学习等进行数据挖掘。
阿里云对基因数据的存储和传输都提供严格的加密措施。用户可以使用服务端加密、客户端加密以及BYOK的方式来对基因数据进行加密。通过数据安全产品为帮助生物医学数据进行去身份化操作,同时满足包括HIPAA,GDPR在内的全球性行业监管法规需要。
计算
生物信息流程是由一系列有依赖的分析步骤组成的,由分析引擎解析后,变成可运行的任务,再由后端的作业调度软件来执行。传统用户这三部分的组成,通常是由自定义的流程规则,以及对应的解析程序,加上SGE,SLURM这类的HPC集群作业调度软件来实现的。
阿里云支持GA4GH联盟下的流程语言标准(CWL/WDL),只要是符合标准的流程,都无需改动,可以在阿里云上直接执行。作为Broad的解析引擎Cromwell官方支持的计算后端,可以使用包括Call-Cache中断恢复在内的任意高级特性。与传统模式相比,流程的标准化、可迁移性和可重复性都得到大幅度提升,并且解决了对外标准不统一的问题。
阿里云计算产品EHPC,ACK,批量计算,作为WDL流程的底层执行引擎,都能充分发挥云计算的优势。对于用户来说,完全按照使用量来付费,并且可以在不增加成本的基础上,快速扩展规模以加快分析速度,节省时间。结合包月,按量,竞价等多种灵活的付费方式,用户也能节省大量成本。同时,针对与用户不同功能需求和部署要求,三个计算产品也更有优势,方便用户选择。
对于大规模并发作业下存在的典型IO阻塞问题,阿里云提供了包括数据预取,多级缓存在内的多种优化措施。保证业务规模可以线性增长,不受底层存储限制。
应用
阿里云联合生态合作伙伴,将以云服务的方式来提供行业最新的软件工具。用户可以直接使用,而不是考虑如何购买,安装和配置的问题。
不管是bcl2fastq, 二代测序,还是三代测序,阿里云现在都提供一些的分析加速服务,在保证结果不变的情况下,为分析降低成本,提高效率。
为帮助国内生信开发者更好的开发基因行业专属应用,基因行业近期推出公共数据集项目,大家可以申请免费访问,无需跟以前一样从不同的网站去搜索,下载和存储。更多关于数据集内容,可以点击查看原文,欢迎大家使用。
在这里,跟大家说一声:新年快乐!
那个很多行业前辈向我们描述过期待过的未来已经到来,虽然依然坎坷,2020大家继续一起努力!
本文作者:云小方