阿里云助力华大基因BGI Online实现WGS云计算百倍加速

简介: 阿里云携手华大基因推出极速、低成本、高精度的个人全基因组测序(WGS, Whole Genome Sequencing)云交付方案,只需要15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程,相比经典流程可达120倍加速,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。

阿里云携手华大基因推出极速、低成本、高精度的个人全基因组测序(WGS, Whole Genome Sequencing)云交付方案,只需要15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程,相比经典流程可达120倍加速,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。

[小科普:什么是全基因组测序?]
全基因组测序,不再依赖捕获试剂的差异,同时获得均一性较好的mtDNA,通过分析个体基因序列的突变机制,可为遗传病检测、肿瘤筛查等提供有力支撑,未来将在临床医学和基因诊断方面。一个人类全基因组有30亿碱基,一个30X的WGS测序数据量大约在100G。

此方案由华大基因自主测序仪、BGI Online混合云架构、阿里云容器服务ACK/AGS基因服务,以及赛乐基因GPU加速算法的深度融合而成。方案无缝衔接测序平台和基因云平台,全面支持包括MGISEQ系列测序仪在内的多种测序平台,可按需定制分析流程,交付灵活性极高。

这套端到端解决方案,相比同类产品,在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,在2020年里,新的WGS交付方案将会助力基因科研与临床检测再上一个新台阶。

其具备以下特点:

  • 极速、精准:经过实际测试,整套方案在15分钟内完成了 8组30X WGS 样本二级分析处理。在保证精度的前提下,实现15分钟对7200亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且经过NA12878测试数据集与金标准VCF比较,二级分析的精度高于或等于BWA-0.7.17/GATK 4.1.3的数据产出,SNP 精度到达99.80%。

image.png

  • 成本大幅优化:阿里云ACK/AGS提供云上PaaS加速能力AGS,以混合云方式协助华大基因完成自主测序仪大批量下机数据二级分析的近实时交付,理想情况下可降低二级分析计算成本1/2,缩短交付周期95%。

image.png

image.png
image.png

云时代的基因科技,全面优化

基因计算所面临的挑战不同于常规计算,中大型基因测序公司平均每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;大规模数据挖掘、按需调度和弹性扩容;基因数据的安全隐私保护等等。
image.png

阿里云与华大基因的联合方案如上图所示,海量下机数据过滤后通过专线上载到华大基因BGI Online平台,BGI Online是一款强大且安全的基因云平台,它具备全流程自动化、全球云端快速部署、覆盖全球网络数据交付的能力。随后,BGI Online调用阿里云的容器服务ACK、基因计算服务AGS 和对象存储服务 OSS 发起WGS任务,开始一系列的生信流程分析,如引入GPU加速比对,去重,单体变异检测等流程进行全基因组二级分析,并输出BAM/VCF数据到BGI Online平台,BGI Online完成三级分析,以及质量检测后,输出符合用户设定的定制化分析报告及数据。

方案在保证分析通量的同时满足灵活性需求,可根据不同平台和数据定制分析流程。为各大测序服务商、研究机构等提供更简单更高效的存储、自动化分析、数据传输、项目协作以及生物信息工具开发等方面的解决方案。
华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据(FASTQ文件)上传至OSS,以及授权Bucket给AGS服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。
除了上述所提及的,极速、精准、简便等特点,华大基因与阿里云的联合方案,还成功解决了海量数据存储、迁移与传输、安全合规等行业痛点问题。详见AGS全基因组GPU加速服务, 基因工作流分析, AGS基因服务指南。

解码未知,丈量生命。科技的每一小步,都会成为人类前行的一大步。华大基因与阿里云愿携起手来,共同为基因事业贡献一份力量。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
存储 人工智能 弹性计算
阿里云何川:云计算,为数据基础设施的建设提速|数据对话
中国信通院工业互联网与物联网研究所特别策划“数据对话”专题,旨在通过专家的深度分析和独特视角,回答社会关切话题,探讨前沿技术和应用趋势。
|
2月前
|
存储 人工智能 弹性计算
阿里云何川:云计算,为数据基础设施的建设提速|数据对话
中国信通院工业互联网与物联网研究所特别策划“数据对话”专题,旨在通过专家的深度分析和独特视角,回答社会关切话题,探讨前沿技术和应用趋势。本期,我们邀请到阿里云弹性计算产品运营与生态合作负责人何川,围绕云计算如何加速数据基础设施建设及其未来发展趋势展开探讨。
|
3月前
|
存储 安全 小程序
什么是云计算,为什么选择阿里云?
阿里云提供的云计算服务让您能以按需、按量的方式获取算力,涵盖计算、存储、网络等多种形态,无需自建数据中心。它具备弹性、敏捷、安全、稳定、高性能和低成本等优势,支持业务快速创新,保障数据安全及业务连续性,提升资源效率,降低IT维护成本,广泛应用于网站、小程序、移动应用等领域。
|
3月前
|
存储 安全 小程序
什么是云计算,为什么选择阿里云?
阿里云提供的云计算服务让您能以按需、按量的方式获取算力,涵盖计算、存储、网络等多种形态,无需自建数据中心。它具备弹性、敏捷、安全、稳定、高性能和低成本等优势,支持业务快速创新,保障数据安全及业务连续性,帮助您专注于核心业务发展。常见应用场景包括网站、小程序、移动应用及大模型问答机器人等。
|
4月前
|
人工智能 安全 云计算
Salesforce核心CRM产品问题之阿里云上的Salesforce对中国云计算市场的影响如何解决
Salesforce核心CRM产品问题之阿里云上的Salesforce对中国云计算市场的影响如何解决
|
4月前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
5月前
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
104 2
|
5月前
|
存储 分布式计算 视频直播
阿里云服务器的十二种典型应用场景:解锁云计算的无限可能
场景概述: 区块链技术在金融、供应链管理等领域有着广泛的应用。阿里云提供了区块链服务BaaS,支持联盟链的快速部署和管理。
|
5月前
|
弹性计算 人工智能 安全
|
7月前
|
存储 人工智能 文件存储
阿里云吴结生:云计算是企业实现数智化的阶梯
文章背景:阿里云副总裁、阿里云云存储产品线负责人吴结生在云栖大会的演讲中表示:“从云的角度来看,云的存力、算力,云上提供的数据管理的能力,大数据分析能力和人工智能计算能力,帮助每家企业从数据公司演进到数据驱动的公司。因此云计算是企业实现数智化的阶梯。”