云场景实践研究第80期:华大基因

简介: 作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。
——黄泽辉
华大基因 BGI Online 产品总监

采用的阿里云产品
阿里云云服务器 ECS
阿里云对象存储 OSS
阿里云归档存储 OAS
阿里云专有网络 VPC
阿里云DDoS高防IP (云盾)
阿里云大数据计算服务 MaxCompute
阿里云 E-MapReduce
阿里云批量计算服务 BatchCompute

为什么使用阿里云
通过使用阿里云平台,不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。
借助阿里云云计算,解决数据存储、传输、分析、安全问题。

关于华大基因
华大成立于1999年,是全球最大的基因组学研发机构。华大以“产学研”一体化的创新发展模式引领基因组学的发展,通过遍布全球的分支机构与产业链各方建立广泛的合作,将前沿的多组学科研成果应用于医学健康、农业育种、资源保存等领域,推动基因科技成果转化,实现基因科技造福人类。

华大基因痛点
随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是华大基因急需解决的问题。

为什么选择阿里云?
通过阿里云平台降低数据分析门槛、简化用户操作
人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。
传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。

借助阿里云云计算,解决数据存储、传输、分析、安全问题
BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。
f439ce6ad1b9a21c8a4ac66047b70234a3687e03
基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。
通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过 OSS来互通。通过 ECS在线上高灵活度地输出基因测序、利用 批量计算测序可大规模降低成本、 MaxCompute实现MapReduce小时级测序。
8ea651bf8e938865b3e883b2b7d2998a0657e2be
合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。

华大基因通过阿里云为BGI Online(安全、⾼效、易⽤的⽣物信息服务云平台,为⽣物信息领域的各类科研工作者和工具开发者提供便利)注入弹性,同时也释放了每个数据中心部署耗费的大量人力、财力和物力,其总体架构如下:
a757a14aa3cbe7ebc85fd7f2999a23004f861a87
前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。
后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。
任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。
存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,提高了平台的安全性。
文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,提升了数据传输的速度。

迁移上阿里云后的成效
实现了用户定制化和个性化体验,不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。云上业务搭建与运转获得了保障,包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化。在2016年,基于华大基因开发的新一代基因云计算平台BGI Online,华大基因、阿里云和安徽医科大学三方共同协作在21小时47分12秒内完成了1000例人类全外显子组数据的分析,创造了基因数据分析的“深圳速度”。

原文发布日期:2018-1-10
云栖社区场景研究小组成员:董普庆,仲浩。
相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
10月前
|
知识图谱
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
326 12
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
2631 13
|
对象存储 数据库
2025年 | 12月云大使推广奖励规则
云大使推广返利活动,企业新用户下单返佣加码5%,推广最高返佣45%,新老用户都可参与返利活动。
101900 52
|
JavaScript Linux 开发工具
开源项目:使用 Atom-Electron 和 Vue.js 制作的简单 RSS 阅读器!!
开源项目:使用 Atom-Electron 和 Vue.js 制作的简单 RSS 阅读器!!
|
人工智能 测试技术
ChatExcel--自动处理表格
ChatExcel--自动处理表格
628 1
ChatExcel--自动处理表格
|
机器学习/深度学习 JSON 自然语言处理
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
通过LLM2Vec,我们可以使用LLM作为文本嵌入模型。但是简单地从llm中提取的嵌入模型往往表现不如常规嵌入模型。
702 5
|
Kubernetes 网络协议 Linux
docker镜像仓库hub.docker.com无法访问-解决办法
docker镜像仓库hub.docker.com无法访问-解决办法1 个人镜像站点2 dockerhub为什么无法访问2.1 查看dockerhub实际IP2.2 ping检测3 镜像加速3.1 使用国内镜像加速3.1.1 docker配置:3.1.2 containerd配置:3.2 使用博主个人镜像仓库3.2.1 目前有如下镜像仓库,后续会陆续增加3.2.2 使用方式3.2.3 拉取镜像
9744 3
docker镜像仓库hub.docker.com无法访问-解决办法
|
关系型数据库 MySQL 网络安全
连接MySQL错误:Can't connect to MySQL server (10060)
版权声明:本文为 testcs_dn(微wx笑) 原创文章,非商用自由转载-保持署名-注明出处,谢谢。 https://blog.csdn.net/testcs_dn/article/details/51406712 ...
3387 0
|
Java Windows
MAT(Memory Analyzer)使用总结
MAT(Memory Analyzer)使用总结
259 0