云场景实践研究第26期:基云惠康

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 作为首家将基因数据分析业务部署到阿里云上的公司,基云惠康通过使用批量计算服务,最终使成本控制在了两位数,比最开始节省了近90%的成本。本文将从数据分析与解读流程的角度,带领大家了解基云惠康如何借助阿里云的力量降低数据分析成本。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
基云惠康公司,立志通过基因来惠及大众健康,通过使用批量计算服务,最终使批量计算的成本控制在了两位数,比最开始直接在ECS上搭建分析流程节省了近90%的成本。本文将从数据分析与解读流程的角度,带领大家了解基云惠康如何借助阿里云的力量降低数据分析成本。
俗话说时间就是金钱,这在使用“云”分析基因数据时体现的淋漓尽致。要想分析时间短,就需要更多的计算资源,相应的成本就会直线上升,而要想节约成本,就需要以时间换取资源。
基云惠康公司成立于2014年,公司的口号是知基因,惠健康。惠健康的第一步就是要知基因,知基因就要对基因数据进行分析与解读。要知道人全基因组测序的原始数据一般在300G左右,压缩为fastq格式也要60G左右,怎么快速低成本的分析这些数据是一个比较棘手的问题。后来由于“云”的大势所趋,经过综合分析对比AWS、腾讯云、百度云和阿里云,公司最终决定将基因数据分析流程搭建在阿里云上。

采用的阿里云产品
  • 阿里云负载均衡 SLB
  • 阿里云云服务器 ECS
  • 阿里云云数据库 RDS
  • 阿里云云数据库 MySQL 版
  • 阿里云云数据库 Redis
  • 阿里云表格存储 TableStore
  • 阿里云批量计算 BatchCompute
  • 阿里云对象储存 OSS
  • 阿里云归档存储 OAS
  • 阿里云基础防护
  • 阿里云安骑士
  • 阿里云云监控

为什么使用阿里云
自购服务器搭集群价格高昂,基因数据比较敏感。
在小集群上数据分析流程冗长,完成一个样本分析的成本很高,时间也长。
需要在保证数据分析结果准确性的前提下,取得时间和成本上的最佳平衡。

关于基云惠康
基云惠康科技有限公司成立于2014年, 团队由遗传学、生物学、计算机、生物信息、大数据背景的专家组成,致力于通过基因组技术改善大众健康。公司专注于全基因组数据分析、解读和基因应用的开发,其自主研发的基因组云分析和解读服务(Genome Analysis and Interpretation in Cloud)GAIC能够以更快的速度、更低的成本完成人类基因组数据的分析和解读。公司已获得中关村高新技术企业和国家高新技术企业称号,并参与了国家“精准医疗”项目。

基云惠康痛点所在
在上云前,公司原打算是自己购买服务器搭集群,后来由于搭建成本的原因,加之基因数据比较敏感,决定将基因数据分析流程搭建在阿里云上。在上云初期,公司直接在阿里云上买了几台ECS服务器,组建成一个小集群,在集群上搭建了半自动数据分析流程。分析一个人全基因组数据还需要手动调用资源,拼接分析流程,完成一个样本的分析成本很高,时间也很长。迫切需要一种降低成本的解决方案。

为什么选择阿里云?
基云惠康通过上云降低了数据分析成本
基云惠康可以说是首家将基因数据分析业务部署到阿里云上的公司。在2014年末, 阿里云开发出了一款强大的计算服务--“帝喾”,基云惠康公司参与了该服务的内测。在15年7月,阿里云在云栖大会正式发布了帝喾服务,改名为批量计算。此后随着批量计算的重大升级和迁移,公司的技术人员也会对数据分析流程进行针对性的调整升级。到目前为止,基云惠康公司已在阿里云的批量计算服务上分析了上千的人的基因样本数据,经过不断的调整优化,数据分析成本已降到了很低。

d1d926b911f8d63790becc1cfc57fc4768bc0b41

使用阿里云产品构建数据分析平台架构
f19495fd0d319c5f469202c4b16e0ddeb11b85f5

基于公司的现实情况,阿里云提供的这个解决方案架构还是很完善的,包括 归档存储、表格存储以及其他的产品都投入实施。
基因数据存储可选的 阿里云服务有OSS和归档存储,对于近期使用的样本数据采用对象存储,对于超1年未使用的样本数据将转存到归档存储中。
基因数据分析模块有 ECS和批量计算。其中一台 ECS作为批量计算的镜像,一台 ECS作为分析流程交互服务器,使用批量计算来进行数据分析。完成一个人的全基因组数据分析大概需要使用500核时的计算资源。
安全与监控模块有 基础防护、安骑士和云监控,对这些服务的使用是必须的。基云惠康对基因数据的保护除使用阿里云自身提供的安全防护外,还使用了自研的三层加密隔离防护技术。
数据库存储包括了 RDS、Redis、TableStore。对基云惠康来说,使用了 RDS中的mysql关系数据库来存储样本的解读报告等数据。Redis作为对外提供解读服务的缓存加速服务。计划使用 TableStore表格存储解读后的用户突变数据。
Web服务中使用了http服务器和负载均衡。

在阿里云批量计算服务上运行基因组数据分析业务
162f6e4fe788aaeec510ca6215529e70fe85f003

这是使用 阿里云批量计算服务处理人基因组数据作业的有向无环图,图例中的每个节点都是流程的一个任务,每个任务又包含多个处理步骤,对应调用的资源也不尽相同。
1、data_preparation,为基因组数据准备任务,包括数据完整性验证、数据质量校验等。
2、split_R1和split_R2,双端测序两个fastq文件的切分job,每个切分步骤中又包括了gz文件解压、数据切分、压缩成gz格式等任务。
3、QC_mapping,该任务会根据上一步切分的文件个数启用相应个数的实例,每个实例处理同一编号R1和R2两个文件,包括对文件进行BWA比对,使用samtools将得到的bam文件按照染色体输出任务,每个实例得到1-22,X,Y,M共25个bam文件。
4、Mergechr_Analysis,这一步会启用25个实例,分别处理包括MT在内的25个染色体对应的bam文件,将每条染色体零散的bam文件合并成对应染色体完整的bam文件并进行dup操作,染色体数据统计和cnv的检测。
5、gatk0、gatk1、gatk2、gatk3,将得到的比对后的bam文件使用GATK软件进行变异检测。检测突变的过程包括了RealignerTargetCreator、IndelRealigner、BaseRecalibrator、PrintReads、UnifiedGenotyper、VariantRecalibrator、ApplyRecalibration等过程。如果对GATK的变异检测流程感兴趣可以到GATK官网具体查询。
6、Mergebam,该任务是将包括MT在内的25条染色体bam文件合并成一个完整的bam文件,并对数据进行一些统计工作以进行后续的分析。
7、MarkDuplicates,去除PCR重复reads。
8、SV,用来检测结构变异及注释。
9、result,汇总最终得到的结果文件,这些结果包括了突变结果(snp、indel、cnv、sv等)、数据质控和统计结果、bam文件等。

使用阿里云批量计算服务后的成效
在使用了 阿里云批量计算服务之后,整个人全基因组数据分析下来耗时12个小时左右,共使用500核时左右的资源,使用批量计算的成本控制在了两位数,比最开始直接在ECS上搭建分析流程节省了近90%的成本。
在成本节省的同时,批量计算服务使大批量的基因数据同时分析成为可能,目前已实际运行过同时提交100个全外显子组数据,在12个小时内全部分析完成。

原文发布日期:2017-2-9
云栖社区场景研究小组成员:董普庆,仲浩。
相关文章
|
弹性计算 人工智能 安全
阿里云弹性计算产品线负责人张献涛 为计算提速,弹性计算的创新与普惠
“阿里云始终围绕‘稳定、安全、性能、成本、弹性’的目标不断创新,为客户创造业务价值。”10月31日,杭州云栖大会上,阿里云弹性计算计算产品线负责人张献涛表示,通过持续的产品和技术创新,阿里云发布了HPC优化实例等多款新品,性能可提升40%,并对g8i等多款第八代ECS实例升级算力、降低成本,让客户真正体验到云计算带来的创新和普惠。
阿里云弹性计算产品线负责人张献涛  为计算提速,弹性计算的创新与普惠
|
3月前
|
分布式计算 Serverless 测试技术
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark,体验“实时分析冠军”与“批处理之神”的极致性能表现!
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
|
人工智能 弹性计算 自动驾驶
阿里云张献涛:云原生计算基础设施助力汽车行业数字化升级
汽车行业在变化中积极拥抱数字化,阿里云帮助众多的汽车企业实现数字化升级,为汽车企业的电动化、数字化和智能化全面提速提供助力。2023年阿里云云峰会北京站《云上智能汽车》论坛中,阿里云智能基础产品部副总裁、阿里云智能弹性计算&无影产品线总经理张献涛,发表了《云原生计算基础设施助力汽车行业数字化升级》的主题演讲。
|
API 网络安全 网络虚拟化
Google Play 上架总结(二)Google账户关联详解
Google Play 上架总结(二)Google账户关联详解
2237 0
|
7月前
|
存储 人工智能 安全
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
2025云栖大会中企出海技术分论坛聚焦中国企业全球化挑战,阿里云联合易点天下、技威时代等企业,分享从“走出去”到“扎下根”的技术路径。论坛展示阿里云在基础设施、网络、安全、AI与数据库等领域的创新成果,推出全球一张网、AI网关、瑶池数据库等解决方案,助力企业构建安全、智能、敏捷的全球云底座,推动中国技术出海迈向新阶段。
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
202431 16
对话 | ECS如何构筑企业上云的第一道安全防线
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
1379 4
|
存储 人工智能 程序员
阿里云基础设施技术分享之走进浙大活动圆满结束
2024年12月13日,阿里云技术专家走进浙江大学,举办了一场关于AI与云计算的前沿技术宣讲活动。作为浙江大学计算机学院“人工智能+”创新创业大讲堂的第十五期,活动吸引了大量师生参与。四位专家分别就AI编程、超智融合、云计算网络及应用部署进行了深入分享,激发了师生对未来科技发展的无限憧憬。
|
Java
Java计算时间差
这段代码提供了两个方法来计算时间差。`timeDistance` 方法接收两个 `Date` 对象,计算并返回两者之间的天数、小时数和分钟数差异,格式为“X天Y小时Z分钟”。`hourDistance` 方法则接收两个时间字符串,解析后计算并返回两者之间相差的小时数(向上取整)。
676 4

热门文章

最新文章