安诺云联合阿里云国内首推批量计算,助力三代Canu组装加速

简介: 随着测序技术的不断发展,大量基因组学数据被积累,对于数据分析软件的要求也越来越高,尤其是在做基因组组装分析时,软件的计算资料消耗和分析周期往往是研究者不得不考虑的问题。Canu[1]是一款目前广泛使用的三代基因组组装软件,文章发表短短两年时间,引用的次数已接近1000次,其中不乏顶级的CNS期刊。

Canu软件同时适用于PacBio SMRT与纳米孔测序两款主流的单分子测序平台的数据,可以执行reads的纠错与组装部分的工作。Canu在做组装时,可获得更为准确的片段,其组装的准确性也是非常突出的[2]。

image.png

Dot plots of the evaluated assemblies of P. falciparum[2]


注:组装结果的共线性评价,横坐标与纵坐标分别是参考基因组序列与各组装软件组装的基因组序列,共线性呈现对角线排布认为共线性较好

可以说Canu软件是非常受基因组学研究者所认可的一个工具,其组装质量好,Contig N50也具备竞争力,但也有一个致命缺陷:计算资源消耗太大,周期较长。相比于节点资源的Wtdbg2软件[3],Canu的资源消耗大约是数十倍甚至百倍的提升,而且随着基因组测序数据量的增加,会愈发明显。

Canu、FALCON、Wtdbg2组装实例比较


image.png

阿里云批量计算团队对Canu软件进行了算法优化和调度优化,使用著名基因组学研究机构Broad Institute开发的流程编排语言Workflow Description Language(WDL)对Canu的调度重新进行了组织,提供WDL-Canu解决方案。首先,在不改变计算结果的前提下将Canu软件进行了计算的优化,在相同配置的计算资源上使得纯计算核时大幅缩减,同时后端改用cromwell工作流引擎解析Canu工作流,用阿里云批量计算弹性伸缩集群替代传统HPC后端,根据Canu全流程中的不同任务启动适配任务需求的弹性伸缩集群,极大提高资源使用率,并且相比于传统的固定HPC集群提供更大的弹性资源池,显著缩短总运算时间。

image.png

目前安诺优达已经部署了阿里云批量计算WDL-Canu应用,并进行了实际项目的运行测试,得益于阿里云批量计算团队的算法改写与阿里云服务,有效地解决了周期长这一难题。

批量计算Canu的周期与组装效果

image.png

注:原版Canu指官方1.8版本

通过阿里云批量计算的加速,不仅将周期成功的压缩了50%以上,而且基因组的组装质量也完全保持了原版Canu的特性,contig N50高达31 Mb,BUSCO评估为94.3%,表明基因组组装的连续性和完整性都非常好。

目前安诺已经推出基于阿里云批量计算的WDL-Canu组装服务,对于超过20 Gb的大型基因组组装,也有望在一至两周内完成,未来大型基因组的组装质量与长周期之痛,将不再是困扰。

目录
相关文章
|
对象存储 文件存储 存储
阿里云批量计算怎么在控制台提交和管理作业?
阿里云批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。 用户可以提交一个任意的计算机程序,让它在阿里云的多个 VM 实例上同时运行,然后把结果写入到指定的持久化存储位置(如阿里云对象存储 OSS 或者文件存储 NAS)。
1512 0
阿里云批量计算推出预付费模式,最高节省用户60%成本
近日,阿里云批量计算推出预付费模式,适用于有稳定长期计算量需求的批量计算客户,用户通过包月方式创建集群,可以降低计算资源成本。
1646 0
|
调度 数据挖掘 编解码
一分钟了解阿里云产品:批量计算概述
  阿里云有很多产品,今天让我们来了解下批量计算(BatchCompute)这款产品吧。   什么是批量计算呢?   批量计算是一种适用于大规模并行批处理作业的分布式云服务。BatchCompute可支持海量作业并发规模,系统自动完成资源管理,作业调度和数据加载,并按实际使用量计费。Bat
5640 0
|
2月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
224 27
|
2月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
存储 人工智能 运维
阿里云存储受邀参加北京站「源创会」,解析智能存储基于大模型的产品能力提升
8 月 26 日,以 “AI 大模型与底层技术探索” 为主题的源创会北京站在北京中关村创业大街圆满举办。会上,阿里云智能高级技术专家马俊凯发表了《智能存储基于大模型的产品能力提升》主题演讲,详解了大语言模型对于智能存储的影响。
715 0
|
存储 监控 安全
时刻为创新提速|阿里云多款核心产品能力全面升级
5月17日上午,主题为“智在江苏,为创新提速”的2023阿里云峰会在常州市召开。
387 0
时刻为创新提速|阿里云多款核心产品能力全面升级
|
存储 传感器 弹性计算
阿里云计算巢加速器:让优秀的软件生于云、长于云—入选企业深度访谈—推动数字孪生人人可用,DataMesh与阿里云计算巢为企业数字化转型引路
阿里云计算巢加速器:让优秀的软件生于云、长于云—入选企业深度访谈—推动数字孪生人人可用,DataMesh与阿里云计算巢为企业数字化转型引路
179 0
|
弹性计算 人工智能 运维
阿里云计算巢加速器:让优秀的软件生于云、长于云—入选企业深度访谈—进一步提升物流智慧化,极智嘉携手阿里云计算巢探索新SaaS模式
阿里云计算巢加速器:让优秀的软件生于云、长于云—入选企业深度访谈—进一步提升物流智慧化,极智嘉携手阿里云计算巢探索新SaaS模式
212 0