Canu软件同时适用于PacBio SMRT与纳米孔测序两款主流的单分子测序平台的数据,可以执行reads的纠错与组装部分的工作。Canu在做组装时,可获得更为准确的片段,其组装的准确性也是非常突出的[2]。
Dot plots of the evaluated assemblies of P. falciparum[2]
注:组装结果的共线性评价,横坐标与纵坐标分别是参考基因组序列与各组装软件组装的基因组序列,共线性呈现对角线排布认为共线性较好
可以说Canu软件是非常受基因组学研究者所认可的一个工具,其组装质量好,Contig N50也具备竞争力,但也有一个致命缺陷:计算资源消耗太大,周期较长。相比于节点资源的Wtdbg2软件[3],Canu的资源消耗大约是数十倍甚至百倍的提升,而且随着基因组测序数据量的增加,会愈发明显。
Canu、FALCON、Wtdbg2组装实例比较
阿里云批量计算团队对Canu软件进行了算法优化和调度优化,使用著名基因组学研究机构Broad Institute开发的流程编排语言Workflow Description Language(WDL)对Canu的调度重新进行了组织,提供WDL-Canu解决方案。首先,在不改变计算结果的前提下将Canu软件进行了计算的优化,在相同配置的计算资源上使得纯计算核时大幅缩减,同时后端改用cromwell工作流引擎解析Canu工作流,用阿里云批量计算弹性伸缩集群替代传统HPC后端,根据Canu全流程中的不同任务启动适配任务需求的弹性伸缩集群,极大提高资源使用率,并且相比于传统的固定HPC集群提供更大的弹性资源池,显著缩短总运算时间。
目前安诺优达已经部署了阿里云批量计算WDL-Canu应用,并进行了实际项目的运行测试,得益于阿里云批量计算团队的算法改写与阿里云服务,有效地解决了周期长这一难题。
批量计算Canu的周期与组装效果
注:原版Canu指官方1.8版本
通过阿里云批量计算的加速,不仅将周期成功的压缩了50%以上,而且基因组的组装质量也完全保持了原版Canu的特性,contig N50高达31 Mb,BUSCO评估为94.3%,表明基因组组装的连续性和完整性都非常好。
目前安诺已经推出基于阿里云批量计算的WDL-Canu组装服务,对于超过20 Gb的大型基因组组装,也有望在一至两周内完成,未来大型基因组的组装质量与长周期之痛,将不再是困扰。