开发者社区> 问答> 正文

批量计算如何实现GTX_FPGA最佳实践?

批量计算如何实现GTX_FPGA最佳实践?

展开
收起
小天使爱美 2020-03-28 20:38:42 1158 0
1 条回答
写回答
取消 提交回答
  • 介绍 GTX-FPGA产品是由未来实验室 GTX-Laboratory开发的全基因组分析加速工具,采用CPU和FPGA协同工作的异构加速技术,利用各自的特性进行基因数据的高性能计算。可以将30X的全基因组数据分析时间从30小时缩短至30分钟;将100X全外显子数据分析时间从6小时缩短至5分钟完成。

    GTX-FPGA 分析主要包括:index(构建索引)、align(基因组对比)、 vc(突变检测)、wgs(整合,将alin 和 vc 整合到一起,下文中的 GTX one也是指该步骤)等步骤。

    本文主要介绍如果通过阿里云批量计算直接使用 GTX-FPGA 产品,实现全基因组数据分析、全外显子数据分析作业一键式运行。

    使用约束 GTX-FPGA 产品目前只支持阿里云 F3 型 ECS 实例类型。同时每个实例类型需要配置一定容量的 SSD 数据盘,容量大小和fasta大小有关;其中 align 需要的磁盘大小是 2 个 fastq 文件大小的和再乘以 2(例如:需要计算的 fastq1 是 40G,fastq2 是 42G, 需要的数据盘空间大小是 164G);wgs需要的计算空间大小是 fasta 文件大小的8倍(例如human30x.fasta数据大小是 3.4G,则需要的数据盘大小是 252G)。针对人类基因组数据盘大小可以采用下文中 demo 示例的设置默认值。 GTX-FPGA 产品目前只支持 北京 区域测试。 GTX-FPGA 产品目前处于公测阶段,公测阶段 GTX-FPGA 产品不收取费用,只收取作业所需要的实例以及相关存储费用。 前置条件 登录阿里云,并确保账号余额大于100元,以便体验完整分析流程。 开通批量计算服务,用于执行分析任务。 开通OSS对象存储, 用于上传用户自己的测序数据,保存分析结果。创建bucket,例如 gtx-wgs-demo 查看或者创建的AccessKey, 如果您使用的是子账号,请确认具有以上批量计算和OSS的产品使用权限,参考快速开始文档。复制AccessKey ID(如LTAI8xxxxx), Access Key Secret(如vVGZVE8qUNjxxxxxxxx) 备用。 使用说明 GTX-FPGA 支持WDL模式运行以及DAG作业模式运行。

    1 GTX 命令格式 gtxcmd

    2 WDL模式运行 WDL 模式使用方式请参考文档

    3 DAG作业模式 3.1 示例脚本 下载 DAG 作业示例代码。

    其中:

    genGtxIndexCmd 则是对应 GTX 的建索引命令;命令使用方法可以参考代码中帮助信息。genGtxWgsCmd 则是对应 GTX one的命令;命令使用方法可以参考代码中帮助信息。genGtxAlignCmd 则是对应 GTX 基因组对比命令;命令使用方法可以参考代码中帮助信息。genGtxVcCmd 则是对应 GTX 突变检测命令;命令使用方法可以参考代码中帮助信息。

    可以自定义以上步骤中每项 GTX 参数,也可以按默认值来执行。 建索引操作是非必选项目,本 demo 示例默认索引构建完成;若需要构建索引在执行脚本时需要增加参数(isNeedIndex)描述。 read_group_header 可以通过命令行传入也可以使用默认值。 示例代码默认运行 GTX one流程,一次性执行对比以及编译检测流程;若需要按分步骤执行则需要设置对应参数。 更新批量计算python SDK到最新版本 “pip install —upgrade batchcompute”。 3.1 执行命令 python test.py --reference oss://xxx/ref/hg19.fa --fastq1 oss://xxx/input/human30x_10m_1.fastq --fastq2 oss://xxxx/_input/human30x_10m_2.fastq --output oss://xxx/testoutput/ 3.2 执行结果 gtxonegtxret

    2020-03-28 21:41:48
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
端到端GPU性能在深度学学习场景下的应用实践 立即下载
FLASH:大规模分布式图计算引擎及应用 立即下载
图计算专场—大规模分布式图计算、学习和推理技术 及创新应用论 立即下载