批量计算如何实现GTX_FPGA最佳实践? _问答-阿里云开发者社区

介绍 GTX-FPGA产品是由未来实验室 GTX-Laboratory开发的全基因组分析加速工具，采用CPU和FPGA协同工作的异构加速技术，利用各自的特性进行基因数据的高性能计算。可以将30X的全基因组数据分析时间从30小时缩短至30分钟；将100X全外显子数据分析时间从6小时缩短至5分钟完成。

GTX-FPGA 分析主要包括：index(构建索引)、align(基因组对比)、 vc(突变检测)、wgs(整合，将alin 和 vc 整合到一起，下文中的 GTX one也是指该步骤)等步骤。

本文主要介绍如果通过阿里云批量计算直接使用 GTX-FPGA 产品，实现全基因组数据分析、全外显子数据分析作业一键式运行。

使用约束 GTX-FPGA 产品目前只支持阿里云 F3 型 ECS 实例类型。同时每个实例类型需要配置一定容量的 SSD 数据盘，容量大小和fasta大小有关；其中 align 需要的磁盘大小是 2 个 fastq 文件大小的和再乘以 2（例如：需要计算的 fastq1 是 40G，fastq2 是 42G, 需要的数据盘空间大小是 164G）；wgs需要的计算空间大小是 fasta 文件大小的8倍（例如human30x.fasta数据大小是 3.4G,则需要的数据盘大小是 252G）。针对人类基因组数据盘大小可以采用下文中 demo 示例的设置默认值。 GTX-FPGA 产品目前只支持北京区域测试。 GTX-FPGA 产品目前处于公测阶段，公测阶段 GTX-FPGA 产品不收取费用，只收取作业所需要的实例以及相关存储费用。前置条件登录阿里云，并确保账号余额大于100元，以便体验完整分析流程。开通批量计算服务，用于执行分析任务。开通OSS对象存储, 用于上传用户自己的测序数据，保存分析结果。创建bucket，例如 gtx-wgs-demo 查看或者创建的AccessKey, 如果您使用的是子账号，请确认具有以上批量计算和OSS的产品使用权限，参考快速开始文档。复制AccessKey ID（如LTAI8xxxxx), Access Key Secret(如vVGZVE8qUNjxxxxxxxx) 备用。使用说明 GTX-FPGA 支持WDL模式运行以及DAG作业模式运行。

1 GTX 命令格式 gtxcmd

2 WDL模式运行 WDL 模式使用方式请参考文档

3 DAG作业模式 3.1 示例脚本下载 DAG 作业示例代码。

其中：

genGtxIndexCmd 则是对应 GTX 的建索引命令；命令使用方法可以参考代码中帮助信息。genGtxWgsCmd 则是对应 GTX one的命令；命令使用方法可以参考代码中帮助信息。genGtxAlignCmd 则是对应 GTX 基因组对比命令；命令使用方法可以参考代码中帮助信息。genGtxVcCmd 则是对应 GTX 突变检测命令；命令使用方法可以参考代码中帮助信息。

可以自定义以上步骤中每项 GTX 参数，也可以按默认值来执行。建索引操作是非必选项目，本 demo 示例默认索引构建完成；若需要构建索引在执行脚本时需要增加参数(isNeedIndex)描述。 read_group_header 可以通过命令行传入也可以使用默认值。示例代码默认运行 GTX one流程，一次性执行对比以及编译检测流程；若需要按分步骤执行则需要设置对应参数。更新批量计算python SDK到最新版本 “pip install —upgrade batchcompute”。 3.1 执行命令 python test.py --reference oss://xxx/ref/hg19.fa --fastq1 oss://xxx/input/human30x_10m_1.fastq --fastq2 oss://xxxx/_input/human30x_10m_2.fastq --output oss://xxx/testoutput/ 3.2 执行结果 gtxonegtxret

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

批量计算如何实现GTX_FPGA最佳实践?

相关文章