介绍 GTX-FPGA产品是由未来实验室 GTX-Laboratory开发的全基因组分析加速工具,采用CPU和FPGA协同工作的异构加速技术,利用各自的特性进行基因数据的高性能计算。可以将30X的全基因组数据分析时间从30小时缩短至30分钟;将100X全外显子数据分析时间从6小时缩短至5分钟完成。
GTX-FPGA 分析主要包括:index(构建索引)、align(基因组对比)、 vc(突变检测)、wgs(整合,将alin 和 vc 整合到一起,下文中的 GTX one也是指该步骤)等步骤。
本文主要介绍如果通过阿里云批量计算直接使用 GTX-FPGA 产品,实现全基因组数据分析、全外显子数据分析作业一键式运行。
使用约束 GTX-FPGA 产品目前只支持阿里云 F3 型 ECS 实例类型。同时每个实例类型需要配置一定容量的 SSD 数据盘,容量大小和fasta大小有关;其中 align 需要的磁盘大小是 2 个 fastq 文件大小的和再乘以 2(例如:需要计算的 fastq1 是 40G,fastq2 是 42G, 需要的数据盘空间大小是 164G);wgs需要的计算空间大小是 fasta 文件大小的8倍(例如human30x.fasta数据大小是 3.4G,则需要的数据盘大小是 252G)。针对人类基因组数据盘大小可以采用下文中 demo 示例的设置默认值。 GTX-FPGA 产品目前只支持 北京 区域测试。 GTX-FPGA 产品目前处于公测阶段,公测阶段 GTX-FPGA 产品不收取费用,只收取作业所需要的实例以及相关存储费用。 前置条件 登录阿里云,并确保账号余额大于100元,以便体验完整分析流程。 开通批量计算服务,用于执行分析任务。 开通OSS对象存储, 用于上传用户自己的测序数据,保存分析结果。创建bucket,例如 gtx-wgs-demo 查看或者创建的AccessKey, 如果您使用的是子账号,请确认具有以上批量计算和OSS的产品使用权限,参考快速开始文档。复制AccessKey ID(如LTAI8xxxxx), Access Key Secret(如vVGZVE8qUNjxxxxxxxx) 备用。 使用说明 GTX-FPGA 支持WDL模式运行以及DAG作业模式运行。
1 GTX 命令格式 gtxcmd
2 WDL模式运行 WDL 模式使用方式请参考文档
3 DAG作业模式 3.1 示例脚本 下载 DAG 作业示例代码。
其中:
genGtxIndexCmd 则是对应 GTX 的建索引命令;命令使用方法可以参考代码中帮助信息。genGtxWgsCmd 则是对应 GTX one的命令;命令使用方法可以参考代码中帮助信息。genGtxAlignCmd 则是对应 GTX 基因组对比命令;命令使用方法可以参考代码中帮助信息。genGtxVcCmd 则是对应 GTX 突变检测命令;命令使用方法可以参考代码中帮助信息。
可以自定义以上步骤中每项 GTX 参数,也可以按默认值来执行。 建索引操作是非必选项目,本 demo 示例默认索引构建完成;若需要构建索引在执行脚本时需要增加参数(isNeedIndex)描述。 read_group_header 可以通过命令行传入也可以使用默认值。 示例代码默认运行 GTX one流程,一次性执行对比以及编译检测流程;若需要按分步骤执行则需要设置对应参数。 更新批量计算python SDK到最新版本 “pip install —upgrade batchcompute”。 3.1 执行命令 python test.py --reference oss://xxx/ref/hg19.fa --fastq1 oss://xxx/input/human30x_10m_1.fastq --fastq2 oss://xxxx/_input/human30x_10m_2.fastq --output oss://xxx/testoutput/ 3.2 执行结果 gtxonegtxret
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。