基因组组装:Hifiasm 使用教程

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 基因组组装:Hifiasm 使用教程

简介

Hifiasm 是一个快速的单倍型解析 de novo 组装软件,最初设计用于 PacBio HiFi 读取。其最新版本可以通过利用超长的 Oxford Nanopore 读取支持端粒到端粒的组装。Hifiasm 可以生成单样本端粒到端粒的组装,结合了 HiFi、超长和 Hi-C 读取,可以说是最好的组装软件之一。对于 trio-binning 组装来说,它是最好的单倍型解析组装软件之一,适用于父本短读取。对于人类基因组来说,hifiasm 可以在一天内完成端粒到端粒的组装。

Install

  • 手动安装
git clone https://github.com/chhylp123/hifiasm

cd hifisam && make
  • conda(推荐)
conda install -c bioconda hifiasm

Usages

Notes

  1. no need polish
  2. 无需合并多个输入文件
  3. 绝大多数二倍体基因组,只需要组装2n中的n,所以参数一般给 -l 2 -n 4

HiFi only

  • 无需额外的数据类型组装 HiFi reads
hifiasm -o NA12878.asm -t 32 NA12878.fq.gz

# no need haplotype
hifiasm --primary -o NA12878.asm -t 32 NA12878.fq.gz

# -l:0:没有对组装去冗余,组装结果包括全部组装出来的contig,可能包含多个单倍体基因组;2/3:会对组装出来的基因组进行去冗余,对于二倍体,得到的结果基本上是全基因组一半的大小
# -n: 一般给3或者4,默认3,表示组装的contig中,unitigs支持大于3或4才保留,该参数会将支持度比较低的contig去掉

ONT

  • Hifiasm 可以集成超长 ONT 读取来生成端粒到端粒的组装:
# only ONT
hifiasm -o NA12878.asm -t32 --ul ul.fq.gz HiFi-reads.fq.gz

# + Hi-C
hifiasm -o NA12878.asm -t32 --ul ul.fq.gz --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fq.gz

# + parental
hifiasm -o NA12878.asm -t32 --ul ul.fq.gz -1 pat.yak -2 mat.yak HiFi-reads.fq.gz

parental

  • 当有父本的短读取可用时,hifiasm 还可以通过 trio binning 生成一对单倍型解析的组装。要进行这样的组装,您首先需要使用 yak 对 k-mer 进行计数,然后再进行组装。
yak count -k31 -b37 -t16 -o pat.yak paternal.fq.gz
yak count -k31 -b37 -t16 -o mat.yak maternal.fq.gz

hifiasm -o NA12878.asm -t 32 -1 pat.yak -2 mat.yak NA12878.fq.gz

Hi-C

  • 利用成对的端到端 Hi-C reads 生成一对单倍型解析的组装。
hifiasm -o NA12878.asm -t32 --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fq.gz

Results

一般来说,hifiasm 会创建一系列的 GFA 格式的基因组组装图谱:

prefix.r_utg.gfa: 解决了单倍型问题的原始单元图谱,它详尽地记录了所有的单倍型数据。

prefix.p_utg.gfa: 经过处理的单倍型解析单元图谱,图中去除了可能由基因突变或数据噪声造成的小气泡,这些小气泡并不代表真实的单倍型信息。hifiasm 会依据测序深度自动去除这些小气泡,其中 --hom-cov 参数会影响这一处理过程的具体结果。详细信息可以参考关于同源纯合覆盖度的设置。另外,使用 -p 参数可以强制去除这些小气泡。

prefix.p_ctg.gfa: 主要连续片段的图谱,它整合了一个包含长期阶段区块的完整组装结果。

prefix.a_ctg.gfa: 包含所有在主要连续片段图谱中未被采用的连续片段的图谱。

prefix.hap.p_ctg.gfa: 带有相位信息的连续片段图谱,它保留了具有相位标记的连续片段。

  • 获取组装结果
# get fasta
awk '/^S/{print ">"$2;print $3}' test.p_ctg.gfa > test.p_ctg.fa
相关文章
|
数据可视化 数据库
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
1520 0
|
SQL XML 自然语言处理
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
|
数据采集 数据可视化 Serverless
单细胞工具箱|Seurat官网标准流程(上)
单细胞工具箱|Seurat官网标准流程
387 0
|
数据可视化 数据挖掘
单细胞工具箱|Seurat官网标准流程(下)
单细胞工具箱|Seurat官网标准流程(下)
634 0
|
存储 数据可视化 atlas
对于组学数据的分析和展示来说,maftools算是一个宝藏“R包”,可用于MAF格式的组学数据的汇总,分析和可视化展示。
对于组学数据的分析和展示来说,maftools算是一个宝藏“R包”,可用于MAF格式的组学数据的汇总,分析和可视化展示。
564 0
|
机器人 芯片
Science子刊封面 | 免组装集成,新研究借助生物分子马达自动构造微型机器人
Science子刊封面 | 免组装集成,新研究借助生物分子马达自动构造微型机器人
|
PyTorch 算法框架/工具 计算机视觉
「游戏建模干货」建模大师几步操作,学习经典,赶紧脑补一下吧
在开始为尼尔森建模前,我所想的是制作一个可爱的角色,所以我不仅要在形状上下功夫,而且还要在表情上下功夫。我在ZBrush中建模了尼尔森。首先我确定了身体大小,然后调整了比例,最后添加了细节。模型完成之后,我将其导出到3dsMax。然后头发进行了建模,因为我想让头发有一个大致的造型,可以使用一些基于头发loop而使用的Ornatrix系统。
363 0
「游戏建模干货」建模大师几步操作,学习经典,赶紧脑补一下吧
|
图形学
【3D建模制作技巧分享】如何使用Maya制作绳索模型
Maya是很多建模师、动画师都使用的软件,它可以帮助我们制作出很多模型。下面为大家分享使用Maya制作绳索模型的方法,感兴趣的话就来看看吧!
291 0
【3D建模制作技巧分享】如何使用Maya制作绳索模型
|
数据采集 异构计算
案例分享:Qt便携式致病菌快速检测仪(账号管理、实验过程、二维图表、历史数据、通讯管理、实验报告、中英文等等)
案例分享:Qt便携式致病菌快速检测仪(账号管理、实验过程、二维图表、历史数据、通讯管理、实验报告、中英文等等)
案例分享:Qt便携式致病菌快速检测仪(账号管理、实验过程、二维图表、历史数据、通讯管理、实验报告、中英文等等)