使用Trinity进行转录组组装

简介:

Trinity

Trinity是Broad InstituteHebrew University of Jerusalem开发的RNA-Seq数据 转录组组装工具,包括三个模块,

  • Inchworn(尺蠖): 将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本
  • Chrysalis(蛹): 这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(_de Bruijin_ graph)。每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分
  • Butterfly(蝴蝶): 并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本

如果不能理解上面这段话,就尝试理解下面这张图吧

流程图

当然如果示意图也让你不好理解的话,那就直接用软件吧,反正这些流程图的目标就是想告诉你,“用我,没毛病”

软件安装用bioconda就行了。

conda create -n Trinity trinity -y
source activate Trinity

运行流程

当你在命令行敲出Trinity后,他就会输出一大堆信息。那么多信息分成3个部分:

  • 必须参数:包括--seqType表示输入序列类型,--max_memory允许使用最大内存(一般64G),还有输入数据的所在位置
  • 可选参数:包括链特异性测序参数--SS_lib_type, 线程数--CPU, 允许的最低组装contig长度--min_contig_length, 是否标准化--no_normalize_reads
  • 常见用法说明
Trinity --seqType fq --max_memory 50G  \
         --left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \
         --right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \
         --CPU 6  
# 有基因组引导组装
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \
                --genome_guided_max_intron 10000 --CPU 6

在运行中过程中,需要注意以下几点

  1. 质量控制(Quality control)。Trinity的--trimmomatic参数会调用Trimmomatic对数据进行过滤,这一步可以用其他软件完成。目前的RNA-seq质量也不需要过多的过滤。
  2. Trinity中有一个"In silico Read Normalization",用于对read进行标准化,适用于超过300M的数据,默认开启,可以用--no_normalize_reads关闭。标准化的原因是,由于某些高表达基因会被检测到很多次,但是对于组装没有帮助,所以可以提前剔除。
  3. 如果基因组中基因密度大(比如说真菌),一些转录本可能会在UTR区域有重叠。那么为了尽可能降低转录本的错误融合,需要用到--jaccard_clip。对于植物和脊椎动物,就不需要考虑这一步。

输出解读

运行结束后,最后的结果是trinity_out_dirTrinity.fasta.Trinity将含有相同序列的转录本进行聚类,这种聚类可以被粗粗的被认为成一个基因的多个转录本。举个例子

 >TRINITY_DN1000|c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
 AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
 ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
 AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
 CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
 TAAAGCA

"TRINITY_DN1000|c115" 是Trinity 聚类编号,“g5”是基因编号,“i1”是转录亚型编号

评估组装质量

有如下几种方法可以评估组装的质量

  1. 使用Bowtie/BWA将RNA-seq回贴到组装的转录组上,有80%以上的回帖率就行了。
  2. 用全长重构蛋白编码基因去搜索已知蛋白序列,见representation of full-length reconstructed protein-coding genes,
  3. 使用BUSCO根据保守同源基因进行评估
  4. 计算E90N50,
  5. 计算DETONATE得分
  6. 使用TransRate评估转录组组装
目录
相关文章
|
4月前
|
弹性计算 网络协议 安全
安全组规则
安全组规则
78 3
|
3月前
|
网络安全 数据安全/隐私保护 网络架构
ABCDE类网络的划分及保留网段
ABCDE类网络的划分及保留网段
|
1月前
统一的规则
首先,协议,可以理解为是一套统一的规则,就像行业标准。由于互联网主要的功能是传输信息,所以其协议一般是管理系统之间如何相互通信的规则。 用邮政和物流等线下的“运输协议”来理解,我们以前写信的时候都需要写邮编、寄信人、收信人和地址,在途中邮政也有自身的标准,比如不同地区的邮递员收集特定地区的邮件,然后汇集分发;物流行业也有集装箱、铁轨等。 在互联网通信中,“如何探测到通信目标、由哪一边先发起通信、使用哪种语言进行通信、怎样结束通信等规则都需要事先确定。不同的硬件、操作系统之间的通信,所有的这一切都需要一种规则。”(来自知乎用户“哦吼”)
|
4月前
|
安全 数据安全/隐私保护
seliunx 基础规则介绍
seliunx 基础规则介绍
|
4月前
|
弹性计算 运维 安全
安全组介绍
安全组介绍
70 3
|
专有云
专有云数据集成自定义资源组服务器的初始化脚本
专有云数据集成自定义资源组服务器的初始化脚本
130 1
|
测试技术 uml
架构组-文档总结
架构组-文档总结
99 0
|
关系型数据库
分组
GROUP BY 语句根据一个或多个列对结果集进行分组。