科学技术的发展为各个领域都带来了深刻的变革,在生物学领域,随着计算机的应用,生物学与信息学的结合诞生了一门新的融合学科——生物信息学(点击文末“阅读原文”了解更多)。
作为生物信息学的重要研究内容之一,生物序列比较成为当下热点问题。基于k-mer的DNA分子序列比较研究是序列比较的一种,该方法以进化论作为依据,从序列的相似性出发探究同源的可能性。关于相似度的计算,首先将生物序列转化为k-mer的词频向量,然后利用距离公式求得生物序列的距离矩阵作为相似度的量化。基于k-mer的DNA分子序列比较研究在这篇论文中采用以熵权作为权重的加权欧氏距离与欧氏距离两种方法计算相似度。最后,通过相似性分析与系统发育树分析测试两种方法的分类效率,评价方法的应用效果。
考虑到生物序列非比对方法的优点,本文将重点放在研究基于k-mer的非比对方法上,并将熵权应用到相似度的计算上,将相似度量化,利用距离来反映物种之间的亲缘关系。论文的主要工作如下:(1)数据收集。针对本文研究内容收集相应生物序列数据,整理成文件。(2)k-mer的读取。利用R编程软件,给定不同的k值计算基因序列的k-mer出现的频率,将每个物种不同k-mer出现的频率写成4k维频率向量,再将多个物种向量合并成矩阵形式。(3)计算熵权。熵权代表了指标的重要性,根据熵权法的定义,在获得归一化的评价指标的判断矩阵后,根据熵权计算公式用判断矩阵计算出全部4k个k-mer的熵权。(4)量化相似度。在欧氏距离的基础上,结合第三步所得到的熵权,计算出物种之间的加权距离,并写成距离矩阵以便直观观察到物种之间基因序列的相似程度,从而大致判断出物种的亲缘关系。相似性分析。根据收集到的数据分别计算出欧氏距离矩阵与加权欧氏距离矩阵,在利用R软件画出两种方法的ROC图,计算对应AUC值,根据AUC值的大小分析哪种方法具有更好的分类效果。
k=5 时ROC 曲线与 AUC 值
AUC值
AUC 值通常用作衡量总体判别精度的指标。图是 k 取值从 1 到 5 时欧氏距离与加权欧氏距离两种方法下的 ROC 曲线,表 是 k 取值从 1 到 5 时两种方法的 AUC 值。从图表中观察到,无论 k 取何值,加权欧式距离的 AUC 值始终高于欧氏距离的 AUC 值,并且加权欧氏距离在 k=2 时其 AUC 值达到最高,为 0.9079,说明加权欧氏距离的方法比欧式距离在分类上更具有效率。
点击标题查阅往期内容
R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较
左右滑动查看更多
01
系统发育树分析
在距离矩阵的基础上利用 R软件对数据进行聚类分析,画出两种方法的系统发育树,通过观察系统发育树的聚类效果,判断分类器的分类效率。
甲型流感病毒的系统发育树
我们一般在基因水平上测试分类器的效率。这一节,我们针对甲型流感病毒的分类问题收集到 32 条来自五种致命类型的甲型流感病毒基因序列。甲型流感病毒是单链分段 RNA 病毒,我们对于甲型流感病毒的分类是根据病毒表面蛋白血凝素和神经氨酸酶来分的。甲型流感病毒十分危险,因为它们的自然宿主范围很广,包括鸟类、马、猪和人类。众所周知,它们具有高度的遗传和抗原变异性。甲型流感病毒引起了许多大型流感,其中最致命的亚型是 H1N1、H2N2、H5N1、H7N3 和 H7N9。选择这些子类型画出系统发育树来测试分类器的效率。
16S 核糖体 RNA 的系统发育树
这组数据,我们选择了74条16S核糖体RNA序列。16S核糖体RNA是原核生物核糖体的亚基的重要组成部分,一个细菌细胞就可能含有多种16S核糖体RNA。16S核糖体RNA作为rRNA的一种,能够作为核糖体蛋白质结合的架构,同时因为与氢键结合,又可以增强亚基结合时的稳定性以及碱基配对的稳定性。我们收集到的74个16S核糖体RNA数据以布奇纳·阿菲迪科拉、贝纳特氏立克次体、纤维杆菌琥珀酸、奥克西托克雷白杆菌、甲苯溶解偶氮、博氏疏螺旋体、幽门螺杆菌、放线菌聚集菌、鞣革菌、梭状芽孢杆菌这10种原核生物作为来源。
序列非比对方法作为生物序列比较常用的方法,因为具有步骤简化,耗时小的特点,具有十分巨大的应用前景。本文利用熵权提出了一种新的加权欧氏距离方法。并将加权欧式距离和欧式距离应用到相似性分析和系统发育树分析两方面。在相似性分析中,从k=1到k=5,加权欧氏距离的AUC值都大于欧氏距离的AUC值。在系统发育树分析中,欧氏距离与加权欧氏距离两种方法分类效果相当,都能准确将同类别的生物序列聚为一类。故结果表明基于k-mer思想,利用熵权来研究DNA序列非比对方法精确度更好,是有效的。