R软件基于k-mer 的DNA分子序列比较研究及其应用

简介: R软件基于k-mer 的DNA分子序列比较研究及其应用


科学技术的发展为各个领域都带来了深刻的变革,在生物学领域,随着计算机的应用,生物学与信息学的结合诞生了一门新的融合学科——生物信息学点击文末“阅读原文”了解更多


作为生物信息学的重要研究内容之一,生物序列比较成为当下热点问题。基于k-mer的DNA分子序列比较研究是序列比较的一种,该方法以进化论作为依据,从序列的相似性出发探究同源的可能性。关于相似度的计算,首先将生物序列转化为k-mer的词频向量,然后利用距离公式求得生物序列的距离矩阵作为相似度的量化。基于k-mer的DNA分子序列比较研究在这篇论文中采用以熵权作为权重的加权欧氏距离与欧氏距离两种方法计算相似度。最后,通过相似性分析与系统发育树分析测试两种方法的分类效率,评价方法的应用效果。

考虑到生物序列非比对方法的优点,本文将重点放在研究基于k-mer的非比对方法上,并将熵权应用到相似度的计算上,将相似度量化,利用距离来反映物种之间的亲缘关系。论文的主要工作如下:(1)数据收集。针对本文研究内容收集相应生物序列数据,整理成文件。(2)k-mer的读取。利用R编程软件,给定不同的k值计算基因序列的k-mer出现的频率,将每个物种不同k-mer出现的频率写成4k维频率向量,再将多个物种向量合并成矩阵形式。(3)计算熵权。熵权代表了指标的重要性,根据熵权法的定义,在获得归一化的评价指标的判断矩阵后,根据熵权计算公式用判断矩阵计算出全部4k个k-mer的熵权。(4)量化相似度。在欧氏距离的基础上,结合第三步所得到的熵权,计算出物种之间的加权距离,并写成距离矩阵以便直观观察到物种之间基因序列的相似程度,从而大致判断出物种的亲缘关系。相似性分析。根据收集到的数据分别计算出欧氏距离矩阵与加权欧氏距离矩阵,在利用R软件画出两种方法的ROC图,计算对应AUC值,根据AUC值的大小分析哪种方法具有更好的分类效果。

k=5 时ROC 曲线与 AUC 值

6752f23e3ac47beee94db1815a424329.png

AUC值

cfae3dcccd93faad1da8ea102ae2a974.png

AUC 值通常用作衡量总体判别精度的指标。图是 k 取值从 1 到 5 时欧氏距离与加权欧氏距离两种方法下的 ROC 曲线,表 是 k 取值从 1 到 5 时两种方法的 AUC 值。从图表中观察到,无论 k 取何值,加权欧式距离的 AUC 值始终高于欧氏距离的 AUC 值,并且加权欧氏距离在 k=2 时其 AUC 值达到最高,为 0.9079,说明加权欧氏距离的方法比欧式距离在分类上更具有效率。


点击标题查阅往期内容


R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较



左右滑动查看更多



01




系统发育树分析

在距离矩阵的基础上利用 R软件对数据进行聚类分析,画出两种方法的系统发育树,通过观察系统发育树的聚类效果,判断分类器的分类效率。

甲型流感病毒的系统发育树

我们一般在基因水平上测试分类器的效率。这一节,我们针对甲型流感病毒的分类问题收集到 32 条来自五种致命类型的甲型流感病毒基因序列。甲型流感病毒是单链分段 RNA 病毒,我们对于甲型流感病毒的分类是根据病毒表面蛋白血凝素和神经氨酸酶来分的。甲型流感病毒十分危险,因为它们的自然宿主范围很广,包括鸟类、马、猪和人类。众所周知,它们具有高度的遗传和抗原变异性。甲型流感病毒引起了许多大型流感,其中最致命的亚型是 H1N1、H2N2、H5N1、H7N3 和 H7N9。选择这些子类型画出系统发育树来测试分类器的效率。

0b2faf46b87d0cee35257ce870cca705.png

16S 核糖体 RNA 的系统发育树

这组数据,我们选择了74条16S核糖体RNA序列。16S核糖体RNA是原核生物核糖体的亚基的重要组成部分,一个细菌细胞就可能含有多种16S核糖体RNA。16S核糖体RNA作为rRNA的一种,能够作为核糖体蛋白质结合的架构,同时因为与氢键结合,又可以增强亚基结合时的稳定性以及碱基配对的稳定性。我们收集到的74个16S核糖体RNA数据以布奇纳·阿菲迪科拉、贝纳特氏立克次体、纤维杆菌琥珀酸、奥克西托克雷白杆菌、甲苯溶解偶氮、博氏疏螺旋体、幽门螺杆菌、放线菌聚集菌、鞣革菌、梭状芽孢杆菌这10种原核生物作为来源。

354337fece125e5cafd6c0a66cf3397f.png

序列非比对方法作为生物序列比较常用的方法,因为具有步骤简化,耗时小的特点,具有十分巨大的应用前景。本文利用熵权提出了一种新的加权欧氏距离方法。并将加权欧式距离和欧式距离应用到相似性分析和系统发育树分析两方面。在相似性分析中,从k=1到k=5,加权欧氏距离的AUC值都大于欧氏距离的AUC值。在系统发育树分析中,欧氏距离与加权欧氏距离两种方法分类效果相当,都能准确将同类别的生物序列聚为一类。故结果表明基于k-mer思想,利用熵权来研究DNA序列非比对方法精确度更好,是有效的。

相关文章
|
7月前
|
存储 算法 索引
模拟算法题练习(二)(DNA序列修正、无尽的石头)
模拟算法题练习(二)(DNA序列修正、无尽的石头)
|
4月前
|
人工智能 算法
第一周算法设计与分析:C : 200和整数对之间的情缘
这篇文章介绍了解决算法问题"200和整数对之间的情缘"的方法,通过统计数组中每个数模200的余数,并计算每个同余类中数的组合数来找出所有满足条件的整数对(i, j),使得\( A_i - A_j \)是200的整数倍。
|
6月前
技术心得记录:概率统计20——估计量的评选标准
技术心得记录:概率统计20——估计量的评选标准
40 0
|
7月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
161 3
|
7月前
|
Web App开发 算法 数据挖掘
JCR一区7.3分|内质网应激+分型+药物筛选分子对接
这篇研究分析了溃疡性结肠炎(UC)内质网应激相关基因特征,发表在《Frontiers in Immunology》杂志上。通过基因表达谱和加权基因共表达网络分析,研究人员识别出915个差异表达基因和11个关键的内质网应激相关基因(ERSRGs),这些基因在UC中具有诊断价值。他们还发现诺斯卡品作为小分子药物,可能通过影响ERS对UC产生治疗潜力。此外,研究揭示了ERS在UC发病机制中的重要角色,并与免疫细胞浸润和结肠粘膜侵袭相关。通过一致性聚类,确定了ERS相关的亚型,这些发现为理解UC的病理机制和潜在治疗提供了新见解。
78 0
|
算法
【运筹学】整数规划建模技巧
【运筹学】整数规划建模技巧
214 2
|
机器学习/深度学习
差异基因通路富集分析的统计学假设-个人见解分享
本文主要分享了学习 “差异基因通路富集中使用的 超几何检验方法背后意义” 的个人见解
292 0
|
机器学习/深度学习 人工智能 自然语言处理
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
176 0
|
存储 算法 C++
【数独 2】候选数法解数独谜题-挖掘更深的信息-C++实现
【数独 2】候选数法解数独谜题-挖掘更深的信息-C++实现
161 1
【数独 2】候选数法解数独谜题-挖掘更深的信息-C++实现
|
算法 测试技术
h0103. 末日算法 (10 分)
h0103. 末日算法 (10 分)
235 0