群体遗传学应知应会
今天分享一篇关于群体遗传学的笔记,主要参考了网络公开资料以及公开发表的文献,包含群体遗传的概述、研究方法、应用领域、分析流程、统计学原理、群体结构评估等。
群体和个体有什么区别?
在遗传学中,群体和个体是两个重要的概念。群体指的是一组具有共同遗传特征的个体,而个体则是指单个生物体。
群体是由多个个体组成的,而个体是指单个生物体。群体中的个体之间可以存在遗传交流和基因流动,这会导致群体中的基因频率发生变化。
群体遗传学关注的是群体中基因的频率和分布,通过研究群体中的基因组成来了解群体的遗传结构和演化过程。
为什么要做群体遗传研究?
理论体系
在测序技术大力发展之前,对群体主要是依靠表型进行研究,如加拉巴哥群岛的 13 中鸟雀有着不同的喙,达尔文认为这是自然选择造成的后果。
达尔文的进化论对应的观点可以简单概括为“物竞天择,适者生存”,这也是最为大众所接受的一种进化学说。
直到 1968 年,日本遗传学家提出了中性进化理论,也叫中性演化理论。
可以这样理解中性理论:一群人抽奖,在没有内幕的情况下,每个人抽到一等奖的概率是相等的,这个可能性和参与抽奖的人的身高、年龄、爱好等因素都没有关系。中性理论常作为群体遗传研究中的假设理论来计算其他各种统计指标。
技术手段
测序价格大幅度降低,根据 NIH 公布的数据来看,近几年来测序技术普及,二代高通量测序已经成了遗传研究的必备手段,已经完全具备技术条件,可以实现对群体资源的基因解析。
基于重测序的群体遗传
重测序可以获得某些样品的基因型信息,得出变异的关键位点。通过重测序可以分析出群体中某些基因的频率分布和变化,解析群体遗传蕴含的秘密。
遗传变异的类型
常见的变异类型有SNP、IdDel、SV、CNV等,重测序中最关注的是SNP,其次是InDel。其他的几种结构变异的研究不是太多。(结构变异往往需要单独研究,在此不做扩展)
全基因组重测序
有参考基因组的物种的全基因组测序叫做重测序,没有参考基因组的物种的全基因组测序则需要从头组装。随着测序价格的降低,越来越多物种的参考基因组都已经测序组装完成。
在群体遗传学研究中更多的是有参考基因组的物种,植物中常见的是拟南芥、水稻、小麦和玉米等。
重测序分析流程
群体进化选择
正选择
正选择可以更好地用自然选择来解释:假如一个基因或位点能够使个体有着更强的生存力或者是育性,这样就会使得这个个体的后代更多,如此一来,这个基因或位点在群体中就越来越多。
正选择能够使有利的突变位点在群体中得到传播,但是与此同时却降低了群体中该位点的多态性水平。
也就是说原先该位点周围的核苷酸组成是多样的,在经过正选择之后,这个位点周围核苷酸的多样性就渐渐的趋于同质化了。
这就好比一块田,里面本来有水稻和稗草及其他杂草,由于稗草的适应性增强,稗草在逐渐增多,水稻慢慢变少,最后甚至是只剩下了稗草。
这种选择之后多态性降低的情况叫做选择扫荡(Selective Sweep)
负选择
负选择和正选择刚好是相反的。如果群体中的某个个体出现了一个致命的突变,从而使自己或者是后代从群体中被淘汰,这也导致群体中该位点的多态性的降低。
就好比我有100株水稻,其中一株在成长过程中突然不见了,那么对我的这个小的水稻群体来说,这个消失的水稻的独有的位点在群体中就不见了,整体的多态性就降低了。
平衡选择
平衡选择指多个等位基因在一个群体的基因库中以高于遗传漂变预期的频率被保留,如杂合子优势。
平衡选择检测的算法BetaScan2是个Python脚本,输入文件只需要过滤好的SNP数据即可。
群体遗传学统计指标
群体多态性参数
参数定义:其中是有效群体大小,是每个位点的突变速率。
分离位点数目
分离位点数是的估计值,表示相关基因在多序列比对中表现出多态性的位置。
其中为分离位点数量,比如SNP数量。为个体数量的倒数和。
核酸多样性
指的是核苷酸多样性,值越大说明核苷酸多样性越高。通常用于衡量群体内的核苷酸多样性,也可以用来推演进化关系。
可以理解成现在群体内两两求,再计算群体的均值,常用软件是vcftools
。
如上图示例,Sh4基因(控制水稻落粒)在所有亚群中的核酸多样性降低,说明该基因在所有亚群中受到选择,可能与人工育种选择有关。