遗传多态性和变异
遗传多态性是指存在不同状态的DNA,它们决定了生物体更高水平的变异。生物体中存在不同种类的基因组修饰(突变),其中研究最多的是编码区和调控区中的核苷酸替换。
1. 定义
遗传多态性是指在一个种群中,在基因组或基因座的确定位置上(基因在染色体上的位置)存在好几种替代状态的DNA,即等位基因 。这个定义包括几个方面:
(1) 首先,这种特征必须由染色体携带并具有遗传性;
(2) 其次,等位基因在基因组中的位置必须同源;
(3) 但由于特征可遗传,位置同源性也意味着等位基因在血统上同源;如果不同,那么在将它们与最近共同祖先联系起来的其中一个谱系中(至少)发生了一个突变(图1);
(4) 最后,遗传多态性可以在组成 DNA 的最小单位的尺度上定义:核苷酸位点。每个核苷酸变异都可以决定更高层次生物结构——个体的基因、蛋白质和表型——的多态性,因此可以在这个尺度上描述遗传多态性(图2)。
以ABO血型系统为例,它涉及到输血过程中抗原相容性。这是一个存在于人类群体中的遗传多态性案例,涉及ABO糖基转移酶蛋白,含有三个等位基因,即A、B和O。一个人可以是(AA)、(AO);(BB)、(BO);(OO)或(AB)基因型。具体表现型将是[A]、[A];[B]、[B];[O]或[AB],在这里可以看到A和B“支配”O(即它们的表达掩盖了O的表达),并且它们之间是共显性的(A和B之间的杂合子具有可识别的表达,[AB])
首先,多态性可以编码蛋白质的基因座DNA序列的角度加以描述。有些多态性是“同义的”,即它们不会改变蛋白质的氨基酸序列;它们通常是数量最多的多态性。其它的多态性改变了氨基酸,称为“替换”多态性。ABO糖基转移酶的替换多态性有两种类型:改变氨基酸而不改变抗原单位的多态性(它们不干扰个体的ABO表型);其他替换多态性决定了ABO表型。
在核苷酸和等位基因水平之间,遗传分析考虑了中间水平的描述:基因座上可变位点的线性排列。这些称为单倍型的排列在进化遗传学中很有用,因为它们可以帮助发现等位基因之间的谱系联系(图2)。
核苷酸多态性也存在于基因间区(编码区之外)。其中,有些影响到基因表达的调控,因此具有表型效果。其他的则没有已知的影响,被称为“沉默的”。
除核苷酸替换之外,一种特殊类型突变(微卫星突变)的多态性是指非编码DNA片段长度的变化(图3),这是由于短重复核苷酸序列重复次数的变化,如CACACACA或TGTGTG。
并非所有遗传变异都属于遗传多态性定义的范畴,因为这需要替代物位置同源(图3)。因此,有一些通过基因复制得到的重复序列,它们并非位置同源。通常情况下,我们也无法谈论转座元件的同源性,因为它们一般在细胞世代中改变位置,可以成倍增加并侵入基因组。这样一来,就不能确定两个转座元件的同源性。另一方面,同一基因座的两个编码序列,其中一个是完整的,另一个因转座元件插入而失活,这非常符合同源情况。有一天,我们可能会考虑谈论所谓的“表观遗传”染色体修饰的多态性,这些修饰有时会在几代细胞中传播,包括体细胞或生殖细胞(符合配子的条件。生殖细胞的突变可传给其子代。),如甲基化。它们在种群进化中的重要性还有待评估。遗传多态性的概念仅限于某些类别的变异——本质上是核苷酸替换——这是因为后者在探索自然种群历史中具有巨大效用。这些变异可用于建立进化的数学模型。
多态性这个词的意思是“多种形态”。它与单态相反,而单态表示没有变异。在生物学词汇中,这种对立早在遗传学出现之前就用来表示同一物种中几种不同类型个体并存,如群居昆虫的等级多态性(蚁后和工蜂);北极一些哺乳动物的季节性多态性(毛皮变化)。这些案例不属于遗传多态性的范畴;遗传多态性这一概念较新,含义更狭窄、更精确。连续变异(如体型大小变异)也不属于多态性的范畴,因为它们不存在不同的替代。然而,影响体型大小的基因座属于这一定义的范畴。我们将在下文讨论研究最多的遗传变异——核苷酸替换,因为它们在进化中最重要,然后我们将讨论表型变异。
2. 测量
仅仅说一个基因座变异性大或小,而不给这个判断做定量评估,这是不够的。研究人员可以在不同的尺度上研究变异。如果只对蛋白质的等位基因感兴趣,研究人员将测量等位基因多样性,用“H”表示。如果对DNA多样性感兴趣,研究人员将测量核苷酸多样性,用“π”来表示。
等位基因多样性H的定义是,在两次有放回抽样中抽取到两个不同等位基因的概率。如果我们称pi为第i个等位基因的频率,那么两次抽样抽取到相同等位基因的概率为F=Σ pi2。样本的等位基因多样性是其对1的补充,即:
H = 1 – Σ pi2 (1)
该公式对于蛋白质等位基因和单倍型都适用,被称为单倍型多样性。也可以称为杂合度,因为在二倍体基因座的情况下,它给出了杂合子的预期频率。
核苷酸多样性π相当于单个核苷酸尺度上的H。计算方法是用两两样本中序列之间的核苷酸差异数的平均值(δij),除以DNA片段的长度,即核苷酸的数量(L)。
π = average (δij)/L (2) (参考文献[1])
这个值因物种而异。在人类基因组的编码部分,从种群中随机选取的两条染色体平均每1000个核苷酸相差1个。在果蝇(Drosophila melanogaster)基因组中,这种差异约为百分之一。因此,果蝇的核苷酸变异是人类的十倍。当这些值与编码区域的大小(果蝇大约有15500个基因,人类至少有22000个基因),甚至基因组的大小(果蝇每个单倍体基因组有1.4亿个碱基对,人类大约有32亿个碱基对,比果蝇多20倍)相关联时,多态位点的数量庞大,导致任何物种中有性世代诞生的生命,无论过去、现在还是将来,都不会与另一个生命在遗传上完全相同。DNA多态性的信息力量巨大。在法医学中,只需要16个微卫星位点就可识别嫌疑人。
3. 历史
“变异”一词出现在达尔文(Darwin)的著作《物种起源》(1859)中前两章的标题中。在生物遗传规律的谜团尚未破解之前,达尔文将这一概念引入自然科学,专门撰写了另一本重要著作《动植物的变异》(1868)。他深信,进化只涉及对生物体适应其生活环境影响非常弱的微小变异,因此他非常重视微小的数量变异,这促使其后继者【尤其是卡尔·皮尔森(Karl Pearson)】创立了生物统计学。但是1900年孟德尔定律(Mendel’s laws)的重新发现使研究人员开始重点关注非连续变异。
从1908年到1930年,群体遗传学本质上是一门试图调和达尔文进化论与孟德尔遗传学的理论学科,而且概率在其中发挥了主要作用。遗传学是反直觉的。它预测在子代中不存在亲代的完美再现,因为子代的基因型是由两个亲代各自一半基因组融合之前,等位基因随机抽取分离的结果。研究人员意识到,这是代际间传递的等位基因频率,而不是基因型或表现型。这些频率从一代到下一代或多或少都保持稳定,除了个体之间的多重亲缘纠缠之外,还会产生相同的基因型频率(图4)。因此,与变异相关联的群体基因型分布是唯一可预测的因素。1930年左右,三位理论家罗纳德·费希尔(Ronald Fisher)、霍尔丹(JBS Haldane)和休厄尔·莱特(Sewall Wright)帮助明确了孟德尔种群的概念[2]。在这种情况下,进化必然涉及三个结构层次:基因、个体和种群。可以用以下公式来概括这三方面的关联:种群进化是等位基因频率的变化(基因尺度,也是群体尺度),这种变化取决于选择对表型的分选(个体尺度)。经验群体遗传学研究随后发展起来,但在很长一段时间内,研究人员因不了解染色体的工作原理而受到很大局限(1953年,研究人员才开始了解DNA分子结构,而测序工作于1977年开始),不得不转而依赖研究少数可见的多态性,如瓢虫鞘翅或蜗牛外壳的色泽(详见聚焦——伟大的蜗牛辩论)。对于自然种群是普遍多态还是单态,以及多态性本身是否有益,遗传学家争论不休。直到1966年(涉及蛋白质)和1983年(涉及DNA),大分子尺度变异研究开启后,这些问题才有了答案。
4. 数量变异和遗传力
我们环顾四周时,注意到不同人的身体差异,有些差异复杂,如面部特征,有些差异容易测量,如体重或身高。常识就可以告诉我们,尽管不知道它们的遗传方式,有一部分差异是可以遗传的。这些性状通常由多基因决定,即受到许多基因座的影响。发育遗传学及其在物种比较中的应用(evo-devo,意为“发育的进化”)揭秘了复杂的相互作用网络,这些相互作用使身体细胞在发育过程中都具有相同的遗传包袱,通过后生作用分化形成不同的组织。目前还不清楚复杂性状是如何形成的。基于统计分布的特性,可以用生物统计学来研究可测量的表型。一个具有有用属性的值是方差[3]。当几个独立原因决定了一个遗传品系的变异时,它们的方差是可加的,求和给出了这个品系的方差。如果原因不是独立的,则协方差之和要加到方差之和上。一个表型性状的总方差Vt是:
Vt=Vga+Vgd+Vgd+Vgi+Ve
Vga,加性遗传方差,是由每个独立基因座产生的方差总和;Vgd,显性遗传方差,是同一基因座上两个等位基因相互作用的结果;Vgi,基因座之间的互作方差,是同一个体的不同基因座之间相互作用的结果;Ve,环境方差,这里假设独立于遗传方差。
显性遗传方差对于同父同母的两个孩子来说很常见,因为在一个特定的基因座上他们从父母双方获得相同的等位基因,他们共享显性效应;这种情况在四个基因座中就有一个。他们没有与父母共享这些效应,所以,尽管事实上两个孩子同父母共享如此多的基因,但两个孩子之间比他们同父母之间更为“相似”。当然,一个亲代可能偶然地在某个基因座上获得了与其孩子相同的两个等位基因。这种机会取决于种群中等位基因的频率。我们看到,一个孩子和其父母在某一特定性状上的相似程度是一个公共属性。
更笼统地说,遗传变异所有组成部分(Vga+Vgd+Vgi)在群体间都存在差异。在育种品系中,一种常见的情况是近亲繁殖,这会耗尽遗传变异:结果,一个性状在两个种群中的平均值可能相同,但遗传变异不同。因此,育种家选择一种性状的能力是受选择品系的特性,而不是性状的特性。
亲代与子代之间的关系由遗传力h2衡量。这被定义为加性遗传方差与总方差的比值[4]:
h2 = Vga /Vt
图5显示了在各种假设下的情况。遗传力是决定一个特征是否能被选择的能力。图5-3显示,一个育种者如果选择了数值为a的个体,就能在一个杂交世代内将一个特征的平均值从0移到b。可以证明,b=h2a。为了选择一个性状,使环境标准化(从而减少环境方差)并将自己置于有利于性状出现的环境条件中,这将有利于提高遗传力。遗传学家沃丁顿(Waddington)已经证明,在自然界中,环境的变化可以揭示进化过程中将被选择的新性状。
参考资料及说明
封面照片:雷默瑞丽蜗牛和花园葱蜗牛的壳(Cepaea nemoralis & Cepaea hortensis)安德烈·昆泽尔曼(André Künzelmann),UFZ.
[1] 这个公式可以用更常规的方式写成:π=n(n-1)/2L.Σn-1Σnδij
[2] Fisher R.A. (1930) The Genetical Theory of Natural Selection, Clarendon Press, Oxford; Haldane J.B.S. (1932) The causes of evolution. London: Harper & Brothers; Wright S. Evolution and the Genetics of Populations. 1, 2, 3, 4; New Edition. University of Chicago Press. 1984 (reprint by the author of his main results).
[3] 作为测量研究性状的个体样本,方差可以定义为数值平方的平均值与数值平均值的平方之间的差异。这个度量总是正值,表明个体的分散性。
[4] 这是严格意义上的遗传力。广义上的遗传力是遗传方差之和与总方差之比。 这个公式给出了父母双方(“平均父母”)的遗传力;只有单亲的估计值将给出h2/2。
环境百科全书由环境和能源百科全书协会出版 (www.a3e.fr),该协会与格勒诺布尔阿尔卑斯大学和格勒诺布尔INP有合同关系,并由法国科学院赞助。
引用这篇文章: VEUILLE Michel (2024年12月6日), 遗传多态性和变异, 环境百科全书,咨询于 2024年12月21日 [在线ISSN 2555-0950]网址: https://www.encyclopedie-environnement.org/zh/vivant-zh/genetic-polymorphism-and-variation-2/.
环境百科全书中的文章是根据知识共享BY-NC-SA许可条款提供的,该许可授权复制的条件是:引用来源,不作商业使用,共享相同的初始条件,并且在每次重复使用或分发时复制知识共享BY-NC-SA许可声明。