古基因组学理论方法与全新世人类历史研究

    作者简介:文少卿,复旦大学文物与博物馆学系副教授(上海 200433)
    作者简介:杜盼新,复旦大学表型组研究院博士后(上海 200433)

摘要: 古DNA是指从古代样本中获取的任何遗传物质。在过去的十年,我们见证了古DNA研究的一场革命。古DNA研究的焦点在很长时间内被限制在了线粒体DNA和一些有限的核基因组标记,但如今已经能够获得非常古老的全基因组数据。这一突破主要是缘于高通量测序技术以及获取高度降解、短片段DNA分子的能力,并催生了古基因组学。古基因组学常用的研究对象有线粒体、Y染色体和常染色体。近年来,古基因组学研究促进了认识全新世人类在各大洲的扩散。古基因组学像放射性碳测定年代一样,未来将成为考古学和历史学研究的常规工具。

English Abstract

    全文HTML

  • 遗传学就其本质而言是一门历史学科。遗传突变世代相传,并因为随机地或者选择作用在群体和物种间/内积累下来。但长期以来,遗传学家的主要精力都被限制在了现代样本的遗传变异研究,他们只能通过模型间接地推测那些导致如今基因池差异的历史进程,如迁徙、替换等。考古学和古生物学数据可以帮助我们理解人类起源和扩张过程。但是这些数据无法用于鉴别不同人群间的血缘关系。尽管考古研究在阐明文化传播方面非常成功,但是在判断文化传播是否伴随着人群扩散方面常常力所不逮。古DNA(ancient DNA,aDNA)是指从古代样本中获取的任何遗传物质。近年来,随着古DNA提取、建库、捕获技术以及新一代测序技术快速发展,遗传学家可以从古代遗骸中直接获取数以千兆碱基的信息,并和古生物学家、考古学家、语言学家和其他学科的学者一起,在不同的时间尺度上探讨人类的演化历史。如今,人类进化遗传学正走向新的研究范式:对于目标人群,我们可以采集感兴趣的时间节点之前、期间和之后的样本,通过相互比较,直观地研究该人群的演化历程。源于可作为直接证据的特点,古基因组学在探索全新世人类历史中扮演着极其重要的角色。

  • 一.   古DNA发展简史

      一.   兴起−基于分子克隆技术

    • 最早的古DNA提取和分析的尝试是在PCR技术出现之前。1980年,湖南医科大学首次从马王堆汉代女尸中提取出了DNA分子。1984年,Higuchi等尝试通过细菌克隆从博物馆斑驴(quagga)的皮肤中获取了229 bp的DNA。一年之后,古代人类的DNA序列首次被报道。Pääbo等从一个2400年前埃及木乃伊的组织中提取了DNA,基于分子克隆技术,一个多拷贝的3.4 kb Alu序列被测序。现在我们知道,古DNA极易降解,片段长度的峰值在30—80 bp,因此,埃及木乃伊的Alu序列极有可能是现代人的污染。尽管如此,这些案例为下一阶段基于PCR技术的古DNA研究积累了经验,为这个学科的发展奠定了基础。

    • 二.   发展−基于PCR技术

    • 分子克隆技术对于DNA的数量和质量的要求非常高。古DNA含量极低且损伤严重的特点,导致该方法效率较低。相比之下,PCR技术能够非常便利地将低含量的目标基因组片段扩增至能用于下游测序的水平,使古DNA研究避免了繁琐的重组和克隆实验。1988年,PCR首次成功地应用于获取一个保存在泥炭沼泽中的约7000年前的人颅脑中的线粒体DNA。重要的是,PCR联合新的提取技术,使得钙化遗骸的DNA研究成为可能,这一突破将古DNA研究领域推到了更为广阔的空间。随后的20年,PCR技术成为了古DNA研究最为常用的手段。

      PCR技术在古DNA研究领域取得了巨大成就,但是也遇到了一些无法逾越的问题:1)片段化严重的古DNA分子限制了长片段扩增;2)古DNA上的化学修饰妨碍了DNA聚合酶的结合。因此,现代DNA的污染(如试剂)会在古与DNA模板的竞争性PCR过程中胜出。古DNA研究中最需要注意的就是防止污染,确保古DNA结果的真实性,要知道现代人DNA污染从田野发掘到实验室的每一个环节都有可能发生。由于早期现代人(Anatomically modern humans,AMH)与现代人的遗传相似性更高,证明其数据的真实性更加困难。当时普遍的观点是,即使遵循最为严格的古DNA控制污染的标准,确保古人类DNA的真实性依旧是不可能的。

    • 三.   基因组时代−基于高通量测序技术

    • 现代人DNA污染问题使得古DNA的研究一度被质疑。直到本世纪初,高通量测序技术的出现,这个状况才得以改变,古DNA研究从此进入了高速发展的新阶段。

      高通量测序避免了对古代样本中获取的DNA进行直接PCR,而是将提取物用于构建可以测序或者杂交捕获的DNA文库。该策略有诸多优点:1)古代样本中大量的DNA片段降解至50 bp以下。如此短的分子可以用于基于文库构建的测序研究,然而基于PCR 方法需要大部分DNA片段能够有足够的空间让引物所结合,因此,片段短于40 pb就不可行了;2)相比PCR不可避免地扩增较长片段,高通量测序更偏好短片段,从而避免了较长的现代人DNA污染;3)古DNA随着时间流逝所积累的化学修饰会导致DNA分子末端典型损伤的积累,现代人DNA中往往不存在这些损伤,因此,这类损伤所产生的碱基替换可视为判断是否为古DNA序列的标准。尽管通过直接PCR难以获取这些碱基替换的信息,但是它们能够被高通量测序所检测。因此,当发现提取液中存在污染时,可以只分析那些携带损伤的古DNA片。

      技术的改进使DNA短片段的提取更加有效,并能针对少量损伤DNA进行建库,以及发现在人类和动物的颞骨岩部中DNA保存状态较好。在过去的十年内,由于古DNA测序和富集、提取方法的发展,古DNA研究解决了一系列人类历史和演化中悬而未决的问题。

    二.   技术原理和分析方法

      一.   古DNA的研究对象

      1.   线粒体DNA。
    • 线粒体是存在于细胞核之外的小型环状DNA。它只有16569 bp大小。相比核基因组,线粒体DNA(mtDNA)具有多拷贝(更容易获得高质量数据,尤其是DNA高度降解的材料)、严格母系遗传(由母亲传递给子女,谱系清楚)、易受遗传漂变的影响(产生特异地理分布的群体,更容易追踪人群历史)、高突变率等特性(突变信息丰富,利于区分不同群体)。因而,线粒体DNA作为一种重要的遗传学工具,主要在以下两个方面发挥了主要作用:

      第一,对人类走出非洲的学说产生深远影响。1987年,Cann等人对世界各地的147个现代人进行mtDNA的RFLP分析,在进行系统发育树构建时,发现所有样本分成两大支,较为古老的一支都由非洲群体组成,而非洲以外的群体和部分非洲群体则处于另一支。他们认为所有现代人的mtDNA都起源于非洲的一位女性,被称为“夏娃”。利用线粒体突变速率,他们估算出“夏娃”生活在距今19万到14万年前的非洲,并在约18万至9万年前她的一支后代走出非洲,扩散到世界各地,最终演化成各大陆的现代人群体。这一研究有力地支持了现代人非洲起源的学说。之后,通过mtDNA全序测定,Ingman等人的研究工作依旧证实了这一点。另一方面,通过对早期智人如尼安德特人和丹尼索瓦人的mtDNA进行分析,Green等人和Krause等人发现这些早期智人出现在与现代人截然不同的更为古老的支系上,并非现代人的直系祖先。以上研究也进一步支持并验证了非洲起源学说。

      第二,通过对mtDNA序列的分析,我们可以对现代人在各大陆的迁徙与扩散获得更清晰的认识。例如非洲古老支系的发现,欧洲新石器时期农业人口的涌入,现代人进入东亚的“南方路线”的提出,现代人在萨胡大陆(Continent of Sahul)的初次迁徙,南岛人群在东南亚群岛和太平洋地区的扩张以及现代人对美洲的殖民等等。

    • 2.   Y染色体DNA。
    • Y染色体是男性特有的性染色体。它全长约60 Mb,除了两端的拟常染色体区(大小分别为2.6 Mb和0.4 Mb)外,绝大部分区域不与X染色体发生同源重组。

      相比线粒体,Y染色体具有更长的序列,不会存在类似于线粒体的回复突变;有更丰富的突变位点可供选择,并且遵循严格的拓扑关系,可以用来构建高分辨力的谱系树(最大分辨力为100年以内);Y染色体的非重组区遵循严格的父系遗传,可作为父系溯源的良好工具。另外,相比于常染色体,Y染色体的有效群体数仅为其四分之一,更易受遗传漂变的影响而形成地理特异分布。

      进入基因组时代以后,对Y染色体全序列进行大规模平行测序已变得更加容易。与传统STR和SNP联用的方法相比,Y染色体全序列(常用的为10M区域)重测序有诸多优势:第一,通过测序可以无偏倚地发现大量的SNP位点,因而构建的谱系树也是无偏差的,并且谱系树的支长与时间成正比。第二,SNP位点极低的回复突变率使谱系树更加稳健可靠,同时SNP位点的低突变速率可用于研究不同时间尺度的群体历史。用Y测序技术估算出现代人较大规模一次出非洲的时间约为5.7万—7.4万年前(53)和发现各大陆在距今4000到8000年间大规模的父系扩张(54)是比较重要的两个研究。

    • 3.   常染色体DNA。
    • 人类核基因组位于细胞核中,共包含22对常染色体和1对性染色体(X和Y染色体)。核基因组长度约为30亿个碱基对,储存了绝大部分遗传信息,是研究人类群体历史和进化最全面的工具。

      然而,常染色体一直没有被广泛应用于群体历史研究,主要有以下几个原因:第一,不同于线粒体DNA和Y染色体的单系遗传,来自父母双方的常染色体DNA会因同源重组而被打断,不容易追溯进化历史。第二,常染色体信息量巨大(30亿个碱基对),测序成本较高,无法进行大规模研究。第三,海量的常染色体数据需要更加复杂的分析工具与统计模型与之适应。

      尽管常染色体存在基因重组,但当SNP位点的密度极高时,常染色体可以获取比线粒体和Y染色体更全面的信息,在划分精细人群结构、估算人群混合时间和推断人群混合程度等方面存在较大优势。(57)另外,mtDNA和Y-DNA只能提供单个基因座的信息,而用单个基因座构建的遗传关系或推断的遗传历史可能不如非单倍型的多基因座稳健。(58)2010年以来,随着高通量测序成本的降低,对样本进行高密度SNP分型和大规模全基因组测序已成为可能。同时,相应的数据分析技术也在进步。(59)特别是基因重组的存在,几个甚至一个个体的全基因组数据就可以反映一个群体的遗传信息。因此,常染色体DNA今后会在人类群体历史的研究中发挥更大的作用。

    • 二.   古DNA研究技术

      1.   基于高通量测序的古DNA实验技术。
    • 高通量测序的实验方法主要包括文库构建、探针捕获及测序等步骤。文库构建主要是将测序接头序列连接到DNA片段两端,进行一定的PCR扩增,之后测序。目前,古DNA常用的建库方法包括双链建库(60)、单链建库(61)和针对损伤DNA的建库(62)。尽管我们可以在古DNA提取和建库上提高古DNA的人源内源性占比,但是获取较高深度古DNA的全基因组数据依然花费较高。DNA捕获技术的出现使古DNA研究跨上新的台阶。通过定制不同需求的探针,我们可以专一性地对特定基因(63)、线粒体全序列(64)、部分常染色体(65)甚至全基因组(66)进行捕获富集。这种方法使得古DNA内源性提高、成本降低,也使获取大规模高质量古DNA数据成为现实。最后,我们对构建的古DNA文库进行测序。

    • 2.   基于高通量测序的古DNA分析技术。
    • 随着高通量测序技术的发展,我们已经获取了地域覆盖更加全面和高质量的现代人数据,他们可以作为古DNA分析的参考数据集。古DNA数据本身具有低层数、片段短、存在损伤和污染等特点。因此,如何将古DNA数据和现代人数据进行整合分析是一个棘手的问题。结合我们近期获取的阿史那皇后(北周武帝宇文邕之妻,突厥木杆可汗阿史那燕都之女)的基因组数据,我们解释一下用于群体结构解析的主要方法:

      (1)主成分分析(Principal Component Analysis, PCA)

      主成分分析是用来解析群体遗传结构、分析群体间距离远近的经典方法之一,其基本原理是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,从而达到降维目的。该方法早在40年前就被Menozzi(67)用作解析欧洲人群内部的遗传差异。古代样本由于覆盖度较低,不能直接与现代样本进行整合分析。对于现代参考样本,我们一般是先从同一个位点的两种基因型中随机挑选一种,这样就把二倍体的分型结果转化成了伪单倍体的分型结果。之后,再跟古代样本的数据进行整合分析。

      PCA分析结果解释:如图1所示,每个小图标代表一个样本,现代人群按照语言学分类上色,古代人群按照地理位置分类上色,它们之间越接近说明遗传组成越相似。本研究选取的欧亚大陆参考人群大致聚集成三个大的类群:欧亚大陆东部偏北人群(图中左侧)、欧亚大陆东部偏南人群(图中左侧下方)和欧亚大陆西部人群(图中右侧)。阿史那氏主要和古代东部草原人群(紫红色)、现代蒙古语人群(淡黄色)聚集在一起,说明他们之间的遗传关系较近;现代突厥语人群在图中的分布范围很大,从东部草原到中亚、东欧的人群中都有分布,说明突厥语人群内部遗传差异较大(图中蓝圈内)。

      图  1  阿史那皇后基因组数据在欧亚大陆参考人群中遗传位置的PCA散点图

      PCA能够粗略地展示出各群体间的遗传距离远近,但由于其基于非参数统计的原因,其结果也会有以下两种情况的影响(70):第一,容易受到遗传漂变的影响,尤其是对于一些历史背景不清的群体。第二,容易受到时间结构(temporal structure)的影响,即属于同一群体的个体会因彼此在时间间隔上的增加而呈现出遗传距离的增大。

      (2)聚类分析(Clustering Analysis)

      聚类分析主要是根据等位基因频率的差异,给每个个体指定相应的祖先成分。这种方法的基本原理是:在用于分析的位点都符合哈迪−温伯格平衡(Hardy-Weinberg equilibrium)的前提下,该方法会根据等位基因频率的差异,模拟出K个类群。这K个类群分别代表K种假定的祖先成分。之后,该方法会将用于分析的个体按照概率指定一到多个祖先成分。聚类分析常用的软件是STRUCTURE(71)和ADMIXTURE(72),都已经广泛用于古DNA领域。

      ADMIXTURE分析结果解释:如图2所示,黄色代表西欧亚祖先相关成分,紫红色代表东北亚祖先相关成分,蓝色代表东亚祖先相关成分。因此,阿史那氏皇后与蒙古高原人群的组成相似,主要由东北亚来源(紫红色)的遗传成分构成。

      图  2  阿史那皇后基因组数据以及欧亚大陆参考人群的ADMIXTURE图(K=5)

      由于不依赖于群体模型、事先假定明确数目的祖先成分,聚类分析在进行复杂混合群体分析时存在诸多问题。另外,聚类分析容易受到采样偏差的影响,尤其是在进行古代人与现代人比较分析时。

      (3)f3检验(f3-statistics)

      f3检验,又称三群体检验。该方法主要用于检验群体H3是否源于另外两个群体H1和H2的混合。随着时间推移,群体混合后的分子特征会因遗传漂变逐渐丢失。因此,通过分析群体间共享的遗传漂变后的位点,我们可以检验混合是否发生。

      f3检验有两种常用的方式,f3-admixture和f3-outgroup。f3-admixture的表现形式为f3(Test; A,B),可以用于检验Test群体是否为群体A、B混合而成。当f3(Test; A,B)的数值小于0时,混合事件可能发生。与此同时,我们会计算Z值(Z-scores),用以检验是否显著。只有当Z<−3时,我们才能认为是显著的,即混合事件发生,并且Z值越小越显著,混合事件发生的可能性越大。f3-outgroup的表现形式为f3 (O; A, B),其中O是作为外参的群体,A和B表示用于比较的群体。当外参群体距离群体A和B都比较远时,f3的数值可以用来衡量群体A、B之间的遗传距离远近。此时,f3数值一般大于0,并且数值越大,表示群体A、B之间的距离越近。同样地,我们依旧需要计算Z值,当Z>3时,我们认为群体A、B之间的距离比较近是统计上显著的。

      f3检验结果解释:公式f3 (Ashina, X; Mbuti)中非洲的Mbuti群体作为外参群体,Ashina代表阿史那氏个体,X代表欧亚大陆已发表的古代游牧人群和现代阿尔泰语人群。该公式的目的是以Mbuti作为外参,将阿史那氏与欧亚大陆已发表的群体两两一组分别进行比较并计算f3值。f3值越大,说明该群体与阿史那氏的遗传距离越近,在图3中的颜色越趋向于红色。因此,从图3可以看出,相比于欧亚大陆西部群体,阿史那氏与欧亚东部群体的遗传距离更近,并且与东北亚地区群体的遗传距离最近。

      图  3  阿史那皇后基因组与参考人群的f3 (Ashina, X; Mbuti)结果图

      (4)D检验(D-statistics)和f4检验(f4-statistics)

      D检验,也叫ABBA-BABA检验,用于四群体检验。它通过评估在三群体谱系树中等位基因频率的不对称性,从而得到与其最相关的外类群(74)。我们先假定三个群体H1、H2、H3和外类群O的谱系关系已知,比如为((H1,H2),H3),O。首先,基因组中最常见的等位基因模式为BBBA,其中,A、B分别代表等位基因的祖先型和衍生型。该模式把H1、H2、H3归为一个类群。其次,第二种常见的模式为BBAA,该模式把H1、H2归为一个类群,H3、O归为一个类群。相反,ABBA和BABA模式则不支持谱系树((H1,H2),H3),O。D检验值为支持ABBA和BABA模式的位点数之差与位数之和的比值。当D值大于0时,说明支持ABBA模式的位点较多,也反应出H3与H2之间存在基因交流;当D值小于0时,说明支持BABA模式的位点较多,也反应出H3与H1之间存在基因交流。f4检验的一种表现形式为f4(O,H1; H2,H3)。当f4值大于0时,说明在跟H2比较的情况下,H1和H3之间存在更多的基因交流;当f4值小于0时,说明在跟H3比较的情况下,H1和H2之间存在更多的基因交流。另外,我们同样需要计算Z值,当|Z|>3时,则表明人群间混合、基因交流达到了显著的水平。(75)

      f4检验结果解释:公式f4 (Mbuti, Ashina; Tungusic/Mongolic, Turkic)以非洲的Mbuti群体作为外参群体,比较阿史那氏与现代通古斯/蒙古语人群和突厥语人群,哪一组存在更多的基因交流。根据图4f4值都小于0,说明在跟突厥语人群比较的情况下,阿史那氏与通古斯/蒙古语人群存在更多的基因交流。并且,Z值大部分都小于−3(在图中用“--”表示),说明该结果在统计学上大部分是显著的,进一步揭示了突厥皇族阿史那氏的东北亚起源。

      图  4  阿史那皇后基因组与参考人群的f4 (Mbuti, Ashina; Tungusic/Mongolic, Turkic)结果图

    三.   古基因组学与全新世人类历史研究进展
    • 大规模平行测序技术的出现促进了基因组学的快速发展,古基因组学也成为遗传学和考古学研究中的热点。尤其是对现代和古代基因组数据的联合分析,让我们对人类进化的历史有了突破性的认识。这包括:发现了解剖学意义上的现代人与已灭绝古人类之间的混血,对现代人走出非洲及扩散到世界各地提供了更详细的时空框架以及对于人类适应新环境相关基因的研究。除此之外,古基因组学在运用在全新世的人类历史研究方面获得巨大进展。

      全新世一般认为是从1.2万年至今,是一段相对温暖且气候波动不大的地质年代。在这个时期,人群经历了快速的增长和扩张,同时,农业也逐渐兴盛起来。从遗传学上看,人类刚经历了瓶颈效应,开始分化产生新的支系,并逐步奠定了当前各区域人群遗传结构的基本格局。

    • 一.   欧亚大陆西部

    • 欧洲大陆的现代人主要由三种遗传成分组成,分别是早期采集狩猎者成分、近东农人成分和黑海大草原的游牧人成分。在末次盛冰期(距今约2.65万—1.9万年)后,欧洲大陆最先繁盛起来的人群是中石器时代的欧洲采集狩猎人群,简称WEHG(Western European hunter−gatherers)。在距今9000年左右,欧洲采集狩猎人群与第二波来自安纳托利亚的农业人群(EEF, early European farmers)发生混合。这些农业人群给欧洲大陆带来了新石器农业相关的生活方式,比如种植作物和喂养家畜。这些农业人群最初是由近东的欧亚基底人群与欧洲采集狩猎人群混合形成。第三波进入欧洲的人群是黑海—里海大草原的游牧人群,他们与距今约5000年前的颜那亚文化(Yamnaya culture)相关。这些游牧人群将青铜技术和原始印欧语(proto-Indo-European language)带入了欧洲。研究者认为这些游牧人群是由中石器时代东欧的采集狩猎人群(EEHG, Eastern European hunter−gatherers)与高加索地区的采集狩猎人群(CHG, Caucasus hunter-gatherers)混合形成。而EHG是由约四分之一的WHG成分与约四分之三的古代欧亚大陆北部人群成分(ANE, Ancient North Eurasian)混合而成。

      接下来是内亚地区(此处还包含中亚、东欧和西亚),该区域的群体历史与欧洲大陆有所不同,比如中亚的采集狩猎人群没有因农业人群的影响而实现新石器变革。在农业兴起前后(>7000 BCE),该区域存在七种祖先群体,分别为北部的西欧的采集狩猎人群(WHG)、东欧的采集狩猎人群(EHG)、西伯利亚西部的采集狩猎人群(WSHG, West Siberian hunter-gatherers)、西伯利亚东部的采集狩猎人群(ESHG, East Siberian hunter-gatherers),南部的安纳托利亚的农业人群(Anatolian farmers)、伊朗的农业人群(Iranian farmers)和南亚的采集狩猎人群(South Asian hunter-gatherers)。地理区域上从西到东,这些群体之间的混合呈现一定梯度。例如,越靠近哈萨克斯坦东部的群体,其呈现出的WSHG和ESHG成分就越多;越靠近东欧的群体,其呈现出的EHG和WHG成分就越多。到了青铜早期(5300BP—5000BP),位于黑海−里海北岸的颜那亚文化人群开始崛起,并分别向东西扩张。颜那亚文化人群向西扩张到欧洲,与东欧、中欧的农业人群发生混合,形成新的绳纹器文化(Corded Ware Culture)人群;颜那亚文化人群向东到达阿尔泰山和米努辛斯克盆地,形成阿凡纳谢沃文化(Afanasievo culture)。但是,此时,中亚大部分地区还是以采集狩猎人群为主,如在哈萨克斯坦北部的中亚地区蓬勃发展的博泰文化人群(Botai culture)。博泰文化人群是ESHG和WSHG的混合,以WSHG为主。WSHG又源于早期的ANE。同样地,在西亚和南亚西北部的人群中也未发现颜那亚文化人群的遗传贡献。之后到青铜中晚期(4000BP—3000BP),位于东欧乌拉尔地区的辛塔什塔文化(Sintashta culture)开始兴起,该文化相关的人群是由颜那亚文化人群和欧洲的农业人群混合形成。之后,辛塔什塔文化人群向东到达中亚草原形成安德罗诺沃文化人群(Andronovo culture)。安德罗诺沃文化人群向东扩张到蒙古草原西部、中国新疆,向南扩张到中亚南部和印度西北部。因此,研究者一般认为颜那亚−安德罗诺沃文化人群的大规模扩张与印欧语的扩散相关。进入铁器时代(约3000BP)以后,中亚地区更多受到的是来自东亚和东北亚群体的影响,依次是斯基泰人(Scythian)、匈奴人、突厥人和蒙古人等从东向西的扩张。在这个扩张过程中,该区域原先的印度伊朗语逐渐被突厥语和蒙古语替换。

    • 二.   西伯利亚

    • 在西伯利亚,从晚更新世开始,我们可以简单概括为三次主要的人群迁徙事件:古北部西伯利亚人(ANS, Ancient North Siberians),他们与早期东西方支系都有较早的分化时间;古西伯利亚人(APS, Ancient Palaeo-Siberians),他们具有较多东亚的遗传成分,与现生的西伯利亚东北部的人群、美洲土著具有较近的遗传距离;新西伯利亚人(Neo-Siberians),他们在全新世时期由东亚地区迁移而来,是现今西伯利亚人群的主要祖先来源。每次新的人群扩张事件都会对前面的人群进行较大规模的替换与少量融合,最终形成了现今欧亚大陆北部和美洲人群中多种祖先成分并存的局面。

      西伯利亚较早的ANS与东方支系分开的时间约为距今4.3万年,与西方支系分开的时间约为距今3.9万年。因此,该人群与早期东西方支系的遗传距离相当。ANS以西伯利亚东北部的Yana个体(距今3.1万年)为代表。之后,ANS分化出了ANE(欧亚大陆北部古代群体),ANE以距今2.4万年的Mal’ ta(位于贝加尔湖区域)和距今1.7万年的Afontova Gora(位于西伯利亚中南部)为代表。ANE与美洲土著的祖先群体有密切的遗传联系。同时,ANE也对全新世早中期欧亚大陆北部的群体具有广泛而长久的影响,例如哈萨克斯坦北部的博泰文化人群与贝加尔湖的采集狩猎人群。在末次盛冰期前后,具有ANS和ANE成分的人群大部分被APS人群替代。APS源于东北亚区域,是由ANE与古东北亚人群(ANA, Ancient Northeast Asian)混合形成,曾广泛分布于西伯利亚东北部到贝加尔湖南部。APS以距今9800年的Kolyma(位于西伯利亚东北部)为代表。同时,距今1.4万年的UKY(位于贝加尔湖区域)和距今1.7万年的Khaiyrgas(位于雅库特地区)也与APS密切相关。 除了APS,其他群体也在这个区域受ANE与ANA影响而形成,其中包括美洲土著的祖先群体。这些美洲祖先群体之后经白令海峡到达美洲。因此,APS是美洲土著在美洲以外最近的群体。到了全新世的早中期,来自东北亚的新西伯利亚人(Neo-Siberians)替代了西伯利亚东部的APS。新西伯利亚人具有绝大部分的东亚成分和少量欧亚草原人群的成分。另外,贝加尔湖区域人群从新石器早期到青铜时期发生了漫长而又复杂的混合,这个过程主要涉及携带ANS成分的贝加尔湖本地人群与来自贝加尔湖以东携带ANA成分的人群。

    • 三.   美洲

    • 在末次盛冰期前后,美洲祖先群体(ANA, ancestral Native American individuals)在西伯利亚形成,之后与APS等其他群体形成隔离。ANA没有立即进入美洲,而是在白令海峡区域停留了一段时间。与ANA一起跨过白令海峡到达美洲的还有古白令海峡群体(AB, Ancient Beringian)、未被发现的古代群体(UPopA, unsampled population A)。AB以阿拉斯加的USR(距今1.15万年)为代表。在距今约1.46万—1.75万年,ANA分出北美土著群体(NNA, Northern Native Americans)和南美土著群体(SNA, SouthernNative Americans),分开的区域可能位于北美冰盖覆盖区的南部。这一证据来源于美国蒙大纳州的一个距今约1.28万年Anzick遗址的个体。该样本的基因组数据表明他与现代中、南美洲土著的遗传距离更近,而不是北美土著。之后,NNA主要生活在北美区域,SNA南下并迅速扩张到中、南美洲。

      除了形成美洲土著主体的ANA群体的扩张,还有两波全新世时期从西伯利亚到美洲的人群扩张,分别是古因纽特人(Paleo-Inuit)和新爱斯基摩人(Neo-Eskimo)的扩张。根据考古记录,古因纽特人在5200年前出现在北美北极圈和格陵兰岛,大概公元1500年左右消失了。随后,古因纽特人被800—1000年前出现的新爱斯基摩人或称为图勒文化人群(Thule culture)替代。在遗传学上,这两波人群有一定程度的基因交流。

    • 四.   东亚及东南亚

    • 在蒙古国境内,青铜时代之前的人群与同时期贝加尔湖西部的采集狩猎人群、东北亚的古代人群比较接近,主要是ANE与ANA两种成分的混合。到了青铜时代早期,阿凡纳谢沃文化人群开始经叶尼塞河上游/萨彦岭或阿尔泰山进入蒙古国西北和西部地区。2020年,Jeong对蒙古国中部阿凡纳谢沃文化的群体进行古DNA分析,发现与叶尼塞河区域的阿凡纳谢沃群体基本上没有差异。之后,他们又对阿尔泰山附近的切尔木切克文化(Chemurchek culture)进行分析,发现北部的人群是主要是ANA与ANE的混合,南部的人群主要是ANE与源于中亚阿姆河流域的巴克特里亚·马尔吉阿纳文明区(BMAC, Bactria-Margiana Archaeological Complex)人群的混合。到了青铜中晚期,蒙古国境内开始出现三种祖先成分:以阿尔泰山区域为中心的欧亚草原群体成分(steppe_MLBA),以辛塔什塔文化人群为代表;以贝加尔湖为中心的采集狩猎群体成分(Khovsgol_LBA),以Khovsgol遗址的人群为代表;以蒙古国东部和中国东北为中心的游牧群体成分(Ulaanzuukh/SlabGrave),以乌兰朱和—石板墓文化(Ulaanzuukh_SlabGrave)人群为代表。总的来说,这三种祖先成分只有steppe_MLBA有较多的欧亚大陆西部人群遗传成分,其余两种都是以欧亚大陆东部人群的成分为主。铁器时代的匈奴时期,蒙古国群体的遗传成分更加复杂,除了东边的石板墓文化人群和汉代中国北方人群,这时欧亚草原、中亚和伊朗的遗传成分开始较多地融入。等到了中世纪的蒙古帝国时期,蒙古高原人群的遗传成分已经跟现在蒙古语人群比较接近了,即含有较高比例欧亚大陆东部人群的遗传成分。

      在末次盛冰期之前,与北京田园洞人、中国黑龙江流域距今3.3万年的现代人相关的祖先群体遍布东亚大陆北部。但是,研究者发现这些古代人群对现今东亚人群的遗传贡献比较少。到末次盛冰期之后,东亚大陆开始出现古代东亚北部人群(ANEA, Ancient Northern East Asian)和古代东亚南部人群(ASEA, Ancient Southern East Asian)。ANEA和ASEA之间的分化时间至少在1万年前。ANEA主要以新石器早期的俄罗斯远东的Devil’ s Gate人群、贝加尔湖采集狩猎人群、中国黑龙江流域渔猎人群和中国山东采集狩猎人群为代表。ASEA主要以新石器早期中国福建、台湾的奇和洞人群和亮岛人群为代表,该群体被认为南岛语人群的祖先。同时,东亚还存在几个早期分化的基底人群,如位于中国广西的隆林人、日本绳文人和东南亚Hòabìnhian culture人群。进入新石器时代之后,ANEA和ASEA之间的交流逐渐增强。但整体趋势是ANEA向南方扩张

      东亚南部与东南亚之间的人群联系也比较复杂。最近的两篇研究发现,中南半岛的采集狩猎人群(主要是Hòabìnhian culture)在距今约9000—6000年与中国南方的采集狩猎人群(包括广西的隆林人)发生混合,之后又与多批东亚大陆的农业人群发生混合。另外,来自中国大陆与台湾的ASEA被认为是南岛语人群的祖先。南岛语人群在新石器晚期离开中国大陆,经台湾后迅速扩张至东南亚及近大洋洲(Near Oceania)岛屿。

      中国历史时期的古代人群研究目前多集中于丝绸之路沿线,并聚焦于游牧与农耕人群互动。首先,研究者通过分析Y染色体的485个SNP位点和线粒体全序,同时结合历史、考古、同位素等证据,分别对河西走廊中部的张掖黑水国和西部的敦煌佛爷庙湾遗址进行研究。主要结论如下:1)来自黄河中下游地区的移民与当地人群发生的性别差异性混合,导致了河西走廊汉代黑水国人群生计方式的转变;2)敦煌佛爷庙湾人群(公元220—907)虽然具有典型汉文化的考古特征,但是其人群的遗传来源却十分多样。因此,该研究也是考古特征与族群来源不一致的典型案例。对汉代新疆石城子屯田遗址的个体进行生计模式、遗传来源的分析。研究者发现,根据同位素数据,石城子古代居民可以分为游牧和农耕两种生计方式;同时,古基因组数据也将石城子居民分成古代东北亚(ancient Northeast Asian, ANA)和黄河流域新石器晚期(late Neolithic Yellow River, YR_LN)两种遗传来源的人群。那些采取游牧生计方式的个体主要具有古代东北亚人群的遗传来源,而采取农耕方式的个体主要具有黄河流域新石器晚期人群的遗传来源。因此,该研究揭示了汉代边疆居民融合在一起,“异源同一墓地”,他们遗传来源和生活方式虽然完全不同,但是彼此认同、和谐相处。除了古代群体的研究之外,我们也首次公布了东亚历史名人的全基因组数据以及首个突厥皇族的基因组数据。通过将阿史那皇后的全基因组测序与欧亚大陆已发表的古代游牧人群和现代阿尔泰语人群进行比较分析,我们可以看到:1)从全基因组水平来看,阿史那氏的祖先成分主要来源于古代东北亚(ANA)人群相关成分(97.7%),西欧亚来源的祖先成分仅占2.3%。该结果不支持蓝突厥的西欧亚和东西混合起源的假说。2)阿史那氏与铁器时代东部草原的游牧人群具有较高的遗传相似性。这些人群包括:柔然、鲜卑、契丹和黑水靺鞨等。3)阿史那氏与其他古代突厥样本存在遗传上的差异。这说明突厥汗国的人群存在多种不同的来源。4)古代蓝突厥对于现代突厥语人群的遗传贡献比较有限。该结果再一次支持突厥语的传播是文化扩散模式而非人群扩散。

    四.   展 望
    • 自从2006年获得第一条尼安德特人基因组序列以来,研究者已经发表了近6000份古基因组数据。这一趋势毫无疑问将加速并延伸到其他生物的研究领域。但是,古DNA的获取依然有很多限制。古DNA片段的持续降解,导致基因组的从头拼装非常困难甚至不可能完成。DNA保存也受时间和环境条件的限制。迄今为止,永久冻土以外,获取的最古老的古人类DNA为40万年。在全球的大部分地区,获取的DNA序列将不会超过50万年。因此,10万年内的人类、其他生物以及病原体的遗传研究将会越来越普遍。

      如今,古基因组大发现时代与16、17世纪欧洲人的地理大发现时代非常相似。几乎每一个古代基因组序列都为人类历史提供了新的视角,开启了研究的新边际。现在每个大洲的古DNA研究远没有饱和的迹象。相比热带,温带和北极地区产生了大量的古DNA序列,部分原因是温度适宜、利于DNA保存,部分原因是样本采集程度更为密集。随着非洲和东亚古基因组数据的获取,古DNA研究的限制再次被打破。在不久的将来,更多热带地区和东亚地区的古代基因组序列将为人类进化和人口转变提供新的启示。重大历史事件能够在古代人群基因组上反映出来吗?古基因组复原的历史人物形象和历史记载一致吗?东亚地区还有大量的研究工作尚未开展,令人遐想。那些镌刻在古DNA序列上的人类历史,不仅讲述着我们的过去,也将伴随着我们走向未来。

    参考文献
(4)