古基因组学理论方法与全新世人类历史研究

全文HTML

遗传学就其本质而言是一门历史学科。遗传突变世代相传，并因为随机地或者选择作用在群体和物种间/内积累下来。但长期以来，遗传学家的主要精力都被限制在了现代样本的遗传变异研究，他们只能通过模型间接地推测那些导致如今基因池差异的历史进程，如迁徙、替换等。考古学和古生物学数据可以帮助我们理解人类起源和扩张过程。但是这些数据无法用于鉴别不同人群间的血缘关系。尽管考古研究在阐明文化传播方面非常成功，但是在判断文化传播是否伴随着人群扩散方面常常力所不逮。古DNA（ancient DNA，aDNA）是指从古代样本中获取的任何遗传物质。近年来，随着古DNA提取、建库、捕获技术以及新一代测序技术快速发展，遗传学家可以从古代遗骸中直接获取数以千兆碱基的信息，并和古生物学家、考古学家、语言学家和其他学科的学者一起，在不同的时间尺度上探讨人类的演化历史。如今，人类进化遗传学正走向新的研究范式：对于目标人群，我们可以采集感兴趣的时间节点之前、期间和之后的样本，通过相互比较，直观地研究该人群的演化历程。^①源于可作为直接证据的特点，古基因组学在探索全新世人类历史中扮演着极其重要的角色。

一. 古DNA发展简史

一. 兴起−基于分子克隆技术

最早的古DNA提取和分析的尝试是在PCR技术出现之前。1980年，湖南医科大学首次从马王堆汉代女尸中提取出了DNA分子。^②1984年，Higuchi等尝试通过细菌克隆从博物馆斑驴（quagga）的皮肤中获取了229 bp的DNA。^③一年之后，古代人类的DNA序列首次被报道。^④Pääbo等从一个2400年前埃及木乃伊的组织中提取了DNA，基于分子克隆技术，一个多拷贝的3.4 kb Alu序列被测序。现在我们知道，古DNA极易降解，片段长度的峰值在30—80 bp，因此，埃及木乃伊的Alu序列极有可能是现代人的污染。尽管如此，这些案例为下一阶段基于PCR技术的古DNA研究积累了经验，为这个学科的发展奠定了基础。

二. 发展−基于PCR技术

分子克隆技术对于DNA的数量和质量的要求非常高。古DNA含量极低且损伤严重的特点，导致该方法效率较低。相比之下，PCR技术能够非常便利地将低含量的目标基因组片段扩增至能用于下游测序的水平，使古DNA研究避免了繁琐的重组和克隆实验。^⑤1988年，PCR首次成功地应用于获取一个保存在泥炭沼泽中的约7000年前的人颅脑中的线粒体DNA。^⑥重要的是，PCR联合新的提取技术，使得钙化遗骸的DNA研究成为可能，这一突破将古DNA研究领域推到了更为广阔的空间。随后的20年，PCR技术成为了古DNA研究最为常用的手段。

PCR技术在古DNA研究领域取得了巨大成就，但是也遇到了一些无法逾越的问题：1）片段化严重的古DNA分子限制了长片段扩增^⑪；2）古DNA上的化学修饰妨碍了DNA聚合酶的结合^⑫。因此，现代DNA的污染（如试剂^⑬）会在古与DNA模板的竞争性PCR过程中胜出。古DNA研究中最需要注意的就是防止污染，确保古DNA结果的真实性，要知道现代人DNA污染从田野发掘到实验室的每一个环节都有可能发生。由于早期现代人（Anatomically modern humans，AMH）与现代人的遗传相似性更高，证明其数据的真实性更加困难。当时普遍的观点是，即使遵循最为严格的古DNA控制污染的标准，确保古人类DNA的真实性依旧是不可能的。^⑲

三. 基因组时代−基于高通量测序技术

现代人DNA污染问题使得古DNA的研究一度被质疑。^㉓直到本世纪初，高通量测序技术的出现，这个状况才得以改变，古DNA研究从此进入了高速发展的新阶段。

高通量测序避免了对古代样本中获取的DNA进行直接PCR，而是将提取物用于构建可以测序或者杂交捕获的DNA文库。^㉕该策略有诸多优点^㉖：1）古代样本中大量的DNA片段降解至50 bp以下^㉗。如此短的分子可以用于基于文库构建的测序研究，然而基于PCR 方法需要大部分DNA片段能够有足够的空间让引物所结合，因此，片段短于40 pb就不可行了；2）相比PCR不可避免地扩增较长片段，高通量测序更偏好短片段，从而避免了较长的现代人DNA污染^㉘；3）古DNA随着时间流逝所积累的化学修饰会导致DNA分子末端典型损伤的积累^㉙，现代人DNA中往往不存在这些损伤，因此，这类损伤所产生的碱基替换可视为判断是否为古DNA序列的标准。尽管通过直接PCR难以获取这些碱基替换的信息，但是它们能够被高通量测序所检测。因此，当发现提取液中存在污染时，可以只分析那些携带损伤的古DNA片。

技术的改进使DNA短片段的提取更加有效^㉚，并能针对少量损伤DNA进行建库^㉛，以及发现在人类和动物的颞骨岩部中DNA保存状态较好^㉜。在过去的十年内，由于古DNA测序和富集、提取方法的发展，古DNA研究解决了一系列人类历史和演化中悬而未决的问题。

三. 古基因组学与全新世人类历史研究进展

大规模平行测序技术的出现促进了基因组学的快速发展，古基因组学也成为遗传学和考古学研究中的热点。尤其是对现代和古代基因组数据的联合分析，让我们对人类进化的历史有了突破性的认识。这包括：发现了解剖学意义上的现代人与已灭绝古人类之间的混血，对现代人走出非洲及扩散到世界各地提供了更详细的时空框架以及对于人类适应新环境相关基因的研究。除此之外，古基因组学在运用在全新世的人类历史研究方面获得巨大进展。

全新世一般认为是从1.2万年至今，是一段相对温暖且气候波动不大的地质年代。在这个时期，人群经历了快速的增长和扩张，同时，农业也逐渐兴盛起来。从遗传学上看，人类刚经历了瓶颈效应，开始分化产生新的支系，并逐步奠定了当前各区域人群遗传结构的基本格局。

一. 欧亚大陆西部

欧洲大陆的现代人主要由三种遗传成分组成，分别是早期采集狩猎者成分、近东农人成分和黑海大草原的游牧人成分。在末次盛冰期（距今约2.65万—1.9万年）后，欧洲大陆最先繁盛起来的人群是中石器时代的欧洲采集狩猎人群，简称WEHG（Western European hunter−gatherers）。在距今9000年左右，欧洲采集狩猎人群与第二波来自安纳托利亚的农业人群（EEF, early European farmers）发生混合。这些农业人群给欧洲大陆带来了新石器农业相关的生活方式，比如种植作物和喂养家畜。这些农业人群最初是由近东的欧亚基底人群与欧洲采集狩猎人群混合形成。第三波进入欧洲的人群是黑海—里海大草原的游牧人群，他们与距今约5000年前的颜那亚文化（Yamnaya culture）相关。这些游牧人群将青铜技术和原始印欧语（proto-Indo-European language）带入了欧洲。研究者认为这些游牧人群是由中石器时代东欧的采集狩猎人群（EEHG, Eastern European hunter−gatherers）与高加索地区的采集狩猎人群（CHG, Caucasus hunter-gatherers）混合形成。而EHG是由约四分之一的WHG成分与约四分之三的古代欧亚大陆北部人群成分（ANE, Ancient North Eurasian）混合而成。

接下来是内亚地区（此处还包含中亚、东欧和西亚），该区域的群体历史与欧洲大陆有所不同，比如中亚的采集狩猎人群没有因农业人群的影响而实现新石器变革。在农业兴起前后（>7000 BCE），该区域存在七种祖先群体，分别为北部的西欧的采集狩猎人群（WHG）、东欧的采集狩猎人群（EHG）、西伯利亚西部的采集狩猎人群（WSHG, West Siberian hunter-gatherers）、西伯利亚东部的采集狩猎人群（ESHG, East Siberian hunter-gatherers），南部的安纳托利亚的农业人群（Anatolian farmers）、伊朗的农业人群（Iranian farmers）和南亚的采集狩猎人群（South Asian hunter-gatherers）。地理区域上从西到东，这些群体之间的混合呈现一定梯度。例如，越靠近哈萨克斯坦东部的群体，其呈现出的WSHG和ESHG成分就越多；越靠近东欧的群体，其呈现出的EHG和WHG成分就越多。到了青铜早期（5300BP—5000BP），位于黑海−里海北岸的颜那亚文化人群开始崛起，并分别向东西扩张。颜那亚文化人群向西扩张到欧洲，与东欧、中欧的农业人群发生混合，形成新的绳纹器文化（Corded Ware Culture）人群；颜那亚文化人群向东到达阿尔泰山和米努辛斯克盆地，形成阿凡纳谢沃文化（Afanasievo culture）。但是，此时，中亚大部分地区还是以采集狩猎人群为主，如在哈萨克斯坦北部的中亚地区蓬勃发展的博泰文化人群（Botai culture）。博泰文化人群是ESHG和WSHG的混合，以WSHG为主。WSHG又源于早期的ANE。同样地，在西亚和南亚西北部的人群中也未发现颜那亚文化人群的遗传贡献。之后到青铜中晚期（4000BP—3000BP），位于东欧乌拉尔地区的辛塔什塔文化（Sintashta culture）开始兴起，该文化相关的人群是由颜那亚文化人群和欧洲的农业人群混合形成。之后，辛塔什塔文化人群向东到达中亚草原形成安德罗诺沃文化人群（Andronovo culture）。安德罗诺沃文化人群向东扩张到蒙古草原西部、中国新疆，向南扩张到中亚南部和印度西北部。因此，研究者一般认为颜那亚−安德罗诺沃文化人群的大规模扩张与印欧语的扩散相关。进入铁器时代（约3000BP）以后，中亚地区更多受到的是来自东亚和东北亚群体的影响，依次是斯基泰人（Scythian）、匈奴人、突厥人和蒙古人等从东向西的扩张。在这个扩张过程中，该区域原先的印度伊朗语逐渐被突厥语和蒙古语替换。

二. 西伯利亚

在西伯利亚，从晚更新世开始，我们可以简单概括为三次主要的人群迁徙事件：古北部西伯利亚人（ANS, Ancient North Siberians），他们与早期东西方支系都有较早的分化时间；古西伯利亚人（APS, Ancient Palaeo-Siberians），他们具有较多东亚的遗传成分，与现生的西伯利亚东北部的人群、美洲土著具有较近的遗传距离；新西伯利亚人（Neo-Siberians），他们在全新世时期由东亚地区迁移而来，是现今西伯利亚人群的主要祖先来源。每次新的人群扩张事件都会对前面的人群进行较大规模的替换与少量融合，最终形成了现今欧亚大陆北部和美洲人群中多种祖先成分并存的局面。

西伯利亚较早的ANS与东方支系分开的时间约为距今4.3万年，与西方支系分开的时间约为距今3.9万年。因此，该人群与早期东西方支系的遗传距离相当。ANS以西伯利亚东北部的Yana个体（距今3.1万年）为代表。之后，ANS分化出了ANE（欧亚大陆北部古代群体），ANE以距今2.4万年的Mal’ ta（位于贝加尔湖区域）和距今1.7万年的Afontova Gora（位于西伯利亚中南部）为代表。ANE与美洲土著的祖先群体有密切的遗传联系。同时，ANE也对全新世早中期欧亚大陆北部的群体具有广泛而长久的影响，例如哈萨克斯坦北部的博泰文化人群与贝加尔湖的采集狩猎人群。在末次盛冰期前后，具有ANS和ANE成分的人群大部分被APS人群替代。APS源于东北亚区域，是由ANE与古东北亚人群（ANA, Ancient Northeast Asian）混合形成，曾广泛分布于西伯利亚东北部到贝加尔湖南部。APS以距今9800年的Kolyma（位于西伯利亚东北部）为代表。同时，距今1.4万年的UKY（位于贝加尔湖区域）和距今1.7万年的Khaiyrgas（位于雅库特地区）也与APS密切相关。除了APS，其他群体也在这个区域受ANE与ANA影响而形成，其中包括美洲土著的祖先群体。这些美洲祖先群体之后经白令海峡到达美洲。因此，APS是美洲土著在美洲以外最近的群体。到了全新世的早中期，来自东北亚的新西伯利亚人（Neo-Siberians）替代了西伯利亚东部的APS。新西伯利亚人具有绝大部分的东亚成分和少量欧亚草原人群的成分。另外，贝加尔湖区域人群从新石器早期到青铜时期发生了漫长而又复杂的混合，这个过程主要涉及携带ANS成分的贝加尔湖本地人群与来自贝加尔湖以东携带ANA成分的人群。

三. 美洲

在末次盛冰期前后，美洲祖先群体（ANA, ancestral Native American individuals）在西伯利亚形成，之后与APS等其他群体形成隔离。ANA没有立即进入美洲，而是在白令海峡区域停留了一段时间。与ANA一起跨过白令海峡到达美洲的还有古白令海峡群体（AB, Ancient Beringian）、未被发现的古代群体（UPopA, unsampled population A）。AB以阿拉斯加的USR（距今1.15万年）为代表。在距今约1.46万—1.75万年，ANA分出北美土著群体（NNA, Northern Native Americans）和南美土著群体（SNA, SouthernNative Americans），分开的区域可能位于北美冰盖覆盖区的南部。这一证据来源于美国蒙大纳州的一个距今约1.28万年Anzick遗址的个体。该样本的基因组数据表明他与现代中、南美洲土著的遗传距离更近，而不是北美土著。之后，NNA主要生活在北美区域，SNA南下并迅速扩张到中、南美洲。

除了形成美洲土著主体的ANA群体的扩张，还有两波全新世时期从西伯利亚到美洲的人群扩张，分别是古因纽特人（Paleo-Inuit）和新爱斯基摩人（Neo-Eskimo）的扩张。根据考古记录，古因纽特人在5200年前出现在北美北极圈和格陵兰岛，大概公元1500年左右消失了。随后，古因纽特人被800—1000年前出现的新爱斯基摩人或称为图勒文化人群（Thule culture）替代。在遗传学上，这两波人群有一定程度的基因交流。

四. 东亚及东南亚

在蒙古国境内，青铜时代之前的人群与同时期贝加尔湖西部的采集狩猎人群、东北亚的古代人群比较接近，主要是ANE与ANA两种成分的混合。到了青铜时代早期，阿凡纳谢沃文化人群开始经叶尼塞河上游/萨彦岭或阿尔泰山进入蒙古国西北和西部地区。2020年，Jeong对蒙古国中部阿凡纳谢沃文化的群体进行古DNA分析，发现与叶尼塞河区域的阿凡纳谢沃群体基本上没有差异。之后，他们又对阿尔泰山附近的切尔木切克文化（Chemurchek culture）进行分析，发现北部的人群是主要是ANA与ANE的混合，南部的人群主要是ANE与源于中亚阿姆河流域的巴克特里亚·马尔吉阿纳文明区（BMAC, Bactria-Margiana Archaeological Complex）人群的混合。到了青铜中晚期，蒙古国境内开始出现三种祖先成分：以阿尔泰山区域为中心的欧亚草原群体成分（steppe_MLBA），以辛塔什塔文化人群为代表；以贝加尔湖为中心的采集狩猎群体成分（Khovsgol_LBA），以Khovsgol遗址的人群为代表；以蒙古国东部和中国东北为中心的游牧群体成分（Ulaanzuukh/SlabGrave），以乌兰朱和—石板墓文化（Ulaanzuukh_SlabGrave）人群为代表。总的来说，这三种祖先成分只有steppe_MLBA有较多的欧亚大陆西部人群遗传成分，其余两种都是以欧亚大陆东部人群的成分为主。铁器时代的匈奴时期，蒙古国群体的遗传成分更加复杂，除了东边的石板墓文化人群和汉代中国北方人群，这时欧亚草原、中亚和伊朗的遗传成分开始较多地融入。等到了中世纪的蒙古帝国时期，蒙古高原人群的遗传成分已经跟现在蒙古语人群比较接近了，即含有较高比例欧亚大陆东部人群的遗传成分。

在末次盛冰期之前，与北京田园洞人、中国黑龙江流域距今3.3万年的现代人相关的祖先群体遍布东亚大陆北部。但是，研究者发现这些古代人群对现今东亚人群的遗传贡献比较少。到末次盛冰期之后，东亚大陆开始出现古代东亚北部人群（ANEA, Ancient Northern East Asian）和古代东亚南部人群（ASEA, Ancient Southern East Asian）。ANEA和ASEA之间的分化时间至少在1万年前。ANEA主要以新石器早期的俄罗斯远东的Devil’ s Gate人群、贝加尔湖采集狩猎人群、中国黑龙江流域渔猎人群和中国山东采集狩猎人群为代表。ASEA主要以新石器早期中国福建、台湾的奇和洞人群和亮岛人群为代表，该群体被认为南岛语人群的祖先。同时，东亚还存在几个早期分化的基底人群，如位于中国广西的隆林人、日本绳文人和东南亚Hòabìnhian culture人群。进入新石器时代之后，ANEA和ASEA之间的交流逐渐增强。但整体趋势是ANEA向南方扩张。

东亚南部与东南亚之间的人群联系也比较复杂。最近的两篇研究发现，中南半岛的采集狩猎人群（主要是Hòabìnhian culture）在距今约9000—6000年与中国南方的采集狩猎人群（包括广西的隆林人）发生混合，之后又与多批东亚大陆的农业人群发生混合。另外，来自中国大陆与台湾的ASEA被认为是南岛语人群的祖先。南岛语人群在新石器晚期离开中国大陆，经台湾后迅速扩张至东南亚及近大洋洲（Near Oceania）岛屿。

中国历史时期的古代人群研究目前多集中于丝绸之路沿线，并聚焦于游牧与农耕人群互动。首先，研究者通过分析Y染色体的485个SNP位点和线粒体全序，同时结合历史、考古、同位素等证据，分别对河西走廊中部的张掖黑水国和西部的敦煌佛爷庙湾遗址进行研究。主要结论如下：1）来自黄河中下游地区的移民与当地人群发生的性别差异性混合，导致了河西走廊汉代黑水国人群生计方式的转变；2）敦煌佛爷庙湾人群（公元220—907）虽然具有典型汉文化的考古特征，但是其人群的遗传来源却十分多样。因此，该研究也是考古特征与族群来源不一致的典型案例。对汉代新疆石城子屯田遗址的个体进行生计模式、遗传来源的分析。研究者发现，根据同位素数据，石城子古代居民可以分为游牧和农耕两种生计方式；同时，古基因组数据也将石城子居民分成古代东北亚（ancient Northeast Asian, ANA）和黄河流域新石器晚期（late Neolithic Yellow River, YR_LN）两种遗传来源的人群。那些采取游牧生计方式的个体主要具有古代东北亚人群的遗传来源，而采取农耕方式的个体主要具有黄河流域新石器晚期人群的遗传来源。因此，该研究揭示了汉代边疆居民融合在一起，“异源同一墓地”，他们遗传来源和生活方式虽然完全不同，但是彼此认同、和谐相处。除了古代群体的研究之外，我们也首次公布了东亚历史名人的全基因组数据以及首个突厥皇族的基因组数据。通过将阿史那皇后的全基因组测序与欧亚大陆已发表的古代游牧人群和现代阿尔泰语人群进行比较分析，我们可以看到：1）从全基因组水平来看，阿史那氏的祖先成分主要来源于古代东北亚(ANA)人群相关成分(97.7%)，西欧亚来源的祖先成分仅占2.3%。该结果不支持蓝突厥的西欧亚和东西混合起源的假说。2）阿史那氏与铁器时代东部草原的游牧人群具有较高的遗传相似性。这些人群包括：柔然、鲜卑、契丹和黑水靺鞨等。3）阿史那氏与其他古代突厥样本存在遗传上的差异。这说明突厥汗国的人群存在多种不同的来源。4）古代蓝突厥对于现代突厥语人群的遗传贡献比较有限。该结果再一次支持突厥语的传播是文化扩散模式而非人群扩散。

四. 展望

自从2006年获得第一条尼安德特人基因组序列以来，研究者已经发表了近6000份古基因组数据。这一趋势毫无疑问将加速并延伸到其他生物的研究领域。但是，古DNA的获取依然有很多限制。古DNA片段的持续降解，导致基因组的从头拼装非常困难甚至不可能完成。DNA保存也受时间和环境条件的限制。迄今为止，永久冻土以外，获取的最古老的古人类DNA为40万年。在全球的大部分地区，获取的DNA序列将不会超过50万年。因此，10万年内的人类、其他生物以及病原体的遗传研究将会越来越普遍。

如今，古基因组大发现时代与16、17世纪欧洲人的地理大发现时代非常相似。几乎每一个古代基因组序列都为人类历史提供了新的视角，开启了研究的新边际。现在每个大洲的古DNA研究远没有饱和的迹象。相比热带，温带和北极地区产生了大量的古DNA序列，部分原因是温度适宜、利于DNA保存，部分原因是样本采集程度更为密集。随着非洲和东亚古基因组数据的获取，古DNA研究的限制再次被打破。在不久的将来，更多热带地区和东亚地区的古代基因组序列将为人类进化和人口转变提供新的启示。重大历史事件能够在古代人群基因组上反映出来吗？古基因组复原的历史人物形象和历史记载一致吗？东亚地区还有大量的研究工作尚未开展，令人遐想。那些镌刻在古DNA序列上的人类历史，不仅讲述着我们的过去，也将伴随着我们走向未来。

参考文献

图(4)

学术月刊

古基因组学理论方法与全新世人类历史研究

作者简介:文少卿，复旦大学文物与博物馆学系副教授（上海 200433）

作者简介:杜盼新，复旦大学表型组研究院博士后（上海 200433）

English Abstract

Paleogenomics and Its Application in Human History Research

全文HTML

一. 兴起−基于分子克隆技术

二. 发展−基于PCR技术

三. 基因组时代−基于高通量测序技术

一. 古DNA的研究对象

1. 线粒体DNA。

2. Y染色体DNA。

3. 常染色体DNA。

二. 古DNA研究技术

1. 基于高通量测序的古DNA实验技术。

2. 基于高通量测序的古DNA分析技术。

一. 欧亚大陆西部

二. 西伯利亚

三. 美洲

四. 东亚及东南亚