里程碑!首次完整破译人类基因组



里程碑!首次完整破译人类基因组

图片来源:T. POTAPOVA AND J. GERTON/STOWERS INSTITUTE FOR MEDICAL RESEARCH

从 1990 年至今,我们一直在接近完整的人类基因组。今天,在发表于《科学》杂志的 6 项新研究中,科学家破解了最为关键的测序难题,获得了完整的人类基因组序列,或能将我们对人类的生长发育和疾病的了解,推向了新的高度。

撰文 | 栗子、clefable

人类的细胞里,通常有 23 对染色体。如果仔细观察这些染色体,你会发现组蛋白和缠绕在其上的 DNA。我们的 DNA 由 ATCG4 种碱基排列而成,生命的密码就藏在其中。人类的基因组包含大约 30 亿个碱基对,排列极其复杂,但有规律,因为人与人基因组的相似性高达 99.9%。多年来,科学家们一直想要借助其中的规律了解人体工作的原理,特别是与疾病相关的机制。

1986 年,《科学》杂志上刊登了一篇由诺贝尔生理学或医学奖得主 Renato Dulbecco 撰写的文章。他认为,癌症研究已经来到一个关键的结点:要么零碎地挖掘一些关键的癌症基因,要么测定一个特定物种完整的基因组。而想要攻克人类的癌症,测定人的基因组,了解参与关键的生理学和病理学过程中各个基因是必不可少的。

同年,杜尔贝科和其他科学家联合发起了人类基因组计划(Human Genome Project)——对人类的核基因组进行完整地测序,1990 年这项计划正式启动,被誉为生命科学领域的 " 登月计划 "。又过了 14 年,也就是 2004 年,首个人类基因组测序结果发表,但基因组上仍有大约 2 亿个碱基未知,占全部序列的 8%。这些未知序列当中包含很多高度重复的碱基序列,受限于当时的技术难以破译。

从那以后,科学家们陆续发布了越来越完整的人类基因组序列。到 2017 年,图谱上的缺口已经不足 1000 个,但人类基因组依然不够 " 完整 "。

今天,一个由近 100 名研究人员组成的国际性的科学组织——端粒到端粒(T2T)联盟,在《科学》杂志上发表了 6 篇论文,表示他们测出了那些高度重复的 DNA 序列,并获得了迄今为止最完整的人类基因组 T2T-CHM13,其中包括 30.55 亿个碱基对,由 22 条常染色体和 X 染色体无缝组装而成。此时,基因组的缺口仅剩 5 个,这项研究也被认为是首个完整的人类基因组测序

里程碑!首次完整破译人类基因组

里程碑!首次完整破译人类基因组

相比于 2017 年发布的基因组 GRCh38,T2T-CHM13 包含的基因组更完整。图片来源于研究论文

突破难题

为了获得完整的基因组,团队首先要解决测序中的一个难点:人体内的大多数细胞都包含两个基因组——一个来自父亲,一个来自母亲。当研究人员将片段组装起来时,父本和母本的序列会混合在一起,无法确定某一个基因组中实际发生的变异。

因此,研究团队使用了一个匿名的细胞系,这个细胞系来自 20 多年前从一位女性子宫里切除的异常生长物。那位女性经历了妊娠失败——精子进入一个没有染色体的卵细胞。如果受精卵中只有精子的遗传物质的话,就无法长成一个胚胎,但依然可以复制,尤其是在精子携带 X 染色体的时候。

异常的受精卵有个好处,就是只包含一个基因组,23 对染色体都是两两相同的。华盛顿大学的遗传学家、协助领导人类基因组计划的罗伯特 · 沃特斯顿(Robert Waterston)说,这对填补基因组中的缺口有很大的帮助,因为测序仪不再需要解决父母染色体不一样的问题了。

除此之外,还有一个更重要的难点,就是高度重复的序列。在进行基因组测序时,科学家通常需要将 DNA 切成较短的片段再逐一测序,然后将测序结果拼凑起来。但遇到大量高度相似的序列时,研究者便难以确定它们之间的排列顺序。因此,科学家需要借助更加先进的技术,每次测量更长的 DNA 序列,来减少拼凑的需求。

于是,T2T 联盟的科学家使用了多项前沿的测序技术,包括读取 10 万个碱基的纳米孔测序设备(nanopore device)和一个更加精确但每次只能读取约 1 万个碱基的测序仪等。团队把这些手段用在一起,几乎消灭了所有的基因组难题,只剩下 5 个缺口,总共大约 1000 万个未知碱基。另外,由于那个细胞系中只有常染色体与 X 染色体,Y 染色体的碱基序列还需要详细解析。

首次确定的序列




上一篇:华熙生物2021年研发投入增长101.43%,布局合成生物推动行业变革
下一篇:甄别真假干细胞传言,国卫生物守护您的健康!