首个完整无间隙人类基因组序列出炉



国际科学团队端粒到端粒联盟(T2T)宣告第一个完整的、无间隙的人类基因组序列问世,这本人类生命“天书”终于完整了。其首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异,这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的重大升级。

人类的基因组常常被比作生命的“天书”——A、T、G、C四种碱基构成了DNA,却配对出超过60亿种可能,足见其纷繁复杂。

在由中、美、英、法、德、日6国科学家共同参与研究的人类基因组序列草图正式发布20多年后,国际科学团队端粒到端粒联盟(T2T)宣告第一个完整的、无间隙的人类基因组序列问世,这本人类生命“天书”终于完整了。它首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异,这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的重大升级。

4月1日,《科学》杂志连发6篇论文报道了这一成果。

这一成果将从根本上改变我们治疗多种疾病的方式。随着新冠病毒新变种的频繁出现,科学家们可以使用完整的基因组测序来寻找与该疾病相关的突变,他们还可以更详细地利用其来研究人类遗传变异的进化,或将彻底改变人们理解人类进化的方式。

 8%的“空白区”不是“垃圾”

2001年2月12日,国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,人类基因组序列草图正式公布。然而,由于技术条件限制,当初的人类基因组图谱留下了大约8%的空白间隙。这一很难被测序的部分,由高度重复的DNA序列组成,包含染色体末端的端粒和染色体中心节点的着丝粒。

着丝粒背后的异染色质序列位于染色体的关键部位,在人类基因组序列草图中,它们都被标记为N的长序列,表示“未知的碱基”。13、14、15、21和22号染色体的短臂序列也同样被忽略。

美国国立卫生研究院下属的国家人类基因组研究所(NHGRI)所长、医学博士埃里克·格林称,缺少片段的基因组“就像缺少句子的段落”一样不完整。

华盛顿大学霍华德·休斯医学研究所研究员埃文·艾希勒说,对DNA进行测序就像解决拼图游戏一样。科学家们必须首先将DNA分解成更小的部分,然后使用测序仪以正确的顺序将其拼凑在一起。

现在,新的T2T基因组图谱补足了拼图盒图片上8%的空白,并更正了此前拼图中存在的数千个错误。大多数新添加的DNA序列位于重复端粒和着丝粒附近。

新的无间隙版本被称为T2T—CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成,增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。这些候选基因大多数是失活的,但其中115个仍然可能表达。研究团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中。此外,新序列还纠正了GRCh38中的数千个结构错误,消除了每个样本中数以万计的假阳性变异,包括269个与疾病相关的已知或疑似基因的变异。

根据艾希勒的说法,事实证明,许多研究人员认为是“垃圾或无关紧要”的那些重复序列实际上非常重要。

由于之前的GRCh38模型(称为参考基因组)是多个个体基因组的组合,基本上将一个人的基因组与另一个人的基因组“缝合在一起”,因此存在一些错误和重叠。而新的、完整的版本消除了这些缝隙,更能代表一个人的实际基因组的样子。

 助力破解最后的“黑匣子”

由于重复区域的复杂性,剩下的8%的人类基因组多年来一直困扰着科学家。一方面,它包含具有多次重复的DNA区域,这使得使用以前的测序方法以正确的顺序将DNA串在一起具有挑战性。

早期,被称为“短读长”的DNA测序技术一次只能读取相对较短的序列,也就是提供数百个DNA碱基序列。这是20年前唯一可用的基因组图谱技术。例如,假设基因组的一部分由连续重复9次的句子“只工作不玩耍,聪明孩子也变傻”组成。该技术只会显示其中的一部分,例如“只工作”“聪明”“孩子也”等。研究人员将这些简短的部分拼凑在一起,组成了这句话,但他们无法知道它被重复了9次。因此,运用该技术仍然会在组装的基因组序列中留下部分空白。

对于10000块拼图,当它们看起来相似时,很难正确排列小块的区域,就像对重复DNA的小片段进行测序一样。但是对于500块拼图,正确排列大范围区域,即较长的DNA片段,要容易得多。因此,“长读长”技术应运而生。技术的巨大进步使得研究人员能够对那些难以阅读的重复序列进行排序。




上一篇:丸美股份董秘回复:2022年,公司将围绕“稳健、强基、提效、突破”,推进健康发展。1、研发方面:持续推进研发全链路全域布
下一篇:贵州鹏业国际机电设备招标有限公司关于微阵列