攻克人类基因组图谱“留白”



攻克人类基因组图谱“留白”

4月1日凌晨,Science杂志上线了6篇论文,第一次公布了人类基因组的完整序列。因为测序技术的限制,人类基因组图谱缺失部分序列。随着测序技术的发展,人类基因组学研究也迎来了转折点。

最新公布的完整序列补全了哪些内容?它对人类的意义和价值是什么?为此,记者采访了人类基因组学领域相关专家和科普作者。专家认为,研究对于基础研究和医学研究都具有重要意义,可以找到一些与癌症、发育障碍、不孕不育症等疾病相关的重要基因变异,从而为疾病治疗提供新的思路。

缘起▶人类基因组计划为何被称为生命科学的“登月计划”?

“这项工作是人类基因组计划的延续,也是对人类基因组图谱的进一步优化,某种程度上可以叫作人类基因组的补完计划。”深圳华大生命科学研究院群体基因组学领域首席科学家金鑫说。

人类基因组计划(Human Genome Project,HGP)是一项规模宏大、跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

1985年,人类基因组计划由美国科学家率先提出,于1990年正式启动,与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的“登月计划”。

项目启动后,美、法、加拿大等国科学家你追我赶。在分子生物学博士、科普作家汤波《探秘生命密码》手稿里,他写道:“1992年,美国国立卫生研究院和法国人类多态性研究中心合作构建了第一个高密度人类遗传连锁图谱,覆盖了90%以上的人类染色体区域。三年后,美国、法国和加拿大的科学家构建了一个超过15000个位点的人类基因组物理图谱,标志着人类基因组的骨架已搭建完成……”

1994年,在谈家桢、吴旻、强伯勤、陈竺、沈岩、杨焕明等科学家倡导下,中国“人类基因组计划”也正式启动。1999年9月,中国成为美、英、日、法、德之外,第六个参与“人类基因组计划”的国家。中国负责测定和分析3号染色体短臂上从端粒到标记D3S3610间大约30厘摩尔(相当于3千万个核苷酸)的区域,因此被称为人类基因组计划“1%项目”。2001年8月,中国科学家完成“1%项目”的基因序列图谱。

2003年4月14日,多国实验室耗费10多年的时间和30亿美元的资金,完成了人类基因组计划的测序工作,首次绘制出了人类基因组的图谱。“人类基因组的破译是人类历史上一个重大标志性事件,就像人类第一次直立行走,这次是我们第一次有了自己的生命密码。”汤波说。

但最初公布的基因组序列并不完整。“构成人类23对染色体的DNA碱基对太长了,当时测序时总是要切割。切割后我们就遇到一个问题——人类遗传密码中有大量的重复序列。”中国科学院院士、国际人类基因组计划参与者陈润生说。

正是由于这些DNA的重复,使得在人类基因组测序时无法以正确的顺序组装一些DNA片段。另一个障碍则是,大多数细胞包含两个基因组——一个来自父亲,一个来自母亲。当研究人员试图组装所有片段时,来自每个亲本的序列可能混合在一起,从而掩盖了每个单独基因组中的实际变异。

问题▶由于测序技术的限制人类基因组图谱序列有缺失

“人类基因组图谱最终缺失大概8%的序列,只能用字母‘N’进行代替,还有169段重要的重复序列没有能够成功拼接,还有一部分难以拼接的序列没有分析和组装,包括染色体两端的端粒、中间的着丝粒有很多常染色质区域没有成功解析。”华大集团CEO尹烨在其科普公众号里解释称。

这8%的缺失,源于20年前测序技术的限制。当时使用的测序方法是短读长测序技术,一次只能读取很短的一段基因序列。打个比方,如果把基因组的一部分比作段落中的一句话,比如“我今天去学校上课”,通过短读长测序,研究者能得到很多简短的小部件,比如“我”“今天”“去”“学校”“上课”,再经过“拼图”式的分析,科学家就可以拼凑出这句完整的话。

然而,科学家虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“我今天去学校上课”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。正因缺少这些信息,在过去的研究里,重复序列一直是基因组学研究的一大难题。




上一篇:生了双胞胎后又生龙凤胎,民国最强基因组合,
下一篇:【沪深股通】贝瑞基因4月21日获外资买入0.43%股份