长篇综述:人类基因组计划(上)




    基因是控制生物体遗传性状的基本单元。基因组则是表示一个生物体所有遗传信息的总和。一个生物体基因组所包含的信息决定了该生物体的生长、发育、繁殖和消亡等所有生命现象1。包括人类在内的绝大多数生物体的遗传信息载体是脱氧核糖核酸分子(DNA)。人的单倍体基因组包括3×109碱基对(Basepair, bp),分布在22条常染色体和X、Y性染色体上。1985年,美国科学家在能源部(DOE)的一次会议上讨论酝酿了人类基因组计划(Human Genome Project,HGP),并且由诺贝尔获奖者Reneto Dulbecco于1986年在《科学》(Science)杂志上发表的一篇短文中首先提出2。人类基因组计划旨在测定长达3×109碱基对的全部人类基因组序列,发现所有的人类基因并确定其在染色体上的位置,从而在整体上破译人类的全部遗传信息。人类基因组计划于1990年正式启动,计划在15年内提供30亿美元,于2005年完成人类基因组全部序列的测定3。随后,欧共体、日本、印度、巴西和中国等国家也相继提出了各自的基因组研究计划4·5·6·7。在过去的十年时间里,由于各国政府、科学界和工业界的共同努力,人类基因组计划作为全球性的合作项目已经取得了巨大的进展,一批重要的模式生物体的全基因组序列相继得到了测定8·9·10·11。2000年6月26日,由美国、英国、日本、德国、法国和中国六国科学家组成的公共领域和私营的Celera公司同时宣布完成了99%的人类基因组测序计划,获得了人类基因组计划的“工作框架图”(Working Draft),成为人类基因组计划中的一个重要的里程碑。人类基因组计划开展至今,对生命科学、医学、生物技术和制药工业产生了深远的影响,一批新的交叉学科如功能基因组学,蛋白质组学,药物基因组学和生物信息学等应运而生,并得到了迅速发展,成为新千年中生物科学研究中最活跃的领域。

一、人类基因组测序
(一)基因组作图

    
人类的单倍体基因组分布在22条常染色体和X、Y性染色体上,最大的1号染色体有263 Mb,最小的21号染色体也有50 Mb。人类基因组计划的首要目标是测定全部DNA序列,但由于人的染色体不能直接用于测序,因此人类基因组计划的第一阶段是要将基因组这一巨大的研究对象进行分解,将其分为容易操作的小的结构区域,这个过程简称为染色体作图(Mapping)12。根据使用的标记和手段的不同,染色体作图可以分为遗传连锁作图和物理作图。①遗传连锁图,即通过计算两个连锁的遗传标记在每次减数分裂中的重组概率,确定两者的相对距离。遗传连锁图的基本单位是厘摩(cM),一厘摩表示两个连锁的遗传标记在每次减数分裂中发生重组的概率为1%。②物理图,即确定两个遗传标记之间的实际(绝对)距离。物理图的基本单位是千碱基对(Kb)或百万碱基对(Mb)。

     人类基因组遗传连锁图的绘制需要应用多态性标记13。人的DNA序列上平均每几百个碱基会出现一些变异(variation),这些变异通常不产生病理性后果,并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。如果一个多态性位点出现在某种限制性内切酶的酶切位点,则人群可以被分为两类,一类人的DNA在该位点可以被这种限制性内切酶水解,另一类则不能。不同个体的DNA在用这种限制性内切酶水解时,会产生两种不同长度的水解片段,因而被称为限制性片段长度多态性(Restriction Fragment Length Polymorphism,RFLP)14·15。RFLP是最早得到应用的多态性标记,但由于这类标记数量较少,多态性信息因而较低。80年代后期发展起来的第二代多态性标记包括可变数目的串联重复(Variable Number Tandem Repeats,VNTR)和短的串联重复(Short Tandem Repeats,STR)16。VNTR分布在人类基因组的非编码区种,是一些串联排列的十几个碱基的重复序列,重复次数一般在十次左右。VNTR的等位基因常常在10个以上,信息量比RFLP大得多。STR又被称为微卫星标记(Micro-satellite,MS),是一些由2-6个碱基组成的重复序列。多数情况下由C,A两个碱基组成,也被称为CA重复(CA repeats)。微卫星标记在人类基因组中分布比较平均,数目较多,信息含量也高。1996年,由美国和法国科学家共同努力,发表了由5,264个MS标记组成的分辨率高达0.6cM的遗传图谱,提前并超额完成了原定的2-5cM遗传作图计划17。同时,MS也成为物理图上的标记,从而促进了物理图和遗传图的整合。近年来,第三代的多态性遗传标记,单核苷酸多态性(Single Nucleotide Polymorphism,SNP)被发现并迅速加以利用,成为研究基因多样性和识别、定位疾病基因的一种新型手段18。SNP是一种双等位的多态性标记,多态性仅表现为单个核苷酸的差异。尽管如此,由于SNP在人类基因组中的数目多(人类基因组中的SNP数目约有3-10×106个),3/4个相邻的标记就可以构成8/16种单倍型,因而成为一种信息量非常大的遗传标记系统19。SNP的一个突出优点是可以利用多种技术手段方便的检出,因而在医药领域具有广阔的应用前景。

     人类基因组的物理图包含了两层意思。首先,基因组的物理图需要大量定位明确,分布较均匀的序列标记,这些序列标记应该可以用PCR的方法扩增。这样的序列标记被称为序列标签位点(Sequence Tagged Sites,STS)。其次,在大量STS的基础上构建覆盖每条染色体的大片段DNA的连续克隆系(Contig),为最终完成全序列的测定奠定基础。这种连续克隆系的构建最早建立在酵母人工染色体(Yeast Artificial Chromosome,YAC)上20。YAC可以容纳几百Kb到几个Mb的DNA插入片段,构建覆盖整条染色体所需的独立克隆数最少。但YAC系统中的外源DNA片段容易发生丢失、嵌合而影响最终结果的准确性。九十年发展起来的细菌人工染色体(Bacterial Artificial Chromosome,BAC)系统克服了YAC系统的缺陷,具有稳定性高,易于操作的优点,在构建人类基因组的物理图谱中得到了广泛应用21·22。BAC的插入片段达80-300kb,构建覆盖人类全部基因组的BAC连续克隆系,约需3×105个独立克隆(15倍覆盖率,BAC插入片段平均长150kb)。除了上述两种系统,在构建人类基因组的物理图谱中所利用的系统还有P1噬菌体(Bacteriophage P1,插入片段最大125kb)和P1来源的人工染色体(P1-derived Artificial Chromosome,PAC,插入片段可达300kb)。

     确定两个相邻的STS之间的距离,通常采用人类家系细胞株组成的遗传作图板,人类DNA与远源的啮齿类动物细胞的辐射杂种细胞板(Radiation Hybird,RH)23和YAC/BAC等工具。90年代中期,cDNA测序中产生的大量表达序列标签(Expressed Sequence Tag,EST)经RH定位,转变为STS,大大地增加了STS的数量。1998底完成的物理图谱中包含了52,000个STS,大大超过了原定的30,000个STS的目标24。另外,大片段连续克隆系的构建也取得了如期进展。1995年,法国科学家利用“指纹”法(Finger-printing)和STS构建了覆盖人类基因组75%区域的YAC连续克隆系25。此后,美、欧、日三方利用BAC构建了覆盖各条染色体的连续克隆系26。人类基因组物理图谱的成功构建,不仅为大规模测序奠定了基础,而且随着大量cDNA和EST被定位,人类基因组转录图(基因图)的雏形也已经被描绘出来了。

     从精细的物理图出发,排出对应于特定染色体区域的重叠度最小的BAC连续克隆系后,就可以对其中的BAC逐个进行测序。进行BAC DNA测序的基本测序步骤是:(1)将待测的BAC DNA随机打断, 选取其中较小的片段(约1.6-2 kb); (2)将这些片段克隆到测序载体中,构建出随机文库; (3)挑选随机克隆进行测序,达到对BAC DNA 8-10倍的覆盖率,(4)将测序所得的相互重叠的随机序列组装成连续的重叠群(Contig), (5)利用步移(walking)或引物延伸等方法填补存在的缝隙(gap filling), (6)获得高质量的,连续的,真实的完成序列(finished sequence)。 对一个BAC克隆而言,其内部所有缝隙被填补后的序列称为完成序列;而对一段染色体区域或一条染色体而言,序列的完成是指覆盖该区域的BAC连续克隆系之间的缝隙被全部填补。依照美国国立卫生研究院(NIH)和能源部联合制定的标准,最终的完成序列需要同时满足以下三个条件:(1)序列的差错率低于1/10,000, (2)序列必须是连贯的,不存在任何缺口(gap), (3)测序所采用的克隆必须能够真实的代表基因组结构27。虽然依照这种策略所得到的序列具有很高的质量,但是由于其中的第五步(即gap filling)需要非常认真细致的工作,因而成为整个环节中的限速步骤。经过8年的努力,到1998年,各国科学家一共获得了180 Mb的人类基因组完成序列。为了加快人类基因组计划的步伐,1998年,人们又提出了工作草图(working draft)的概念28。工作草图是指通过对染色体上定位明确的BAC连续克隆系进行4-5倍覆盖率的测序(在单个BAC克隆水平,覆盖率不小于3倍),从而获得90%以上的基因组序列,其差错率小于1%。虽然工作草图离最终的完成序列还有很大的差距,但是对于基因的发现、识别,基因结构的解析,疾病基因的定位克隆,SNP的发现,基因组模体结构的解析等都具有十分重要的作用,因而具有很高的科学价值29。在工作草图的基础上,加大测序覆盖率,并填补其中的缝隙,就可以逐步的获得完成序列。

(二)全基因组的“鸟枪法”测序策略

    
全基因组的“鸟枪法”测序策略,是指在获得一定的遗传和物理图谱信息的基础上,绕过建立连续的BAC克隆系的过程,直接将基因组DNA分解成小片段,进行随机测序,并辅以一定数量的10 kb克隆和BAC克隆的末端测序结果,在此基础上进行序列拼接,直接得到待测基因组的完整序列30。这一策略甫一提出就受到质疑,并不为主流的公共领域所采纳。1995年,由Craig Venter领导的私营研究所TIGR(The Institute of Genomic Research)将这种方法应用于对嗜血流感杆菌(H. influenzae)全基因组的测序中,成功的测定了它的全基因组序列31。该方法随后在对包括枯草杆菌,大肠杆菌等20多种微生物的基因组测序中得到了成功的应用8·32。尽管如此,人们对这种方法能否应用于人类基因组等包含有高度复杂的重复序列的基因组测序仍然持怀疑态度。1998年,TIGR和PE公司联合组建了一个新的Celera公司,宣布计划采用全基因组的“鸟枪法”测序策略,在2003年底前测定人类的全部基因组序列33。接着,Celera公司与加州大学伯克利果蝇计划(BDGD)合作,仅用了4个月的时间,就用全基因组的“鸟枪法”测序策略完成了果蝇基因组120Mb的全序列测定和组装,证明了这一技术路线的可行性,成为利用同一策略进行人类基因组测序的一次预实验11。

(三)cDNA测序
     人类基因组中发生转录表达的序列(即基因)仅占总序列的约5%,对这一部分序列进行测定将直接导致基因的发现。由于与重要疾病相关的基因或具有重要生理功能的基因具有潜在的应用价值,使得cDNA测序受到制药工业界和研究机构的青睐,纷纷投入重金进行研究并抢占专利。cDNA测序的研究重点首先放在EST测序,根据EST测序的结果,可以获得基因在研究条件下的表达特征。比较不同条件下(如正常组织和肿瘤组织)的EST测序结果,可以获得丰富的生物学信息(如基因表达与肿瘤发生、发展的关系)。其次,利用EST可以对基因进行染色体定位。至2000年10月6日,公共数据库内有5,975,926条EST(其中人类EST有2,491,072条)34,更多的EST和全长cDNA则掌握在一批以基因组信息为产品的生物技术公司手中。

    随着研究的深入,EST测序固有的局限性变得日益显著。首先,由于文库构建的原因,绝大多数EST分布在基因的3’端,数据库中代表基因5’上游信息的EST只占很小的比例。其次,EST的长度都在300-500bp之间,仅从EST中很难获得基因结构的全部信息(如基因不同剪接形式)。有鉴于此,cDNA研究的热点目前已由EST转变为全长cDNA研究。美国国立癌症研究院(NCI)最近决定资助每年获得2万条全长cDNA的计划。日本的人类基因组计划也将获得全长cDNA列为重点,到1999年底已获得40,000条全长cDNA。为了获得全长cDNA,除了利用cDNA末端快速扩增法(RACE)得到cDNA末端(主要是5’端)的序列以外,另外一个关键是构建高质量的全长cDNA文库35。常用的方法是利用mRNA的5’末端帽(cap)结构合成cDNA,提高全长cDNA的比例,分离合成产物的大片段部分构建文库。对于表达丰度很低的基因,可采用校正cDNA文库加以识别。此外,根据基因组DNA序列分析基因结构,以指导全长cDNA的克隆,也可望加快全长cDNA研究的步伐。

(四)DNA测序技术的发展

    
人类基因组计划的基石是完成系列的测定,随着人类基因组计划的不断开展,DNA测序技术得到了不断的发展。荧光染料和激光共聚焦技术的应用,使得DNA序列测定完成了从手工到自动化的飞跃。随后,高质量的聚合酶和高度敏感的荧光染料的出现,也使得序列测定的质量和精度不断提高。同时,制造工艺的提高,使得以薄板凝胶系统为基础的测序仪实现了高通量产出(High Throughput)。以PE公司出品的ABI 377为例,一台测序仪每次可以测定96个样品,每条序列的平均长度可以达到500-750bp,每天可以完成2-3轮序列测定。90年代后期,以MD公司的MegaBACE和PE公司的ABI 3700为代表的毛细管电泳仪的问世,极大的提高了序列测定的产出量。由于毛细管电泳所需的时间短,这些电泳仪一天可以完成6-8轮序列测定,每轮可以测定96-384个样品,自动化程度也得到了很大的提高。目前,大的测序中心都大量装备了这些先进的仪器,每天可以产生数以万计的序列,极大地促进了人类基因组计划的发展。
     随着人类基因组计划的不断发展,在研究基因组的多态性,比较基因组学研究和对一种生物的基因组进行序列测定等领域,测序已经成为一种必不可少的工具。因而,人们对DNA测序技术也提出了“更高,更快,更强”的要求,即测序应做到“高通量,高速度,高质量”。一方面,利用现代的微电子技术和显微制造工艺不断改进现有的测序设备,降低测序成本,提高测序的速度和效率。另一方面,现有的测序设备都是建立在Sanger的双脱氧测序技术的基础上,而基于PCR的测序反应已经成为测序环节中的限速步骤,因而需要发展能够大幅度缩短测序时间或不需测序反应的新的测序技术。目前,快速质谱分离分析在DNA片段分析方面已经有了长足的进展,可能在不久的将来应用于DNA的序列测定36·37。同时,单分子序列测定也将成为一个新的发展方向。可以设想,在不远的将来,测定一种生物的基因组序列将变得须臾可待,那时的生物学研究也将进入一个新的时期。

(五)DNA序列的生物信息学分析

    
人类基因组计划的一大特征是在短时间内产生了巨大的生物学信息。仅存储测序过程中产生的序列信息就需要1010-1011比特的存储空间,如何对这些序列信息进行加工处理,从中获得具有生物学意义的信息,无疑是一种巨大的挑战。生物信息学,这一门利用计算机科学和信息技术科学分析处理现代生物学研究中产生的海量数据的交叉学科应运而生,并在短期内取得了巨大的进展。目前,生物信息学在对基因的识别38·39,蛋白质模体的鉴定40·41,基因调控元件的分析 ,基因组中重复序列的鉴别、分析43,DNA/蛋白质序列相似性分析44以及物种间比较45·46等领域都取得了不小的进展。

     人类基因组计划是一个国际性的合作项目,如何保证世界各地的科学家都能够方便的共享人类基因组计划产生的信息,也成为需要解决的问题。幸运的是,人类基因组计划从一开始就充分利用了信息高速公路的优势。各国的基因组研究人员在建立自己的生物信息学中心的同时,利用互联网交换和共享数据,方便不同地区研究者的使用。迄今,国际上三个大的生物信息中心,即美国的国家生物技术信息中心(NCBI),欧洲生物信息学研究所(EBI)和日本DNA数据库(DDBJ)已经建立和维持了源自数百种生物的DNA/蛋白质序列的大型数据库。人类基因组计划催生了生物信息学,而生物信息学又促进了人类基因组计划的进步,显著的改变了基础生命科学的研究、运作方式,并且带来了医学和药物学的发展的重大革命。

(六)基因组测序的成就 1、模式生物体的基因组测序

    
人类基因组计划除了要完成人类基因组的作图、测序,还对一批重要的模式生物体,如大肠杆菌、面包酵母、线虫、果蝇、拟南芥菜、小鼠等的基因组进行研究28。低等的模式生物体的基因组结构相对较简单,对其进行全基因组作图测序,可以为人类基因组的研究进行技术探索和积累经验。更重要的是,这些研究一方面有助于人们在基因组水平上认识进化规律,另一方面,通过对不同生物体中的同源基因的研究,以及利用模式生物体的转基因和基因剔除术(knockout)等方法研究基因的功能。随着遗传图谱和物理图谱的进一步完善,测序技术的进一步改进及测序成本的降低,对其他各种模式生物体,尤其是基因组很大的哺乳类动物和植物基因组的测序工作将会不断展开。1997年,大肠杆菌的全基因组序列测定工作完成,人们第一次掌握了这种重要的模式生物的全部遗传信息8。随后,在国际多方合作的基础上,面包酵母、线虫和果蝇的全基因组序列相继得到测定9·10·11。我国科学家在完成了对水稻基因组的物理图谱的绘制工作以后47,对它的全序列测定工作也已经开始。2000年4月4日,美国孟山都(Monsanto)公司宣布与Leory Hood领导的研究小组合作测定了水稻基因组的工作草图。近年来,对小鼠、大鼠和黑猩猩等重要的哺乳动物基因组工作草图的测序工作也已经或将要开始。表1列出了主要模式生物体全基因组测序的进展情况。

表1. 模式生物体基因组测序的进展

生物体  

基因组大小(Mb)  

预测基因数量  

平均基因长度  

完成情况  

微生物(29个)  

0.6-4.4  

473-4,100  

1 kb  

100%  

大肠杆菌  

4.6  

4,288  

1 kb  

100%  

面包酵母  

12  

5,885  

2 kb  

100%  

线虫  

97  

18,424  

5.3 kb  

100%  

果蝇  

130  

13,601  

10 kb  


上一篇:六国联手破译人类密码
下一篇:华大基因将协助塞尔维亚政府建设两座“火眼”