探索人类基因组“四丁基硫酸氢铵荒漠”中的秘密(图)

作者：王韵壹、李英、熊慧卿

ENCODE是“DNA组成元素百科全书”的缩写，是继人类基因组计划（HGP）之后的又一大型国际合作项目。来自英国、美国、西班牙、新加坡和日本32个研究机构的442名科学家历时5年，耗资1.5亿美元，获得了迄今最详细的人类基因组分析数据，这也是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。该项目旨在识别出人类基因组序列中的所有功能区，包括转录、转录因子联合、染色质结构和组蛋白修饰区，现在科学家们可以确认，人类基因组中80%的成分至少有一种生化功能。

人类基因组计划与ENCODE计划之间有着承上启下的关系。人类基因组计划发现基因组中仅有1.5%的序列是给蛋白质编码的，其余98.5%的序列以前被认为是“垃圾”。这些“垃圾”也被称作基因之间的“荒漠”，ENCODE计划正是要探索这些“荒漠”中的秘密。

研究人员对147个细胞类型进行了计算机分析、生物化学试验以及测序研究。他们在人类DNA中发现了400万个位点，作用相当于控制基因活性的开关。这些开关距离被它们调控的基因或近或远，并作用于不同细胞类型的不同结合体上，从而赋予了每个细胞类型以独特的基因组身份。在一个数据库中，ENCODE已经创建了一张图谱以展示所有不同碱基的作用。

资助ENCODE的美国国家人类基因组研究所项目主管埃利斯·范戈尔德说：“它就像人类基因组的谷歌地图。”利用谷歌地图，一个人可以选择不同的视角来查看景观的不同方面。同样，在ENCODE图谱中，人们也能从染色体水平放大单个碱基，并且在查看这些碱基是否会产生RNA，或是否为DNA调控蛋白质的结合位点之间切换。

深入基因组内部

“人类基因组计划”绘制出了人体生物学的蓝图，但人们很快发现，阅读这份蓝图的指导手册充其量只算是草稿。已标记的30亿个编码蛋白质字母，只占人类基因组的1%多一点，包含约20000个基因——这只是在一大片未知的陌生环境中识别出一点稍微熟悉的事物而已。许多生物学家怀疑，真正体现人类复杂性的，可能是那些藏在“荒漠”中的信息。

ENCODE计划旨在完成人类基因组计划遗留的任务，为潜藏在“荒漠”中的功能性DNA序列编制目录，以了解它们会在什么时候、在哪些细胞里被激活，并追踪它们对染色体包装、调节和读取产生的影响。

在人类基因组测序终止前，美国国家人类基因组研究所还在争论是否要在项目中对DNA功能片段做出系统地识别。2003年，它邀请生物学家提出一个先期实验项目，对基因组中1%的部分进行深入研究，以确定哪些实验技术可能对整个研究最有效。

先期实验改变了生物学家对基因组的看法。他们发现只有少数DNA参与了制造编码蛋白的信使RNA，许多基因组被“转录”成非编码的RNA分子，而其中一些目前已知是非常重要的基因表达调节器，而且许多重要的调节序列也会迅速进化。他们于2007年公布了这些发现，不久之后，美国国家人类基因组研究所再次邀请科研人员将研究工作扩展到整个基因组。这一“升级”正像新一代测序机的开始，数据采集变得更快、更便宜。“我们现在生产数据的速度是以往的5倍，而成本不变。”西雅图华盛顿大学的ENCODE研究员约翰·斯塔马图亚诺伯洛斯说。

在全面研究中，研究人员对至少147种细胞类型进行了1648项实验。他们将从基因组中转录的RNA进行分离、测序，识别出约120种转录因子的DNA结合位点。他们还绘制了基因组中被甲基团覆盖的区域图，被甲基团覆盖通常表明这里的基因是沉默的。他们还检验了组蛋白的化学修饰方式，这种修饰有助于将DNA包装成染色体，增强或抑制信号区（基因表达区）。

斯塔马图亚诺伯洛斯和同事用了一种叫做DNaseI的酶绘制了125个细胞型中的调节区。这种酶对与组蛋白结合的DNA影响很小，却会切断与其他调节蛋白连接的DNA，如转录因子。对被切掉的DNA测序表明，在不同细胞类型中，这里都是蛋白质的结合位点。他们共发现了约290万个这种位点。其中约1/3发现于一种细胞类型中，而所有细胞类型都有的位点仅3700个，这表明基因组在不同细胞之间调节的差异，是造成细胞与细胞之间差异的主要原因。而把不同的数据库放在一起对比，让研究人员能知道是哪种转录因子于何时、何地发生了结合。