颠覆生命科学!AlphaFold预测完整人类蛋白质组结



神经网络 AlphaFold 的 " 颠覆性 " 数据库预测出了智人和 20 种模式生物的逾 35 万个结构。

人类基因组携带了逾 2 万个蛋白质的指令,但只有约 1/3 蛋白质的三维结构通过实验方法得到了解析,很多时候,这些蛋白质的结构只确定了其中一部分。

颠覆生命科学!AlphaFold预测完整人类蛋白质组结

人类中介体复合物一直是结构生物学家难以理解的一种多蛋白系统。来源:Yuan He

现在,一种名为 AlphaFold 的人工智能(AI)工具改变了现状。这款工具由位于伦敦的谷歌姐妹公司 DeepMind 开发,其预测的结构几乎覆盖了完整的人类蛋白质组(蛋白质组是一个生物表达的全部蛋白质)。除此之外,AlphaFold 还预测了许多其他生物的几乎整个蛋白质组——从小鼠到玉米再到疟原虫(见 " 折叠选项 ")。

这次预测的逾 35 万个蛋白质结构保存在一个公用数据库中,规模将在年底扩大到 1.3 亿个。虽然这些预测的准确度有高有低,但研究人员认为这些数据或为生命科学领域带来翻天覆地的变化。

颠覆生命科学!AlphaFold预测完整人类蛋白质组结

来源:EMBL – EBI 和 https://swissmodel.expasy.org/repository

" 在我看来,这绝对是颠覆性的成果。" 了解所有蛋白质的结构能让你弄清楚它们的机理。" 伦敦大学学院(UCL)的计算生物学家 Christine Orengo 说。

"这是迄今为止 AI 在推动科学进步方面做出的最大贡献。我觉得这么说一点儿也不夸张。"DeepMind 联合创始人、首席执行官 Demis Hassabis 说。

但研究人员强调说,这个数据泵只是一个开始,而不是结束。他们希望接下来能验证这些预测,更重要的是,将这些预测应用到目前尚无法实现的实验中。" 拥有这个体量的数据是了不起的第一步。" 伦敦大学学院计算生物学家 David Jones 说。Jones 曾为 AlphaFold 的上一次迭代担任顾问。

获奖预测

去年,DeepMind 在生命科学领域一鸣惊人——它的最新版 AlphaFold 在两年一度的蛋白质预测大赛 CASP(蛋白质结构预测关键评估)中所向披靡。这个已举办多届的赛事向来是学术人员的竞技场,比赛要求参赛团队对已经通过实验解析但尚未公布的蛋白质结构进行预测。

AlphaFold 的一些预测结果与准确度很高的实验模型相当,这让一些研究人员感叹 AlphaFold 将带来划时代的影响力。上上周,DeepMind 发布了最新版 AlphaFold 的源代码,以及对其开发过程的详细阐述 [ 1 ] (许多学术团队已经开始利用这些资源进行重要预测)。在公开 AlphaFold 代码的准备工作中,DeepMind 还对其做了优化,让代码运行起来更高效。CASP 比赛中的一些结构曾让 AlphaFold 花了好几天的时间进行计算,但最新的 AlphaFold 只要几分钟到几小时就能完成计算。

效率的提升让 DeepMind 团队可以预测由人类基因组编码和 20 个模式生物的几乎所有已知蛋白。这些结构数据储存在英国 EMBL-EBI(欧洲分子生物学实验室欧洲生物信息研究所)托管的一个数据库中。

AlphaFold 预测的结构覆盖了 98.5% 的已知人类蛋白和其他生物的同比例蛋白,除此之外,AlphaFold 还能评估其预测结果的可信度。DeepMind 的工程师 Kathryn Tunyasuvunakool 说:" 我们想让实验人员和生物学家清楚地知道,哪些预测部分是可信的。"Tunyasuvunakool 是 DeepMind 发表在《自然》的描述蛋白质组预测论文的第一作者 [ 2 ] 。以人类蛋白质组为例,AlphaFold 对 58% 的单个氨基酸位置的预测准确度足够高,可以用来判断蛋白质折叠形状,Tunyasuvunakool 说。其中一部分预测——占整体的 36% ——的潜在准确度较高,或能揭示对药物设计有用的详细原子特征,比如酶的激活位点。

即使准确度稍低的预测结果也能带来重要信息。生物学家认为一大部分人类蛋白质和其他真核生物(细胞有细胞核的生物)的蛋白质拥有一些固有无序的区域,只是为了配合其他分子才形成了一些明确的结构。AlphaFold 首席研究员 John Jumper 说:" 许多蛋白质在溶液里扭来扭去,没有固定的结构。"AlphaFold 预测的一些可信度不高的区域正好是生物学家认为无序的区域,DeepMind 科学 AI 主管 Pushmeet Kohli 说。

研究人员认为,确定单个蛋白质如何与其他细胞组分相互作用是 AlphaFold 面临的最大难题之一。CASP 大赛要求预测的大部分结构都是一个蛋白的独立折叠单元,也称为结构域。而人类蛋白质组和其他微生物蛋白质组的一些蛋白有多个半独立折叠的结构域。人类细胞还含有多个互作蛋白链组成的分子,比如细胞膜上的受体。

数据洪流




上一篇:2 多抗原抗体检测试剂盒发布啦
下一篇:没有了