人工智能重大突破:预测蛋白质形状



人工智能重大突破:预测蛋白质形状

Jeremy Kahn 2020年12月02日

Deepmind科学家开发了一款人工智能软件,利用蛋白质的DNA序列预测其三维结构,准确度误差不超过一个原子的宽度。

研究人员利用人工智能技术取得了巨大突破,可能为新药研发带来革命。

科学家开发的一款人工智能软件,利用蛋白质的DNA序列预测其三维结构,准确度误差不超过一个原子的宽度。

这项成就解决了困扰分子生物学领域50年的挑战。它来自于伦敦人工智能公司DeepMind的研究团队。目前,DeepMind隶属于谷歌(Google)母公司Alphabet旗下。到目前为止,DeepMind最为人所知的是其创造的人工智能在围棋比赛中打败了人类选手,创下了计算机科学领域的一个重要里程碑。

DeepMind在两年一次预测蛋白质结构的算法竞赛中取得了该项突破。该竞赛要求参赛者根据一个蛋白质的DNA序列,确定该蛋白质的三维形状。

马里兰大学(University of Maryland)的分子生物学家约翰·莫尔特是“结构预测关键评估”(Critical Assessment of Structure Prediction)竞赛的负责人。他表示,在100多种蛋白质中,DeepMind的人工智能软件AlphaFold 2预测蛋白质结构的准确度,有三分之二的偏差在一个原子宽度以内,剩余三分之一大部分的预测结果也非常准确。他表示,AlphaFold 2的准确度远高于参加竞赛的任何其他方法。

DeepMind的联合创始人及首席执行官德米斯·哈萨比斯表示,公司希望“利用这些技术最大程度造福社会。”但他表示,DeepMind尚未确定通过哪种方式将该蛋白质结构预测软件提供给学术研究人员使用,或者是否向制药公司和巴西vs瑞士让球 公司寻求商业合作。他说公司将在明年某个时间“详细说明我们如何以能够规模化的方式提供该系统。”

结构生物学家、诺贝尔奖得主文卡特拉曼·拉马克里希南评价AlphaFold 2称:“这款软件的计算结果代表蛋白质折叠问题取得了惊人的进步。”拉马克里希南是英国最负盛名的科研机构皇家学会(Royal Society)的会长,即将卸任。

蛋白质结构专家、欧洲分子生物学实验室(European Molecular Biology Laboratory)欧洲生物信息研究所(European Bioinformatics Institute)的前负责人珍妮特·桑顿表示,DeepMind的突破为绘制完整的“人类蛋白质组图谱”开辟了道路。人类蛋白质组图谱中将包含人体内的所有蛋白质。她表示,目前只有约四分之一的人类蛋白质被用作药物靶点。现在可以将更多蛋白质作为药物靶点,为发明新药创造了巨大的机会。

桑顿还表示,DeepMind的人工智能系统对于研究合成蛋白质的科学家同样有着深远的意义,也可能产生巨大的影响:例如培养更有营养的新型转基因作物品种,开发能够通过消化塑料来清洁环境的新型酶等。

蛋白质是生物学过程的基本机制。蛋白质由氨基酸长链组成,氨基酸长链又称DNA。但细胞生成蛋白质之后,蛋白质会立即折叠成复杂的形状,类似于一团绳子缠绕在一起,有条状结构和类似于花饰的附着结构。蛋白质的具体结构决定了它的功能。蛋白质结构对于小分子设计也至关重要。小分子可以与蛋白质结合,并修改蛋白质的功能,这就是新药研发的过程。

到目前为止,为获取一种蛋白质结构的高分辨率模型,使用的主要方法是X射线晶体学。这种技术能够将一种蛋白质溶液变成晶体,这个过程极其复杂并且要耗费大量时间。然后用X射线连续照射晶体,通常会使用一种名为同步加速器的环形粒子加速器。研究人员可以通过X射线的绕射图绘制出蛋白质的内部结构图。据多伦多大学(University of Toronto)估计,通过X射线晶体学这种方法获取一个蛋白质的结构,需要耗时一年,成本约为12万美元。

最近,还有两种实验方法也被用于预测蛋白质结构,它们分别是核磁共振和低温电子显微技术。这两种方法的速度更快,成本更低,但其生成的模型精确度不及X射线晶体学。

而按照DeepMind蛋白质折叠团队的首席研究员约翰·江珀的说法,AlphaFold 2使用“适度的”计算资源,只需要“几天时间”就能够计算出蛋白质的每一种结构。江珀表示,训练该系统需要在16个芯片上使用由谷歌开发的128个专用人工智能计算单元,连续运行“大约几周”。这种人工智能计算单元被称为张量处理单元。他表示,该系统需要的计算能力,比公司最近的多项人工智能突破要少得多,包括之前的AlphaGo。

1972年,诺贝尔奖得主、化学家克里斯蒂安·安芬森曾经假设,DNA应该完全能够决定蛋白质的最终结构。为了证明安芬森提出的设想,科学界数十年来一直在寻找数学模型。但问题是,即使物理定律可以决定蛋白质的折叠方式,蛋白质折叠可能存在大量其他排列,因此正如生物学家赛勒斯·利文索尔提出的一种著名的说法,通过随机试错法确定一个蛋白质的结构所需要的时间,可能比已知宇宙的年龄更长。




上一篇:“阿尔法折叠”精准预测蛋白质三维结构
下一篇:没有了