DeepMind精准预测蛋白质结构,AI解决50年生物学难



  

DeepMind精准预测蛋白质结构,AI解决50年生物学难


  大数据文摘出品

  生物学家花了50年都解不出的难题,突然就被AI解决了?

  美国时间11月30日,DeepMind宣布推出AlphaFold,这是一种能够基于蛋白质的基因序列,利用AI预测蛋白质3D结构的系统。

  在国际蛋白质结构预测竞赛(CASP)上,AlphaFold系统在第14次CASP评估中的总体中位数得分达到92.4GDT,击败了其余的参会选手。GDT(Global Distance Test ) 是CASP用来测量预测准确性的主要指标,范围是从0-100。

  

DeepMind精准预测蛋白质结构,AI解决50年生物学难


  DeepMind表示,他们已经解决了关键的“蛋白质折叠问题”,并且将解决问题的运算时间从数月缩短至了数小时,这将大大加速药物发现速度,有可能破解一个类似于绘制人类基因组的问题。

  DeepMind首席执行官Demis Hassabis在电话采访中表示:“这些算法现在已经足够强大,强大到可以应用于解决科学问题。经过4年的发展,我们有了一个足够精确的系统,对生物学研究人员来说具有实际的生物学意义和相关性。”

  

DeepMind精准预测蛋白质结构,AI解决50年生物学难


  Hassabis还透露道,DeepMind目前正在研究以“可扩展方式”为科学家提供访问AlphaFold系统的途径。

  DeepMind的这一成就不仅引来不少业界人士的点赞,Nature还发文称,“这将改变一切”

  

DeepMind精准预测蛋白质结构,AI解决50年生物学难


  此前,DeepMind在国际象棋、围棋、游戏星际争霸II和老式的Atari经典游戏中,都战胜了人类玩家,这次,他们更是直接向学术圈发起了挑战。

  论预测蛋白质结构的不可能

  我们都知道,在每个活细胞内部有着成千上万种不同的蛋白质,蛋白质的不同折叠程度决定了它的独特功能。因此,如果我们能够预测蛋白质的结构变化,这对于人类攻克癌症等疑难杂症有着划时代的意义。

  但是,要准确预测蛋白质的折叠,在过去50年间一直困扰着生物学家

  这就要从蛋白质的生成说起了。以DNA生物为例,DNA由4种碱基组成,这4种碱基能够通过转录和翻译生成64种密码子,这64种密码子又对应着20多种氨基酸,氨基酸之间的排列组合,构成了数万至数亿种不同的蛋白质。但是,决定蛋白质不同功能的,除了氨基酸的种类数量外,氨基酸的3D结构起着更为重要的作用。

  从理论上来说,如果我们知道了DNA序列,就能够绘制出氨基酸序列和蛋白质结构,但如果想要实现这种预测,中间涉及的计算难度难以想象。

  早在1969年,Cyrus Levinthal就指出,如果我们使用蛮力计算的方式,枚举每一种蛋白质可能存在的结构,那么我们要花费的时间甚至比宇宙的年龄还要长。Levinthal估计,一种蛋白质大约存在10*300种结构,但在自然界中,蛋白质会自发折叠,有些只需几毫秒。

  AlphaFold如何将不可能变为可能

  2018年,DeepMind团队就已经用初始版AlphaFold参加了CASP13比赛,当时他们也取得了最高的准确率,随后,DeepMind还把CASP13方法和相关代码发表在了Nature上。

  如今,DeepMind团队利用新的深度学习架构继续参赛CASP14,也刷新了自己的记录,准确率达到了92.4GDT。

  

DeepMind精准预测蛋白质结构,AI解决50年生物学难


  DeepMind团队使用的数据也都是公开数据,包括蛋白质结构数据库(PDB)和包含未知结构蛋白质序列的大型数据库,共约170,000个蛋白质结构。运行周期持续了数周,主要使用了约128个TPUv3内核运行。

  正如上文所说,如果我们把蛋白质的3D结构视为一张空间图,用节点表示残基,边将残基紧密连接起来,要理解这种结构,DeepMind团队创建了一个基于注意力的神经网络系统,用端到端的方式进行训练,并且基于构建的隐式图执行推理。




上一篇:解决生物学50年来重大挑战!生物界“AlphaGo”精
下一篇:击败李世石的AI公司,又研发出生物版“阿尔法狗