专访许锦波:预测蛋白质结构二十余载,这条路



DNA储存着我们的遗传信息,然而在细胞中真正执行功能的是蛋白质。每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构,“看清”它们的结构对理解其功能至关重要。但想要破解这种结构通常需要花很长的时间,有些甚至难以完成。
“用机器学习去研究蛋白质结构预测,在这个领域属于少数派。一直到2016年,甚至到2018年,这个领域大部分人都还在试图用能量优化,而不是机器学习或者深度学习去研究这个问题。”美国芝加哥丰田计算技术研究所教授、北京大学客座教授许锦波在接受澎湃新闻()记者专访时如是表示。
许锦波被业界誉为“AI预测蛋白质结构全球第一人”。早在2016年,他开发的RaptorX-Contact方法,首次证明了深度学习方法预测蛋白质结构的可行性,让始终在“门口”徘徊的蛋白质结构预测终于迈出实质性的一步,也自此掀起了AI蛋白质结构预测的热潮。

美国芝加哥丰田计算技术研究所教授、北京大学客座教授许锦波。

现年48岁的许锦波从小就是一名不折不扣的“学霸”。1990,16岁的许锦波在全国高中数学联赛中获江西赛区第一名,这也是当时江西临川县首次获得该类奖项殊荣。1991年,因为在数学竞赛中的优异成绩,他从临川一中被保送至中国科学技术大学计算机系,1999年获得中国科学院计算所硕士学位。2003年,许锦波获加拿大滑铁卢大学博士学位,之后任该校研究助理教授、麻省理工学院博士后研究员。
2001年,尚在攻读博士学位的许锦波开始接触计算生物学,彼时的导师提议,“有一个很难的问题,就是研究蛋白质折叠,想不想做?”在此后的二十余年时间里,许锦波研究的重要课题之一就是开发和优化软件,去无限缩小蛋白质结构预测结果和真实构型之间的差距。
近日,在未来论坛主办的2022《理解未来》科学讲座01期“AI+蛋白质结构和功能预测”上,许锦波也首先谈到,其实蛋白质结构预测这个问题已经研究了几十年,过去这个领域一直比较冷清,特别是在2006年到2016年这10年间,“当时大家都觉得这个问题是没办法做出来的,所以很多人都离开这个领域去做其他的问题了。”
这样的冷清已经是过去式。在最近的几年时间里,这一领域陆续获得突破性的进展。2020 年,人工智能预测蛋白质结构也被国际顶级学术期刊《科学》杂志评为十大科学突破之一。“现在人工智能预测蛋白质结构受到的关注,远远超过了过去几十年来的关注。”许锦波表示。
然而,在冷清的路上走惯了的许锦波,对眼下的热闹并没有表现出太多的兴奋。谈及这两年陆续成立的人工智能应用于生命科学领域的公司,他坦言,“我对产业的了解不是很多,也就最近几个月开始接触一些产业界的认识和做投资的人。”当然,许锦波认为,对于“AI For science”的产业化而言,当下的确处于一个比较好的时候。
但许锦波强调,就人工智能预测蛋白质结构而言,重复实现明星公司DeepMind的AlphaFold2不应该成为其他团队的目标,“这种改进只是一个渐进式的改进,并不是一个非常大的突破,这个领域仍然有一系列问题真正需要我们去解决。”对于人工智能在药物研发等生命领域的应用,他则表示,“希望能够做出一些真正有用的东西出来。”
始于半个世纪前的猜测
蛋白质结构预测,始于科学家们的一种设想,是否无需实验就能获取蛋白质的三维结构?
在蛋白质结构解析的几十年历史中,结构生物学家们用X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)技术解析了很多蛋白的结构,并以此更好地推进疾病机理、药物研发等工作。
然而,这些手段被视作劳心劳力又价格高昂。截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分。
作为学计算机出身的一名科学家,许锦波对他研究了近20年的蛋白质如此理解:蛋白质是由很多氨基酸通过化学键串联在一起,如果把每个氨基酸看成一个珠子的话,那么就有20种不同颜色的珠子,这些珠子串在一起形成蛋白质的氨基酸系列,每一个不同的颜色用一个字母表示,所以蛋白质氨基酸序列可以看成是1个由20个字母组成的字符串。每个氨基酸又是由几十个原子组成的,所以整个蛋白质是由成千上万个原子构成的,这些原子在细胞里面有相互作用力,最后形成一个稳定的构型。
“我们可以用不同的软件去把这些结构给显示出来,但是在利用这些软件去显示蛋白质构型的时候,我们需要知道这些原子在三维空间中的位置,需要知道它们的三维坐标,怎么样才能知道这些三维坐标?”许锦波提到,在过去很多年里,科学家发展了三种主要的实验技术,去测定这些原子的三维坐标。
除了上述提到的三种实验室技术之外,科学家们也在研究,计算方法的推导是否可行?
许锦波对澎湃新闻记者表示,美国生物化学家、1972年诺贝尔化学奖得主克里斯蒂安·安芬森(Christian Boehmer Anfinsen)通过实验提出了他自己的猜想,“这位实验学家的猜测基本是对的,他自己做了一些列实验支持了这个理论。”
安芬森的工作大部分围绕蛋白质的结构与功能之间的关联性。1961年,他研究了核糖核酸酶可以在变性后重新进行折叠,恢复到原来的空间结构,同时保留酵素的活性。安芬森因此认为,所有造成最终构象所需的蛋白质信息都被编码于其氨基酸序列上,即蛋白质一级排序决定三维结构。
上述即被称为安芬森法则,这也是蛋白质结构预测的基石。


上一篇:天津医科大学2022年硕士研究生招生章程
下一篇:锟斤拷锟斤拷省锟斤拷锟斤拷农锟斤拷锟斤拷锟