预测出地球上几乎所有蛋白质结构，AI工具真能加

作者：王韵壹、李英、熊慧卿

　　2022年7月，DeepMind公司与欧洲生物信息研究所（EMBL-EBI）的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能（AI）系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构，几乎涵盖了地球上所有已知蛋白质。而近日，科技公司Meta宣布，其AI系统ESMFold成功预测了超过6亿个蛋白质三维结构，包含大量前所未见的结构。两个团队均把包含如此巨量蛋白质结构的数据库向全球的科研人员免费开放，将研究成果进行了完全的共享。

　　许多科学家和生物医药公司的研究员兴奋地表示，这一系列突破将加速新药开发，并为基础科学带来全新革命。与此同时，质疑的声音也不在少数，很多人认为这只是一场炒作。那么，像AlphaFold这样的AI工具，对于新药开发究竟有怎样的意义？它真的能够加速新药开发吗？

　　要回答这个问题，我们首先需要了解一下常见的药物一般是通过何种策略开发出来的。

　　蛋白质是药物开发的热门靶标，因为它能控制许多人体活动的进行，例如抗体攻击病原体，通过各种酶执行细胞过程，或通过信使分子（如胰岛素和生长激素）发出信号。许多人类严重疾病背后的原因是由于蛋白质的功能失调。如果要让这些功能失调的蛋白质回到“正轨”，就需要开发出能够准确识别这些“问题蛋白”并牢牢地与之结合的药物，然后发挥其治疗作用。

　　为了更好地设计出可以与目标蛋白结合的药物，了解目标蛋白结构就显得极为重要。我们得先摸清这个目标蛋白上有哪些位点有与药物分子结合的可能，并设计出与这些位点能够契合的药物——就像为一块边缘不规则的拼图设计能够与之匹配的另一块拼图。

　　科学家们从上百万甚至上亿种化合物中，通过层层筛选，发现能够与疾病相关的蛋白相结合的先导化合物，再进行逐步优化，最终确定少数几个候选药物进入临床试验。这是个耗时耗力的过程，如果能够根据目标蛋白的特征直接设计出候选药物分子，这将大幅度加快新药开发的前期步骤并降低成本。

　　现在，AlphaFold实现了研究人员在几年前几乎无法想象的蛋白结构获取速度。在它出现之前，科学家们解析的蛋白结构只覆盖了17%的人类蛋白序列。而它出现后，98.5%的人类蛋白的结构已被其预测出来，其中58%的氨基酸的结构位置为可信预测，36%的氨基酸的结构预测有很高的置信度。也就是说，进行药物开发时需要完成的这张拼图，其中目标蛋白那一半的绘制速度有了飞跃性的提升，且准确性十分有保证。

　　相关阅读：意义堪比人类基因组图谱！AlphaFold预测出98.5%人类蛋白结构

　　新药开发领域的专家表示，这一庞大且准确的数据库能够让研究人员将更多的精力投入到确认蛋白结构的细节上面，这是很多靶向药物能否成功的关键。研究人员不再需要问“蛋白结构是什么样的？”，而是转而去回答“我们有的蛋白结构有多大作用？”的问题。此外，这个数据库能够扩展可以成药的基因组位点范围，大幅度增加了科学家们发现创新药物过程中拥有的选项。

　　除此以外，公开可用的AlphaFold还为以前无法接触此类科学的研究人员提供了极大的便利。对于资源不足的国家的科研人员来说，有了计算生物学，不必拥有如何获得蛋白质结构的知识和进行研究的资源，只需一台电脑甚至一台手机也能获得所需的结果了。

　　不过从新药开发的整个时间周期上来说，AlphaFold对加速药物发现的帮助就比较有限了。这是因为了解蛋白质的结构只是临床药物开发过程中的限速步骤之一。

　　专家指出，AlphaFold并不能让临床试验变得更可预测。不论AlphaFold能以多快的速度给出这些候选药物的蛋白结构，但对蛋白结构的了解并不能减轻临床失败的风险。临床上85%的失败是因为选择了错误的靶点，或者预期外的事件，例如候选药物还存在免疫原性和毒理学方面的问题等等。

　　此外，就蛋白结构预测方面来说，AlphaFold也存在着局限性。其一是AlphaFold的训练是基于蛋白质数据库中晶体结构的瞬间快照，这些晶体结构实际上只是不断运动的蛋白质的某种可能构象。因为蛋白质结构在其他小分子配体存在的情况下会发生变化，这种变化有时候是微小的，有时候是剧烈的。但AlphaFold尚未具备预测这些变化的能力，这也就限制了其在设计治疗药物方面的用途。

　　另一大局限性在于，AlphaFold如果要完美预测出蛋白质结构用于药物对接筛选，还需要更多方面的高质量数据。因为人工智能下一个必须要回答的问题就是预测候选药物与蛋白质的结合强度。这取决于结合时的盐浓度和pH、药物溶解度以及生物效价等数据，而这些数据目前还没有，或者说有，但机器还没办法识别和利用。