通用蛋白质设计新方法,谷歌研究团队:具有分



蛋白质设计对于医学和生物技术应用变得越来越重要。由于蛋白质形成的复杂机制,新蛋白质的产生需要繁琐且耗时的计算或实验协议。同时,机器学习通过利用大量可用数据来解决复杂问题,最近在生成建模领域有了很大的改进。然而,生成模型主要应用于蛋白质设计的特定子问题。

谷歌的研究人员解决了以分层基因本体的功能标签为条件的通用蛋白质设计问题。由于缺少在该领域评估生成模型的规范方法,他们设计了一个评估方案,其中包含几个生物学和统计学启发的指标。

然后,该团队开发了条件生成对抗网络 ProteoGAN,并表明它在蛋白质序列生成方面优于几个经典和最近的深度学习基线。研究人员估计,功能条件模型可以通过组合标签来生成具有新功能的蛋白质,并为这一研究方向迈出第一步。

该研究以「Conditional generative modeling for de novo protein design with hierarchical functions」为题,于 2022 年 7 月 1 日刊载在《Bioinformatics》。

通用蛋白质设计新方法,谷歌研究团队:具有分

设计具有目标生物功能的新蛋白质是生物技术中的一项常见任务,并且在合成生物学和药物研究(例如药物发现)中具有广泛的应用。这项任务具有挑战性,因为蛋白质的序列 - 结构 - 功能关系极其复杂,尚未完全了解。

因此,蛋白质设计主要通过试错法完成,例如定向进化,它依赖于已知蛋白质的一些随机突变和选择压力来探索相关蛋白质的空间。这个过程既费时又费钱,而且通常只探索一小部分序列空间。同时,表征蛋白质及其功能的数据很容易获得,并为机器学习在蛋白质序列设计中的应用提供了有希望的机会。

最近提出了多种生成模型来设计用于不同任务的蛋白质,例如开发新疗法、酶、纳米抗体序列或导致抗生素耐药性的蛋白质。这些模型通常专注于蛋白质设计的子任务,因此仅限于给定的应用,通常甚至仅限于特定的蛋白质家族。这需要对一项新任务进行重新训练,这限制了模型可以从中学习的序列的多样性和数量。

在其他领域,例如密切相关的自然语言生成,人们可以观察到通用模型的趋势,然后在各种上下文中使用这些模型。谷歌团队的研究人员假设,同样在蛋白质设计中,一刀切的模型可以学习不同蛋白质类别的共同基本原理,从而提高生成序列的质量。

更进一步,它甚至可以通过结合它在不同蛋白质家族中学到的功能的不同方面来创造不仅新的序列,而且还可以创造新的功能。因此,该团队开发了 ProteoGAN,这是一种用于条件蛋白质设计的通用生成模型,基于分子功能基因本体论(the Molecular Function Gene Ontology,GO),一种描述蛋白质功能方面的标签层次结构。这些功能从结合特异性试剂到转运蛋白或传感器活性、生化反应催化等等不一而足。

此外,分层组织中编码的信息可能有助于对性能进行建模。他们的模型基于流行的生成对抗网络(GAN)框架。研究人员通过提出一种条件机制来扩展框架,将蛋白质功能的多标签层次信息纳入生成过程。

然而,开发这样的生成模型可能具有挑战性,尤其是因为缺乏针对问题的评估。评估指标需要评估生成的样本是否有效(即现实性和功能性),这本身就是一个难题,还需要快速计算大量样本。生成模型的评估仍在进行中,特别是在蛋白质设计领域。

虽然生成序列的金标准验证意味着在实验室中合成蛋白质,但缺乏计算机评估使得难以有效地比较蛋白质序列设计的方法。因此,该团队基于最大平均差异 ( MMD ) 统计量为生成蛋白质设计构建了一系列评估指标,以测量生成序列与真实蛋白质的分布相似性和条件一致性。同时,进一步提出了解释序列多样性的措施。

蛋白质设计的相关生成模型

引导和条件蛋白质生成模型

机器学习模型和最近的深度生成模型已被用于设计计算机生物序列,例如 RNA、DNA 或蛋白质序列,通常旨在创建具有所需特性的序列。实现这一目标有两种主要策略,一种是有指导的,另一种是有条件的。引导式方法使用预测器(也称为预言机)通过迭代的训练 - 生成 - 预测步骤来引导设计朝着目标属性发展。

然而,在具有多个功能标签的情况下,缺乏用于蛋白质功能的高度准确和快速的多标签预测器会损害功能性蛋白质生成中的引导生成技术。另一方面,条件方法将功能信息集成到生成机制本身中,从而无需预测器。

例如,2020 年 Madani 团队开发了 ProGen,这是一种条件转换器,可以控制生成大量功能性蛋白质,但对序列上下文的需求可能会受到实验限制,并且与从头设计不兼容。2019 年 Ingraham 团队提出了一种基于图的条件生成模型,该模型依赖于结构信息,而这种信息很少可用。2018 年 Das 团队和 Greener 团队训练条件变分自动编码器(CVAE)以生成特定蛋白质,例如金属蛋白。2020 年 Karimi 团队使用引导条件 Wasserstein-GAN 生成具有新折叠的蛋白质。




上一篇:总是感冒,多补充维生素C,可以提高免疫力吗?
下一篇:这菜要常做给孩子吃,益智补脑,补充蛋白质,