融合蛋白质图像和相互作用的细胞结构多尺度图



Nature | 融合蛋白质图像和相互作用的细胞结构多尺度图谱

2021-12-27 09:26 来源: 中大唯信-唯信计算

原标题:Nature | 融合蛋白质图像和相互作用的细胞结构多尺度图谱

原创 水淼 唯信计算

融合蛋白质图像和相互作用的细胞结构多尺度图

一种整合了所有在BioPlex中亲和纯化后的人类蛋白图谱免疫荧光图像,进而创建了人类细胞结构的统一层次图谱,即MuSIC。

背景介绍

真核细胞由细胞器等大组件组成,而细胞器又可分解成冷凝物和蛋白质复合体等小组件,形成复杂的多尺度结构。绘制亚细胞结构的基本技术有蛋白质成像和生物物理关联,且每一种都实现了自动化。尤其是共聚焦显微镜和免疫荧光技术的进步,使得扫描单个细胞内原位蛋白质的分布成为可能。通过将这些技术与抗体库相结合,人类蛋白图谱(Human Protein Atlas, HPA)已经开始系统地将人类蛋白质研究定位于亚细胞区室。作为一种并行的细胞定位方法,质谱(MS)与亲和纯化(AP-MS)和邻近依赖标记强有力地结合在一起,使蛋白-蛋白相互作用的快速测量成为可能。利用AP-MS, BioPlex项目正在为大多数人类蛋白质生成全面的相互作用图谱。

一个关键问题是:如何将成像和生物物理关联结合起来以展示细胞结构。图像定位蛋白质相对于细胞核等细胞标志,而生物物理关联则是将蛋白质相对于邻近蛋白进行定位。在这两种情况下,由于机器学习系统在数据中识别复杂模式的能力,使得这种定位变得越来越定量化。

主要内容

本文中,来自瑞典斯德哥尔摩皇家理工学院及美国斯坦福大学的Emma Lundberg和美国加州大学圣地亚哥分校的Trey Ideker等人演示了一种机器学习方法,将蛋白成像和生物物理关联集成在一起,以创建亚细胞组件的统一图谱(图1)。首先,研究者使用神经网络在成像或生物物理关联的基础上,将蛋白质投射到低维度。一旦确定了每个平台的蛋白质坐标后就对蛋白间的两两距离进行校准和组合,以显示不同尺度下(从小于50 nm到大于1 μ m)的蛋白质组合。相关的研究成果以“A multi-scale map of cell structure fusing protein images and interactions”为题发布在国际顶级期刊Nature上。

融合蛋白质图像和相互作用的细胞结构多尺度图

图 1. 数据融合策略概述。图片来源于Nature

两种方式的蛋白质的位置和距离

研究者收集了来自HPA的免疫荧光图像和来自BioPlex的AP-MS数据的匹配数据集。这两种资源都是基于人类胚胎肾(HEK293来源)细胞,共产生了661个蛋白质,具有兼容成像(1451张图像包括复制)和生物物理关联数据(291个蛋白质亲和标记为“诱饵”,370个蛋白作为相互作用的“猎物”) 。

接下来研究者根据免疫荧光和AP-MS数据,使用深度神经网络嵌入每个蛋白。嵌入是复杂输入的一种低维表示,其中每个数据点(这里是蛋白质)都被赋值为降维坐标。在图像嵌入中,研究者使用了卷积神经网络——DenseNet,其在捕获相对于反染色细胞标志物的蛋白位置方面具有优越的性能。类似地,使用node2vec神经网络扩展的AP-MS邻近交互来嵌入每个蛋白质。

然后,研究者分别在免疫荧光和AP-MS嵌入中计算所有蛋白对的距离。研究者组装了已知或估计直径的亚细胞组分参考集,包括了从小于20 nm的蛋白质复合物到大于1µm的细胞器。利用这些经过筛选的直径作为训练标签,作者训练了一个有监督的机器学习模型(随机森林回归),直接从免疫荧光和AP-MS嵌入的坐标中估计任意蛋白质对的距离。

亚细胞系统的多尺度图谱

研究者分析了661个蛋白质之间的所有距离以识别相互接近的蛋白群落,这些群落表明不同的组件(图2)。随着阈值的放宽,较小距离的群落被完全或部分地包含在较大的群落中,从而产生一个结构层次(图3a)。这样可以观察到广泛的群落检测参数,且与大小型群落都一致的独立数据集。最终的层次结构,即MuSIC 1.0,它包含69个蛋白质群落,代表了有87个层次包含关系的假定的亚细胞系统(图2)。16个系统包含在多个较大的系统中,表明了多个亚细胞定位或多向性。

融合蛋白质图像和相互作用的细胞结构多尺度图

图 2. 多尺度集成单元。图片来源于Nature

融合蛋白质图像和相互作用的细胞结构多尺度图

图 3. MUSIC捕获的亚细胞组件和直径。图片来源于Nature




上一篇:基因转换的生物学意义及分子机制
下一篇:朗盛重组工程材料板块,业务重心将远离汽车领域