量化细胞内的信息流:机器学习时代下的研究进



量化细胞内的信息流:机器学习时代下的研究进

导语

研究细胞内信号分子传递信息的能力是理解生命系统的基本问题之一。2022 年 7 月 12 日,来自北京师范大学珠海校区和加州大学洛杉矶分校的学者在最新的综述 "Quantifying information of intracellular signaling: progress with machine learning" 中,回顾了如何使用信息论方法,来量化细胞内分子的信息传递。特别地,文中总结和比较了利用机器学习的方法来处理分子信号的复杂时间轨迹的最新研究,这些研究帮助揭示了细胞如何利用时间编码的信息来适应环境变化。

研究领域:机器学习,细胞内信号,信息论

梁栋栋 | 作者

汤迎 | 审校

邓一雪 | 编辑

引言

细胞能够对外界的刺激做出合适的功能性变化,这一过程称为细胞决策。在这一过程中,细胞利用膜表面受体,通过生化信号通路来对外界刺激的信息进行整合、传递。量化这一过程的信息流对描述细胞行为以及理解其在生理学中发挥的功能至关重要。

对于量化细胞内信号来说,确定生化信号通道是至关重要的。这一过程需要对不同组别的生化分子进行细致的生物学测量,而不同组别的生化分子就可以作为信号通道。因此,提及 " 信号通道 " 这个词就需要有伴随的特定生化分子、或具有特定时间尺度的信号转导过程。如果我们将生化分子看作信息通道的话,发送者就可以看成受体或分子感受器所感知到的外界环境的刺激。对于接收者,则视不同实验方法测量的信号而定,比如有的实验测量主要生化信号分子的活动或亚细胞定位,有实验测量外界刺激诱导的基因表达,以及细胞尺度下的反应,如生长、分裂、运动或死亡。

为了更好的叙述如何量化细胞内分子的信息传递,文中介绍三类常用的信息度量方法:经典信息论中的信息度量、时间点尺度上以及时间序列轨迹尺度上的信息度量。

一、三类信息度量方法

1. 经典信息论中的信息度量

量化细胞内的信息流:机器学习时代下的研究进

图 1:经典信息论中的信息度量方法总结,详细内容及参考文献可查阅原文

香农熵(Shannon entropy)与统计物理密切相关,对于给定数据的模型推断,熵提供了一种可优化的似然,例如定量生物学中基因组序列的蛋白质三维结构的推断等。当概率分布连续时,香农熵可以作为微分熵(Differential entropy),微分熵的估计依赖于对概率分布的估计。我们常用有限样本的频率作为概率的估计来计算概率分布的熵。当给定 N 个样本时,微分熵常写作:

量化细胞内的信息流:机器学习时代下的研究进

,是第 j 个事件的频率值,当采样数据足以覆盖全概率分布的频率构型时,样本的平均熵近似于全概率分布的熵。

KL 散度(Kullback – Leibler ( KL ) -divergence)常用来衡量两个分布之间的不相似度,同时它还有一个名字叫相对熵(relative entropy)可以理解为两个分布的交叉熵和一个分布的香农熵之差,具体计算公式可见图 1。交叉熵(Cross entropy.)常作为机器学习中的优化函数,通过最小化模型拟合分布和实际数据分布之间的交叉熵来训练模型参数,交叉熵是 KL 散度和香农熵之和,可以表示为:。

互信息(Mutual information)有对称的性质,所以它量化的是变量间的相互依赖关系,即一个随机变量通过观察另一个随机变量所获得的信息量。在实践中,人们通常关心最大互信息(通道容量),并且只对一个变量进行最大化。除此之外,互信息也可以看做随机变量的先验概率分布和条件概率分布之间的 KL 散度,即一个随机变量由于已知另一个随机变量而减少的不确定性,写作:,即互信息是在一个变量 Y 的分布下,单变量 X 的分布和 X,Y 条件分布的 KL 散度的期望。




上一篇:留学体检与疫苗接种,了解下吧
下一篇:中国劈山而建的超级工程,耗资8.5亿,为造它削