基于质谱的蛋白质生物标志物发现中的特征选择

作者：杨超月

生物标志物(Biomarker)是指“一种可客观检测和评价的指标，可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子”[]，对于筛查、诊断或监测疾病，指导分子靶向治疗以及评估治疗效果等具有重要的意义[-]。作为中心法则末端承担生命活动的载体，由于存在可变剪切、单核苷酸多态性及翻译后修饰，蛋白质的状态包含更多维度的信息，与生命活动的各个方面息息相关，更加适合作为生物标志物[]。目前美国国家癌症研究所(National cancer institute)发布的EDRN数据库(Early detection research network, https://edrn.nci.nih.gov)针对十种器官共收录了583种蛋白质生物标志物，占收录的全部生物标志物的57%。此外，几乎所有被FDA批准应用于临床的标志物如甲胎蛋白(Alpha-fetoprotein, AFP)等都是蛋白质。与此同时，质谱技术凭借其高通量、高灵敏性等优点已经成为了蛋白质组研究的主流技术[]。将质谱方法用于蛋白质生物标志物发现已成为蛋白质组的研究热点之一，近年来相关文献数目增长迅速()。

图 1 PubMed数据库中蛋白质生物标志物相关文献数目统计 Fig. 1 Number of related literatures contains both "proteomics" and "biomarker" on PubMed database.

目前蛋白质生物标志物的发现多基于实验组与对照组之间的蛋白质丰度差异，呈现出两种策略：经典的生物标志物发现策略可分为蛋白质生物标志物发现、确认和验证三个阶段，由于其各阶段所需的样本数目及候选蛋白质数目按照数量级变化()，之后的研究中常称其为“三角”发现策略；另一种策略类似于全基因组关联分析(Genome-wide association study，GWAS)，通过进行大队列非靶向的蛋白质组数据分析，发现蛋白质表达量、修饰状态的改变和疾病状态的相关性[-]，又被称为“矩形”发现策略[]。两种策略中研究人员均通过鸟枪法蛋白质组定量结果进行分析，寻找在实验组与对照组之间的差异表达蛋白质，继而确定可能的蛋白质生物标志物。如何从高维蛋白质组数据中寻找出能更具区分能力的标志物，如何评价所选的生物标志物的分类效果是方法学研究中最为关注的两个问题。前者可以抽象为特征选择；后者则可等效为分类器的效能评估[]。

基于质谱的蛋白质生物标志物发现中的特征选择

图 2 蛋白质生物标志物发现的经典策略(改编自文献[, ]) Fig. 2 Classical strategy for protein biomarker discovery (adapted from references [, ]).

在传统的差异表达蛋白质筛选方法中，研究人员根据实验设计类型以及数据的正态性与方差齐性，选择采用参数检验(如t检验、u检验、方差分析ANOVA等)或非参数检验(如Mann-Whitney U检验、Wilcoxon秩和检验、Kruskal-Wallis H检验等)判断样本均数是否具有统计学差异，而后采用多元线性回归、逻辑回归等回归模型评判蛋白质生物标志物的分类效果。这些方法存在以下问题：1)尽管假设检验方法具有丰富的理论支持及应用实例，但其本质上都是单变量的分析手段。由于协同或者拮抗作用的存在，同一条通路上的蛋白质常呈现出相同或相反的变化趋势，传统的分析方法不能反映蛋白质之间的相关性。2)生物标志物能够被用于区分疾病和正常组，在数学上可以看成一个分类问题。传统的回归模型更适用于处理单一边界线性可分的分类问题，而以蛋白质组数据为例的组学数据往往是非线性可分的，只应用线性回归模型可能导致分类效果不佳。3)很难通过图像表示出高维空间中的线性超平面，传统回归分析缺乏直观的可视化手段。

这些问题来源于蛋白质组数据的“高维度”与“稀疏性”，需要通过对数据进行简化来解决。特征选择与机器学习方法在其中有广泛的应用。依据训练数据是否拥有标记信息，机器学习方法可分为“无监督学习方法”与“监督学习方法”两类。本文将详细描述蛋白质生物标志物发现中特征选择方法及这两类机器学习方法的具体应用。

1 特征选择方法

特征选择(Feature selection, FS)被定义为“从给定的特征集合中选择出相关特征集的过程[]”，可以看作是机器学习方法的“预处理”阶段，目的是选择重要的特征并去除不相关的特征。特征选择的通用做法是首先生成一个特征子集并评价其好坏，依据评价结果产生下一个特征子集，如此循环迭代至找不到更好的特征子集为止，这一过程涉及到子集搜索(Subset search)与子集评价(Subset evaluation)两个环节。

在特征选择之前需要对数据进行缺失值插补及标准化等操作，已有一些综述对其进行了总结[-]，此处不作展开叙述。

常见的特征选择方法分为过滤式(Filters)、包裹式(Wrappers)及嵌入式(Embedded methods)三种类型。

1.1 过滤式选择