VirionFinder:一款识别噬菌体结构蛋白的强大工具



佳作推荐|VirionFinder:一款识别噬菌体结构蛋白的强大工具

2021-11-18 13:45 来源: 美格基因

原标题:佳作推荐|VirionFinder:一款识别噬菌体结构蛋白的强大工具

本期分享的研究提出了一种称为VirionFinder的新型算法,可有效识别完整和部分噬菌体结构蛋白。美格基因公众号后台回复1117,即可下载本文原文~

VirionFinder:使用氨基酸序列和生化特性,从病毒组数据中识别完整和部分噬菌体结构蛋白

VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids

作者:Zhencheng Fang1,2, Hongwei Zhou1,3,*

期刊:Frontiers in Microbiology

时间:2021.2.5

影响因子:5.6

组学策略:宏病毒组、宏基因组

一、文章摘要

动机 :病毒是地球上最丰富的生物体之一,而噬菌体是病毒群落的主要成员。由于噬菌体的多样性,无法通过搜索当前数据库对新发现噬菌体的大量基因进行功能注释,因此开发一种用于噬菌体结构蛋白注释的alignment-free算法对于了解病毒群落具有重要意义。噬菌体结构蛋白(PVVPs)的鉴定是许多病毒分析中关键的一步,如物种分类、系统发育分析和探索噬菌体如何与其宿主相互作用。虽然已经开发了一系列PVVPs预测工具,但这些工具的性能仍然不尽如人意。

结果 :在这项研究中提出了一种称为VirionFinder的新型算法,用来识别完整和部分PVVPs。VirionFinder 使用20种氨基酸的序列和生化特性作为数学模型来编码蛋白质序列,并使用深度学习技术来识别给定蛋白质是否属于PVVP。基于benchmark数据集进行VirionFinder与最先进的工具相比时,在相同的specificity(Sp)下,VirionFinder 在识别完整和部分蛋白质上的sensitivity(Sn)比这些工具高约10%-34%。在使用真实病毒组数据评估相关工具时,VirionFinder的PVVPs序列识别率也远远高于其他工具。

结论 :VirionFinder将成为从完整的噬菌体基因组和病毒宏基因组数据中识别噬菌体结构蛋白的强大工具。

关键词 :病毒组、宏基因组、基因功能注释、深度学习、噬菌体结构蛋白

二、主要内容

1.VirionFinder模型

VirionFinder 首先将每条蛋白质序列分别用“one-hot”矩阵和生化特征矩阵进行表示。这样条长度为L的蛋白质序列可转化为由长度L和宽度20(20种氨基酸)的“one-hot”矩阵,以及长度为L和宽度22(来自AAindex 数据库的22种生化特征:FUKS010107、FUKS010111、JACR890101、PRAM820102、QIAN880126、SNEP660102、KOEP990101、QIAN880124、RADA880105、WOLR790101、HUTJ700102、HUTJ700103、ZIMJ680103、FAUJ880104、LEVM760105、FAUJ880111、CHAM830104、LEVM760102、GEIM800101、EISD860102、ZIMJ680104和FASG760101)的生化特征矩阵。随后利用深度学习结合“one-hot”矩阵和生化特征矩阵进行判断输入的序列是否属于PVVP(图1)。

VirionFinder:一款识别噬菌体结构蛋白的强大工具

图1:VirionFinder模型

2. 用 benchmark 数据集做比较

首先基于 benchmark 数据集(RefSeq数据库phages和archaeal viruses的蛋白质序列)对VirionFinder 与当前可用的工具iVIREONS、PVPred、PVP-SVM、PVPred-SCM和Meta-iPVP进行比较。为了更全面地评估每个工具完整和部分基因的性能,研究中用四组不同完整性水平的序列测试数据进行了评估。A组包含测试集中的所有完整蛋白质。在B组中,测试集中的每个蛋白质被随机切成总长度的75%的子系列。同样,C组包含全长50%的序列,而D组包含全长25%的序列。使用sensitivity(Sn= TP/(TP+FN))和specificity(Sp= TN/(TN+FP))作为评价标准。为了使比较更有说服力,在评估过程中,让VirionFinder通过调整阈值实现与比较工具具有相同的Sp,在同一Sp下比较了VirionFinder的Sn(用SnV表示)与相应的比较工具的Sn(用SnC表示)。在所有情况下,VirionFinder的表现都比其他工具好得多(表1)。因此,VirionFinder 以用作PVVPs注释工具,不仅用于分离完整的噬菌体基因组,而且可以用于病毒宏基因组数据,其中有些基因可能不完整。

表1.VirionFinder和相关工具之间的性能比较

VirionFinder:一款识别噬菌体结构蛋白的强大工具

3. 使用真实病毒组数据进行评估

使用真实的病毒宏基因组数据评估VirionFinder和相关工具的预测性能。作者从NCBI的 Sequence Read Archive(SRR5224158.1)中收集了肺病毒数据。并使用PSI-BLAST收集了潜在的PVVPs(e-values<1e-5)。在这些潜在的PVVPs中,VirionFinder 将其中76.47%确定为PVVPs(使用0.5的默认值作为阈值),而iVIREONS、PVPred、PVP-SVM、PVPred-SCM 和Meta-iPVP 分别标识了52.94%、17.65、17.65、52.94 和 70.59% PVVPs,表明VirionFinder能将类似PVVPs类似序列识别为PVVPs的比例最高(图2)。




上一篇:徐鸶鸶:希望自己的作品能得到大家认可
下一篇:集中打印点设备设施建设招标公告