科研必看，你有担心过数据库的基因是错的吗？

作者：张馨予

科研必看，你有担心过数据库的基因是错的吗？？？

2022-07-01 11:24 来源: 吉凯基因

原标题：科研必看，你有担心过数据库的基因是错的吗？？？

做为一个在科研服务圈摸爬滚打七年之久的老干部，见过形形色色的实验问题，但要说最悲催的，还属一个即将博士毕业的老师，在论文即将投稿之计，偶然发现NCBI数据库将其当做编码基因研究的分子，更新为了非编码基因，这如同一个晴天霹雳砸懵了他，最终换了课题延迟毕业。

如果你觉得上述案例只是个例，那就错了。

以NCBI为例，人基因下辖转录本数量动辄数十个，甚至上百个，但小鼠就没这么多了，其他物种一个基因往往只收录了一个转录本，是人类太高级了？一个基因需要表达很多模板行使功能？答案是否定的，自然面前人与动物是平等的，在基因数量方面，人的少于很多生物，甚至少于昆虫，转录本数量也是一样。

以当前生物圈研究极为深入的分子TP53为例，谷歌以“TP53”为词条搜索，结果达一千五百万条，按理说，其序列应该是确定的了，但在两大核酸数据库里，两者的信息：

Ensembl数据库收录的TP53转录本数量：

科研必看，你有担心过数据库的基因是错的吗？

NCBI数据库收录的TP53转录本数量：

科研必看，你有担心过数据库的基因是错的吗？

可以看出，在Ensembl数据库中，共收录了27个转录本，三个非编码，二十四个编码；而NCBI收录了十五个编码的转录本，转录本数量就差了接近一倍；再看转录本长度，完全一致的不超过三个；蛋白差异只有一半的转录本是一致的。

想想看，研究透彻程度超过TP53分子的不会超过十个，但是人光编码基因就有2w+，如果连人的基因研究都不够透彻，那其他物种的就没法看了。

当前数据库信息的更新情况

以C9orf62为例，其在2020年八月之前转录本为NM_173520.3，是典型的编码转录本，而现在是NR_171012.1，名称也修正为非编码的名称LINC02907

小鼠Gm10033在2019年四月之前转录本是非编码的NR_038044.1；之后变为编码基因且含有两种不同形式的蛋白转录本NM_001374600.1，NM_001374599.1

在短短的三年时间之内，人、小鼠、大鼠三大物种的基因及转录本条目数更新信息如下：

新增基因17,461个，新增的基因下的新增转录本30,202条

修改基因163,800个，修改的基因下新增了转录本135,739条，修改的基因下修改了转录本268,789条，修改的基因下删除了转录本51,9007条

删除基因98,014个，删除的基因下删除了转录本70,182条

这是个多么恐怖的更新数量，由此，我们对当前数据库的很多基因序列是抱着怀疑的态度审视的。

为何基因会有如此多的转录本呢？

在蛋白数据库UNIPROT的expression处对TP53标注如下：

由此可见，虽然一个基因有很多转录本，但这些转录本有明显的组织倾向性或者在限定的发育时间表达，众多的转录本不是一窝蜂表达出来的；此外，一些转录本在特定情况，如免疫，缺氧，精神紧张这些外部刺激的因素下限定表达。

科研必看，你有担心过数据库的基因是错的吗？

基因or转录本为何出现不准确的情况

测序技术：测序技术在不断的发展，基因组或者基因序列如果存在复杂情况（高/低GC、重复序列等），序列是测不准，测不通的；测出来的序列可能也存在误差；

样本问题：当前数据库收录的数据也是从样本测序得来的，要代表全人类的基因，则需要足够的样本量；不同时期，若数据库测序所用样本不一样，则基因数据肯定也存在差异；

数据库收录基因是否编码属性时，很多以软件预测是否有足够长的编码区而编订，并不是依据RNA测序+蛋白质谱相匹配标定转录本，因此会存在很多编码属性错误的转录本。

基因or转录本信息异常可能导致的后果

基因及转录本是否存在：如果因为测序样本或技术的问题，将原本不存在的分子纳入研究范畴，无疑是水中捞月，白忙活；

功能标注错误：最代表的就是非编码基因标注为编码属性、非编码属性标注为编码基因，这种错误是极为致命的；