科研必看,你有担心过数据库的基因是错的吗?



科研必看,你有担心过数据库的基因是错的吗???

2022-07-01 11:24 来源: 吉凯基因

原标题:科研必看,你有担心过数据库的基因是错的吗???

做为一个在科研服务圈摸爬滚打七年之久的老干部,见过形形色色的实验问题,但要说最悲催的,还属一个即将博士毕业的老师,在论文即将投稿之计,偶然发现NCBI数据库将其当做编码基因研究的分子,更新为了非编码基因,这如同一个晴天霹雳砸懵了他,最终换了课题延迟毕业。

如果你觉得上述案例只是个例,那就错了。

以NCBI为例,人基因下辖转录本数量动辄数十个,甚至上百个,但小鼠就没这么多了,其他物种一个基因往往只收录了一个转录本,是人类太高级了?一个基因需要表达很多模板行使功能?答案是否定的,自然面前人与动物是平等的,在基因数量方面,人的少于很多生物,甚至少于昆虫,转录本数量也是一样。

以当前生物圈研究极为深入的分子TP53为例,谷歌以“TP53”为词条搜索,结果达一千五百万条,按理说,其序列应该是确定的了,但在两大核酸数据库里,两者的信息:

Ensembl数据库收录的TP53转录本数量:

科研必看,你有担心过数据库的基因是错的吗?

NCBI数据库收录的TP53转录本数量:

科研必看,你有担心过数据库的基因是错的吗?

科研必看,你有担心过数据库的基因是错的吗?

可以看出,在Ensembl数据库中,共收录了27个转录本,三个非编码,二十四个编码;而NCBI收录了十五个编码的转录本,转录本数量就差了接近一倍再看转录本长度,完全一致的不超过三个;蛋白差异只有一半的转录本是一致的。

想想看,研究透彻程度超过TP53分子的不会超过十个,但是人光编码基因就有2w+,如果连人的基因研究都不够透彻,那其他物种的就没法看了。

当前数据库信息的更新情况

以C9orf62为例,其在2020年八月之前转录本为NM_173520.3,是典型的编码转录本,而现在是NR_171012.1,名称也修正为非编码的名称LINC02907

小鼠Gm10033在2019年四月之前转录本是非编码的NR_038044.1;之后变为编码基因且含有两种不同形式的蛋白转录本NM_001374600.1,NM_001374599.1

在短短的三年时间之内,人、小鼠、大鼠三大物种的基因及转录本条目数更新信息如下:

新增基因17,461个,新增的基因下的新增转录本30,202条

修改基因163,800个,修改的基因下新增了转录本135,739条,修改的基因下修改了转录本268,789条,修改的基因下删除了转录本51,9007条

删除基因98,014个,删除的基因下删除了转录本70,182条

这是个多么恐怖的更新数量,由此,我们对当前数据库的很多基因序列是抱着怀疑的态度审视的。

为何基因会有如此多的转录本呢

在蛋白数据库UNIPROT的expression处对TP53标注如下:

由此可见,虽然一个基因有很多转录本,但这些转录本有明显的组织倾向性或者在限定的发育时间表达,众多的转录本不是一窝蜂表达出来的;此外,一些转录本在特定情况,如免疫,缺氧,精神紧张这些外部刺激的因素下限定表达。

科研必看,你有担心过数据库的基因是错的吗?

基因or转录本为何出现不准确的情况

测序技术:测序技术在不断的发展,基因组或者基因序列如果存在复杂情况(高/低GC、重复序列等),序列是测不准,测不通的;测出来的序列可能也存在误差;

样本问题:当前数据库收录的数据也是从样本测序得来的,要代表全人类的基因,则需要足够的样本量;不同时期,若数据库测序所用样本不一样,则基因数据肯定也存在差异;

数据库收录基因是否编码属性时,很多以软件预测是否有足够长的编码区而编订,并不是依据RNA测序+蛋白质谱相匹配标定转录本,因此会存在很多编码属性错误的转录本。

基因or转录本信息异常可能导致的后果

基因及转录本是否存在:如果因为测序样本或技术的问题,将原本不存在的分子纳入研究范畴,无疑是水中捞月,白忙活;

功能标注错误:最代表的就是非编码基因标注为编码属性、非编码属性标注为编码基因,这种错误是极为致命的;




上一篇:奥密克戎第二代变种未来或起新疫情!各国共享病毒基因组数量仅“冰山一角”,变种人数不止85人
下一篇:Nature子刊:郝海平/叶慧/王南溪合作揭示人类蛋白