如何评价生物信防堵取样器息学研究的水平

作者：杨超月

如何评价生物信息学研究的水平

■刘小乐

刘小乐

哈佛大学公共卫生学院生物统计与计算生物学系终身教授

Dana-Farber肿瘤研究所功能性癌症表观遗传组学中心主任

同济大学生物信息学系教授、长江学者讲座教授

生物信息学是国际前沿的新兴科研领域，近年来发展迅猛。“70多位学者作报告，涉及研究方向至少有60个，两位或多位学者从事一个小的研究方向的现象非常少见。”如此“宽广”的领域，如何评价同行的工作？怎样才算顶级的生物信息学家？

结合具体的研究，我将生物信息学研究的水平划分成五个级别。本文对生物信息学（Bioinformatics）和计算生物学（Computational biology）不作区别，故此两个概念可相互代替。

零级：为建模而建模

多年前有人问我：现在数据这么多，能建模的东西一大把，那我们该干点什么呢？我就问：你想解决什么问题？答曰：建模的问题啊！

如果科学家认为自己主要是数学家、统计学家、计算机科学家、物理学家，这个回答是可以的，因为在这些学者各自的领域里，确实有许多好的理论建模问题。但如果他们认为自己主要是生物信息学的学者，这个回答就不可以了。

许多零级生物信息学家很少读或者发表生物学期刊上的论文，也不参加生物学的会议，因此这个级别属于“未入门级”。零级生物信息学家们通常只阅读自己或者其他零级生物信息学家的论文，并且引用也是自引或者被其他零级的学者引用。这种类型的研究，意义或价值不大。

一级：给数据、能分析

也即菜鸟级。这类研究一般是分析自己或者合作者实验室里未发表的数据，并试图获得新的生物学发现。

这相比于“零级”已经有很大的进步，并且是训练生物信息学者最好的途径之一。这类研究可以练习将已有的生物信息学技术发展出真正生物学发现的技巧，学习更多的生信技术和生物学知识，可以启发、衍生出二级和三级水平的好课题。

评价一级科研的功底和水平要看数据有多复杂, 是否需要生信人员写一些程序和算法（而不是只用他人的工具），最重要的假设发现是不是由生物信息分析出来的，实验与计算是否环环相扣，以及研究中生物学发现是不是真的有意思等。

一级虽然是“入门级”，但非常重要，是所有生信专业研究生的必经之路，非生信领域的学者或学生，能达到一级中等已可算是高手，进阶到一级上等水平就凤毛麟角了。

二级：想新招、“玩”数据

具有二级水准的生信研究有：1.设计方法解决生物医学相关大数据分析中普适、定量的问题，如FDR；2.设计算法来分析新的高通量技术所获得的数据，如RMA或Bowtie；3.从各种公共数据中通过整合建立数据库或数据资源。这个范围就广了，生信领域各种专业、精心注释的数据库，都属于二级的研究。

二级排在一级之上，在于一级只能帮助一个实验室或者有限的合作者，而二级的工作则可以帮助数百甚至更多的生物学家。二级的工作不一定发表在顶级的期刊上，但是时间会证明一切，比如Gene Set Enrichment Analysis。这些方法并不见得必须要非常新，利用已有的统计或者计算方法来解决新的生物学问题已经足够保证其新颖性，但必须尽可能保证用户的友好性。开发者一般在发表之后还需要做非常非常多的工作，比如维护、升级，即使不再发表后续的论文。

评价二级的生信研究工作不能只看影响因子，但做的好却比较容易被领域认可。此外，二级的研究要做的好，生物信息学者一般需要专注于自己特定的方向，从而能够较好地了解领域内相关的、新的计算方法和实验技术。

总体来说，国内生信专业的博士毕业，一般要做出二级下水平的工作，才有可能完成毕业任务。而对于非生信领域的学者，从一级进阶到二级难度也很大。所以这些学者与其花精力试图进阶二级，还不如找专业学者合作更划算。

高级（Level 3）：“玩”数据、作发现

三级的生信研究一般是整合公共的高通量数据，利用相当精致的方法来做出生物学发现。这样的工作一般是从数据开始，实验验证结束。这就需要生物信息学家具有非常扎实的生物学知识，并且能够自己提出有意思的生物学问题。生物信息学家可以领导一个生物学的项目，并且实验学的合作者能够相信预测的正确性以及意义，并乐意开展实验验证。