华盛顿大学中国博后揭示人类和近亲物种的演化

作者：张馨予

华盛顿大学中国博后揭示人类和近亲物种的演化，即将加入上海交大

2022-04-29 19:44 来源: DeepTech深科技

原标题：华盛顿大学中国博后揭示人类和近亲物种的演化，即将加入上海交大

“为什么不回国工作呢？身边好多朋友都回国工作了。上海交大 Bio-X 研究院的科研平台很适合自己的研究方向和兴趣。第一，我的研究需要巨大的计算量，而交大的 π2 超算平台对于生物信息学和基因组演化生物学的研究有很大帮助。第二，在贺林老师、师咏勇老师和其他老师的前期工作中，Bio-X 研究院建立了珍贵的精神遗传疾病样本，这些样本可以帮助我进一步了解结构变异同疾病的演化遗传关系。”即将回国加入上海交通大学担任长聘教轨副教授的毛亚飞表示。

华盛顿大学中国博后揭示人类和近亲物种的演化

图 |毛亚飞（来源：毛亚飞）

他同时指出，国家对青年老师的支持越来越好，已出现很多青年学者就能申请的项目，这些项目可以保证青年人在职业生涯早期安心地工作。另外，因为这次回国找教职，他也认识了很多老师。他们都在国内工作很久，给了毛亚飞很多帮助和意见，比如北京动物所的张勇老师、浙江大学张国捷老师、中山大学的吴仲义老师等。

据悉，生态演化基因组学，是毛亚飞的主要研究方向。其中，长读长测序是他常用的技术手段之一。

华盛顿大学中国博后揭示人类和近亲物种的演化

图 | 毛亚飞实验室主页截图（来源：毛亚飞个人主页, https://www.yafmao.org/）

长读长测序的主要技术路线和优势

华盛顿大学中国博后揭示人类和近亲物种的演化

长读长测序，从字面上就体现了它的特点——读长比较长。读长，是基因组测序中的一个技术词汇，人类基因组一套染色体是由 ATCG 四个碱基排列组合形成的一个大约 31 亿个碱基对的序列。要想了解这些碱基是怎么排列的，就得通过一定测序手段和计算算法去实现。而长读长测序正是重要的测序手段，想象一下：如果一次读取 1 万个碱基和一次读取 150 个碱基信息，哪一个更容易得到最完整的基因组信息？

换句话说，如果把组装一个基因组理解为拼图游戏，当你拥有同样大小的拼图，是拼图中的每一个小块越小越容易完成拼图还是越大越容易？答案显然易见。

其实，如果基因组序列很简单，那么即使读长再小，也一定能完成基因组组装。但是，人类的基因组很复杂，有很多区域的序列非常相似，科学家把其称为重复序列，目前这些重复序列很难被读长短的测序技术攻破 [1,2]。

再用拼图来做个解释，如果拼图有的地方特别相似，遇到较小图块的时候，在拼接图谱时，就很难获悉图块应该放置的位置。但是，如果图块足够大，那就总能找到两个图块的区别。就是这么一点点细微的区别，即可获悉图块应该放置的位置。因此，读长长可帮助我们解决基因组上的重复序列。

长读长测序的技术，目前主要来自美国 PacBio 和英国 Oxford Nanopore Technologies（下称 Nanopore ONT）的这两家测序公司。其中，PacBio 自己有多种不同的测序技术，本文主要讨论的是该公司的 HiFi 测序技术。PacBio HiFi 的读长大约 15kB-20Kbp，Nanopore 的读长大约 60Kbp，最长可以到达几个 megabase。PacBio HiFi 的读长稍微短一些，但是它的精度很高，基本上能到达 99.9% 的准确性。Nanopore ONT 的读长长，但是它的精度较差，一般在 90%-95% 左右，当然，ONT 现在也在提高它的精度，目前有数据表明它的 Q20 技术的确能加强测序精度，但是和 PacBio HiFi 相比仍有一段距离。

其实，测序只是一个技术手段，目标主要在于解决生物学问题。这两个技术各有所长，毛亚飞平时都是综合这两个技术的优势来完成一个完整基因组的组装。当然，单独利用这两个技术也可以助力解决不少生物学问题。比如，对于具有较小基因组的微生物，只用 PacBio HiFi 技术就能得到很好的基因组组装，然后就可利用基因组去了解不同微生物的演化遗传区别，甚至进一步去改造这些微生物的基因组，让它们变成我们人类所需要的“工程”微生物。