比较基因组学研究那些事



 随着基因组测序爆炸性增长,比较基因组学已逐渐成为每个物种尤其是首次被破译基因组的物种的必备研究内容之一。那么什么是比较基因组学呢?比较基因组学是通过对系统发育中的代表性物种之间的基因和基因家族的比较分析、构建系统发育图谱, 来揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制。比较基因组学研究有助于进一步阐明物种进化的分子基础, 探索基因起源机制, 从基因进化的角度研究基因序列与功能的关系。 物种选择 这么多的物种中该选择哪些来进行研究呢?又应该怎么挑选呢?“好的”比较基因组研究一般需要遵循以下几点:

(1)顾名思义,最重要的是这些物种要有参考基因组(即需要有蛋白质序列文件以及基因注释文件);基因组常用的数据下载网站有以下三种: NCBI(https://www.ncbi.nlm.nih.gov/); ENSEMBLE(); Phyzome(https://phytozome.jgi.doe.gov/pz/portal.html)。 (2)为了研究的准确性,尽量选择基因组组装连续性好的物种。若要用作共线性分析,则该物种的基因组需要为染色体水平。 (3)与研究目的物种的亲缘关系不宜太远、数目不宜过多(通常在6-10个左右)。物种越多,物种间亲缘关系越远,将使得可获取的单拷贝直系同源基因数目越少,影响进化树的准确性。 (4)可从分类系统选择,将更好的从亲缘关系水平寻找近缘物种。

比较基因组学研究那些事

 被子植物系统发育海报 () (5)可从已发表近缘物种基因组文章中的进化树内进行挑选,以此作为参考;或是直接从基因组发表网站上进行挑选,从而避免所选物种无基因组数据而反复挑选查找的麻烦。

比较基因组学研究那些事

比较基因组学研究那些事

网站查询方法图例 (https://phytozome.jgi.doe.gov/pz/portal.html) (6)为了避免基因家族扩张与收缩分析结果受到干扰,所分析物种的倍性最好保持一致,异源多倍体通常会拆成亚基因组对应的蛋白质序列进行分析,例如陆地棉AADD,则需要分为AA与DD分别进行。当然,不拆开亚基因组也可以,例如2019年Nature Communications上发表的异源四倍体糜子基因组就与二倍体谷子、高粱等一同分析(Zhou C et al.,Nature communications. 2019)。 (7)需要含有关心的物种:这些物种与目标物种具有相似/相反的生物功能,通过物种间的比较可以解释说明一定的生物问题,同时也利于后续基因家族功能故事阐述。 (8)全基因组复制事件加上前期已有研究物种或是研究较为清晰的物种作为比对(葡萄或无油樟可作为内参)。 (9)进化树选取外群物种,主要基于三个原则:①外群物种要比研究物种先从祖先物种中分化出去;②外群物种与研究物种的亲缘关系不宜太远;③基因组组装质量较好。目前,外群物种的选取可以从文献调研、分类系统查找、项目经验等三种途径进行获取。寻找已发表基因组的近源物种文章。文章正文或附录中的系统进化树,最外面的物种即为外群物种。百迈客具有丰富的项目经验,实在不会选择时可与百迈客进行联系~百迈客将通过丰富的项目经验为您提供合适的选取建议。

比较基因组学研究那些事

香雪球基因组进化树 (Huang L et al.Horticulture Research. 2020)

(10)分析中需要借助于化石时间矫正得到有分化时间的物种树,因此需要进化树分支上某一物种具有化石信息,为了分析的准确性,最好能在每个大分支内有一个化石信息。常用的化石信息查询网站:TIMETREE website  ()

分析内容
(1)基因家族聚类 基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。对物种的蛋白序列进行家族分类,对获得基因家族进行注释;对本物种的特有基因家族进行GO和KEGG富集分析。物种共有基因家族中的单拷贝同源基因数目,用于系统发育树的构建等分析。Veen图中非重叠区与重叠区的数量分别表示几个物种间特有基因家族和共有基因家族的数量。


上一篇:基于DAVID的富集分析可视化绘图工具,附代码教程
下一篇:佛山顺德北�蛘蛟俪稣�策 促广东工业设计城扩