基因组从头测序(De novo sequencing)



> 资源 > 技术支持 >

基因组从头测序(De novo sequencing)
基因组从头测序(De novo sequencing)
基因组从头测序,是指在不依赖参考基因组的情况下对某物种进行基因组测序,然后应用生物信息学手段对测序序列进行拼接和组装,从而绘制该物种的全基因组序列图谱。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端!这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为后续从基因组学水平研究物种的生长、发育、进化、起源及特定环境适应性奠定基础,同时也为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息,从而对基础生物学、分子育种、遗传基因改良等方面的研究起到巨大的推动作用。
采用传统的Sanger法测定高等动植物的全基因组需要花费大量的人力和物力资源,这极大限制了全基因组测序的发展。2007年6月,DNA 双螺旋结构的发现者James Watson的基因组序列登录到了GenBank数据库当中,这是第一次使用非Sanger测序的高通量测序方法获得了人类个体基因组序列,并且第一次将个人基因组序列公之于众。整个测序过程在两个月之内就完成了,花费不到100万美元,这只占耗时10年之久的人类基因组计划使用经费的千分之一,或是相当于Venter基因组计划费用的百分之一。此后,第二代高通量测序技术的成熟和广泛应用,大大降低了基因组测序的成本,缩短了测序时间,让更多实验室可以独立开展动植物基因组测序项目。
                     

基因组从头测序(De novo sequencing)


技术路线

根据物种基因组的复杂度,特别是重复区域的大小和数量等信息,科学的制备各种长度插入片段的测序文库,合理的使用不同的高通量测序技术,能够高效经济的完成高等动植物的基因组图谱绘制。De novo测序的主要策略:一是对短片段Shotgun文库(300-1000 bp)进行深度测序,确保序列覆盖度和测序准确性,获得基因组基本序列信息;二是构建较长插入片段度的mate pair文库(3kb、8 kb、10 kb、20 kb等等)并测序,确定短片段序列间的相对位置,通过拼接组装获得基因组序列框架;三是通过PCR扩增技术获得序列间断开部分(gap)DNA片段并进行一代测序,从而获得完整基因组序列。

基因组从头测序(De novo sequencing)


生物信息分析
1.  基因组拼装统计
提供基因组拼装的基本信息,包括原始数据统计、测序覆盖率统计、Contig N50大小、Scaffold N50大小、基因组GC含量等信息。
2.  基因组注释
包括基因预测、基因功能注释(同NR、Swiss-Prot、Interpro等数据库进行同源比对)、重复序列分析及Non-coding RNA注释等。
3.  基因功能分类
GO分类、KEGG通路分析等。
4.  比较基因组学及进化分析
通过比较相近物种的基因组数据,从基因功能、基因组骨架结构、分子进化等方面对目标基因组进行分析。
5.  建立数据库
建立符合国际标准且具有良好兼容性的基因组数据库,实现基因组数据的查询与共享。
 
数据挖掘
1、动植物进化分析
基因家族鉴定(动物TreeFam、植物OrthoMCL);
物种系统发育树构建;
物种分歧时间估算(需要标定时间信息);
基因组共线性分析;
全基因组复制分析(动物WGAC、植物WGD)。
2、微生物高级分析
基因组圈图;
共线性分析;
基因家族分析;
CRISPR预测;
基因岛预测;
前噬菌体预测;
分泌蛋白预测。
 
技术指标
1. 动植物基因组指标
基因组大小(Genome Size, GS)   组装指标  
GS ≤ 300 Mb   Contig N50 > 20 kb, Scaffold N50 > 300 kb  
Contig N50 > 10 kb, Scaffold N50 > 150 kb  
300 Mb < GS ≤ 1500 Mb(鸟类除外)   Contig N50 > 20 kb, Scaffold N50 > 300 kb  
Contig N50 > 10 kb, Scaffold N50 > 150 kb  
1500 Mb < GS ≤ 3000 Mb
(哺乳动物除外)
  Contig N50 > 10 kb, Scaffold N50 > 150 kb  
Contig N50 > 5 kb, Scaffold N50 > 20 kb  
GS < 1600 Mb(鸟类 )   Contig N50 > 20 kb, Scaffold N50 > 300 kb  
GS < 3200 Mb
(哺乳类,除翼手目除外)
  Contig N50 > 20 kb, Scaffold N50 > 300 kb  
复杂基因组   Contig N50 > 20 kb, Scaffold N50 > 300 kb  



上一篇:优宁维:关于变更经营范围并修订《公司章程》
下一篇:遂宁市中心医院染色体高通量测序分析技术服务