第2周:RNA-seq数据分析最佳实践



1. 摘要

  RNA测序(RNA-seq)具备普遍的应用,但没有统一的分析流程能适用于全部状况。咱们回顾了RNA-seq数据分析的全部主要步骤,包括实验设计,质量控制,序列比对,基因和转录水平的定量,可视化,差别基因表达,可变性剪接,功能注释,基因融合检测和eQTL定位。数据库

2. 背景

RNA-seq的强大之处在于既能发现(好比新的转录本)又能定量(好比基因的差别表达);

实验设计和分析流程须要具体状况具体分析;

每一个RNA-seq实验方案均可能具备不一样的最佳方法用于转录本定量,标准化和最终的差别表达分析。

图1 RNA-seq信息分析的通用路线图。主要分析步骤列在预分析,核心分析和高级分析的上方。a预处理包括实验设计,测序设计和质量控制步骤。 b核心分析包括转录组分析,差别基因表达和功能分析。 c高级分析包括可视化,其余RNA-seq技术和数据整合。缩写:ChIP-seq染色质免疫沉淀测序,eQTL表达数量性状基因座,FPKM等于Fragments / (外显子长度*Mapped Reads),GSEA基因富集分析,PCA主成分分析,RPKM等于total exon reads/ (mapped reads (Millions) * exon length(KB)),sQTL剪接数量性状基因座,TF转录因子,TPM每百万转录本。浏览器

3. 实验设计

文库类型:单端、双端,insert size

读长:二代、三代

测序深度(测序量):取决于研究的转录本的复杂性,并非越多越好

生物学重复:3个以上吧(取决于实验设计)

RNA提取:真核生物能够利用poly(A)针对性选择以及rRNA降解的方式来富集mRNA;原核生物只能利用后者

较便宜的短SE reads一般足以用于研究注释良好的物种中的基因表达水平,而较长和PE reads优先用于研究缺少注释的转录组。app

饱和曲线(Saturation curves):评估在给定测序深度下预期的转录组覆盖度工具

对测序实验进行适当规划以免技术误差与良好的实验设计一样重要,特别是当实验涉及须要分批处理的大量样品时。性能

4. RNA-seq数据分析 4.1 质量控制 4.1.1 Raw reads

涉及测序质量,GC含量,adaptor,不合适的k-mers和PCR重复的分析,进而检测是否存在测序错误,PCR人为偏差或污染。
工具:FastQC、NGSQC、FASTX-Toolkit、Trimmomatic学习

4.1.2 Read alignment

比对率:the percentage of mapped reads,总体测序准确性和污染DNA存在的全局指标
原文此处举了一个例子,须要理解一下:测试

RNA-seq reads比对到人类基因组上,比对率指望是70%到90%,同时因为序列的类似性,一条reads能够同时比对到多个位置,所以存在多比对reads。
可是当reads比对到转录组时,比对率会小一些,由于落在未注释的转录本区域(存在可是暂时尚未发现的那些)的reads会被咱们忽略。同时,因为存在一个基因有不止一个转录本,且不一样的转录本共享外显子区域(常见)的状况,故一个reads能够比对到多个转录本上(常见),因此多比对reads明显增多。编码

覆盖度的均一性:不一样的外显子上,正负链上翻译

poly(A)针对性选择富集mRNA以后,若是reads主要集中在转录本的3'末端,可能代表起始材料中的RNA质量低。

比对上的reads的GC含量能够用来揭示PCR偏向性。我是这样理解的,下图就是一个例子,不一样的GC含量对应的测序深度不同,极可能就是因为GC含量的差别引发了PCR的偏向。

工具:Picard、RSeQC、Qualimap

4.1.3 Quantification

一旦计算出实际的转录本定量值,就应检查它们的GC含量和基因长度误差,以便在必要时能够应用校订标准化方法。
若是参考转录组被很好地注释,还能够分析样品的RNA组成,以此来评估RNA纯化的质量。

工具:R包(NOISeq、EDASeq等)

4.1.4 Reproducibility(可再现性)

经过检查重复之间的可再现性和可能的批次效应来评估RNA-seq数据集的全局质量也是相当重要的。
若是基因表达差别存在于不一样的实验条件之间,则应该能够预知相同条件的生物学重复将在主成分分析(PCA)中汇集在一块儿。

4.2 转录本鉴定


上一篇:2021年度山西省重点研发计划(农业领域)拟立项
下一篇:生命的神奇元素