Fusion带你深入了解融合基因



融合基因(fusion gene),是指两个基因的部分序列发生融合形成的嵌合基因,一般由于染色体易位、缺失等原因所致。这种嵌合基因会在后续的生物学过程中形成异常转录本或蛋白质,进而导致或者促进肿瘤的发生。举个例子,《我不是药神》中描述的慢性粒细胞白血病,其分子生物学特征就是检测到BCR-ABL融合基因;该融合基因翻译出的融合蛋白具有很强的酪氨酸激酶活性,会导致细胞过度增殖、细胞凋亡受抑制,进而出现各种病症。

因此,准确检测出融合基因/转录本,对于这类肿瘤疾病的预防、治疗和全面理解有重要的意义。在实际分析中,我们通过预测的融合基因位点信息,对“表达外显子组”的转录活性区域进行筛选,获取涉及转录序列突变和结构重排的证据,进而找到与其功能相关的癌症基因组的变化。

常规融合基因分析中,有下图两种常见策略[1]:

Fusion带你深入了解融合基因

图1 融合基因分析策略

1. 左侧步骤,识别基因组不一致的比对信息

将测序reads与基因组进行比对定位,从中寻找Junction/Spanning_reads;JunctionReadsCount指一条read覆盖在假定的融合连接位点处,可以拆分匹配到融合位点两侧基因的reads数目;

SpanningFragsCount指包含融合连接位点的reads数目,一对reads片段R1,R2两端对应的基因不同。

2. 右侧步骤,组装转录本

直接组装成更长的转录物序列,然后鉴定与染色体重排一致的融合转录本;可能大部分reads比对到融合位点的两侧,而没有直接覆盖到融合位点本身。

2、STAR-Fusion软件

目前已经有很多检测融合基因的软件,大都是基于以上两种方案进行预测分析。今天我们分享的是NCIP(美国国家癌症研究所癌症研究中心)推荐的STAR-Fusion。STAR-Fusion是利用STAR比对的融合输出结果来检测融合转录本的软件,在NCIP开发的分析流程中,通过该软件在第一步获取预测融合转录本。分析流程主要包括以下三部分:

展开全文

1. 将reads通过STAR比对到参考基因组,筛选出Junction reads(1条read含有两个基因融合断点的read )和Spanning reads (R1,R2比对到不同基因上的reads)作为候选融合基因序列。

2. 将候选融合基因与参考基因组注释文件比对,再根据overlap预测融合基因。根据最少reads支持准则以及利用校验工具FusionInspector进行进一步的矫正分析的结果。

3. 过滤预测结果,去除假阳性。

2.1 前期准备

除了二代测序reads,分析前还需要准备好CTAT的 人参考基因组数据库比对文件(也可根据物种生成比对数据库)。由于数据库一直在更新,数据库版本需和STAR软件的版本匹配。

Fusion带你深入了解融合基因

图2 参考基因组信息

2.2 从FASTQ文件开始STAR-Fusion

准备好基因组数据库和二代测序文件后,我们便可以通过STAR-Fusion,来进行融合基因的预测(策略1)。

分析中通过STAR,将reads比对到基因组,并通过各项硬指标筛选获取最合适的分析结果,例如剔除MT信息,限制FFPM最小值,剪接异构体分为多个条目等。输出结果为一个表格文件,示例如下:

Fusion带你深入了解融合基因

图3 融合基因分析结果

StarFusion 结果说明:

FusionName:融合基因名称;

JunctionReadsCount:包含在假定的融合连接位点处,一条read可以拆分匹配到两侧融合基因的reads数目;

SpanningFragsCount:包含融合连接的reads数目,reads片段的R1,R2两端对应的基因不同;

SpliceType:融合基因断点位置是否出现在参考转录本结构注释(例如gencode)所提供的参考外显子连接处;

Left/RightGene:融合基因左侧/右侧基因;

Left/RightBreakpoint:融合基因断点左/右侧染色体位置信息;

LargeAnchorSupport:在假定断点的两侧是否有reads的较长碱基序列(>=25bp)匹配,缺乏LargeAnchorSupport的融合基因通常是假阳性。

FFPM:支持融合的reads的标准化结果,即每百万总reads数的融合量;

Left/RightBreakEntropy:位于断点两侧的15个外显子碱基的“香农熵”。最大熵为2,最低为零,低熵位结果通常应被认为低可信度。

2.3 circlized 绘制圈图

结果表格内容太多,如何更直观的查看融合基因的分布呢?这里,我们可以使用R软件绘制染色体融合基因的circos图,其中红色连线指同一染色体的基因融合;蓝色连线指不同染色体的基因融合。

Fusion带你深入了解融合基因

图4 融合基因 染色体圈形图

3、进阶分析

分析结果这么多当然不够,我们还需要通过PCR、qPCR来进一步验证融合基因/融合序列在样本中的表达情况,那么如何获取融合序列呢?

3.1 FusionInspector 融合序列可视化

FusionInspector是STAR-Fusion高级分析的第一步,通过对融合基因的序列进行监督分析,拼接比对,进而协助分析人员发现可信度更高的融合转录本。




上一篇:河北大口塑料桶厂家使用特性
下一篇:全面解读 | 融合基因检测:DNA or RNA? PCR or NGS?