聊一聊 QTL 定位的原理



通过前两周的《本地化适应是怎么发生的?》和《突变是否影响个体的适应性?》了解了群体的核酸多样性后,我们接下来就开始要着手进行功能基因的定位了。工欲善其事,必先利其器。在我们可以自由选用各类实验设计前,我们需要了解各种方法的基本原理。让我们先从连锁分析开始。

1. 连锁分析的基本原理

既然群体中产生了多样性,我们就期望将与性状相关的基因定位出来。在之前的文章中,我们提到功能基因定位的方法主要包括QTL定位(包含GWAS)和群体遗传(选择压力分析)。这里的QTL定位是广义上的QTL定位,包括经典的连锁分析和关联分析。在这里,我们先介绍一下连锁定位的方法原理。

连锁分析,之所以被称为“连锁分析”,其本质还是利用功能基因与分子标记间的连锁与重组,实现对功能基因位置的定位。

例如下图中,Q基因型会导致个体变高,q基因型会导致个体变矮。我们可以看到,邻近的基因座Bb与Qq基因座连锁。B总是与Q连锁,导致B基因型的个体总是更高,对应b基因型的个体更矮。而远离Qq基因座的Ee基因座则没有这种现象。由于两者距离较远,彼此间没有必然的连锁关系(倾向自由重组),因此我们可以看到E基因座对应的既有高的个体,也有矮的个体。

在实际研究中,这些分子标记ABCDE都是位置已知的标记,但我们不知道Qq基因座的位置。如果通过数学的方法,我们发现Bb、Cc基因座与性状高矮相关,而其他基因座并非如此,我们就可以确定功能基因Qq就位于Bb和Cc之间。

要创造这样的1个基因型分离的人工群体,我们往往需要使用杂交的策略(两种不同的亲本杂交),在之前小师妹的微信文章《遗传图谱各种作图群体介绍》曾经介绍过各类作图群体的来源方式,感兴趣的读者可以再看看。

聊一聊 QTL 定位的原理

图1与功能基因的连锁与自由组合

2. 最简单的连锁分析方法

正如上文所说的,我们需要挖掘确认哪些分子标记与性状关联,从而进一步推断影响性状的功能基因与这类分子标记连锁,从而判断功能基因位于该分子标记附近。在统计学上,我们使用最简单的方差分析,也可以实现这样的推断。

展开全文

如图2,我们可以将整个群体按照Bb基因座的基因型分为BB基因型群体和bb基因型群体的两个子群体。如果我们使用方差分析证明子群体BB的平均身高显著大于bb,则证明Bb基因座与性状相关。类似,我们将会发现按照Ee基因座分类的两个子群体在平均身高上则没有区别。这样我们就可以推断,由于Bb基因座与性状相关,那么决定身高的基因座Qq应该位于Bb附近,这样就实现了QTL初步定位。

聊一聊 QTL 定位的原理

图2 使用方差分析进行单标记分析

3. 略复杂一点的连锁分析方法

再看看图1的示意图,我们是否可以将其看成1个线性回归方程组:

身高 = u+A*GT_A+B*GT_B+C*GT_C+D*GT_D+ E*GT_E

#方程1

其中u为群体均值(也就是方程的截距),系数A是A基因座的遗传效应,GT_A是Aa基因座的基因型,可能是aa、Aa、AA,当然数学上可以使用0,1,2替代。其中,系数A、B、C、D、E都是待求解的变量。

如果求解这个多元线性方程组,我们将发现A、D、E均为0(效应为0),而B、C则显著大于0,则一样推断Bb和Cc基因座对身高是有贡献的。那么,它们为什么对身高有贡献呢?因为它们与功能基因连锁啊,由此我们知道了功能基因的初步位置。这就是QTL定位中的线性回归模型。

4. 实际使用的简单的线性回归模型

以上的方程组在实际情况中,将可能会面临自变量的数量(标记数量)大于因变量(样本数),那么这个方程是不可准确求得唯一解的。所以,通常会将多元线性回归方程简化为一元线性回归方程组。例如,针对Aa基因座,我们可以构建一个方程组如下:

身高 = u+A*GT_A+e # 方程2

其中,e是随机误差效应。那么在这里的案例中,方程1就可以拆解为针对5个不同分子标记的方程2,从而一一求解每个标记/区间的效应。因为,这只是个简单的一元线性回归方程,求解起来是非常简单快速的。

这就是在连锁分析中常用的区间作图定位法(interval Mapping)的基本原理。

5. 实际应用最广的线性回归模型




上一篇:重测序BSA+KASP策略定位番茄抗病基因Cf
下一篇:小麦BSR‑Seq基因定位的方法与流程