通过母亲血浆DNA的浅深度测序准确定量胎儿DNA分




通过母亲血浆dna的浅深度测序准确定量胎儿dna分数
1.相关申请的交叉引用
2.本技术要求2015年9月22日提交的美国申请62/222,157的优先权,其内容通过引用并入本文用于所有目的。


背景技术:

3.母亲血浆中的循环游离胎儿dna的发现[lo ym(the discovery of circulating cell-free fetal dna in maternal plasma)等人(1997),lancet,350:485-487]催化了一系列无创产前诊断的新途径,包括胎儿rhd血型基因分型[lo ym等人(1998),新英格兰医学杂志(n engl j med),339:1734-1738,finning k等人(2008),英国医学杂志(bmj),336:816-818]、用于伴性障碍的胎儿性别鉴定(fetal sex determination for sex-linked disorders)[costa jm,benachi a,gautier e(2002),新英格兰医学杂志(n engl j med),346:1502]、染色体非整倍性检测[lo ym等人(2007),美国科学院院报(proc natl acad sci u s a.)104:13116-13121;chiu rw等人(2008),美国科学院院报(proc natl acad sci u s a.)105:20458-20463;chiu rw,cantor cr,lo ym(2009),遗传学进展(trends genet),25:324-331;fan hc等人(2008),美国科学院院报(proc natl acad sci u s a.),105:16266-16271;chiu rw等人(2011),英国医学杂志(bmj)342:c7401;yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588],以及单基因疾病的检测[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91;lam kw等人(2012),临床化学(clin chem.);new mi等人(2014),临床内分泌学与代谢杂志(the journal of clinical endocrinology&metabolism),99:e1022-e1030;yoo s-k等人(2015),临床化学(clinical chemistry);ma d等人(2014),基因(gene),544:252-258;tsui n等人(2011),血液(blood),117:3684-3691]。
[0004]
在前述的应用中,胎儿dna分数(也称为分数胎儿dna浓度或胎儿dna百分比)的准确扣除对于通过使用血浆dna的无创产前诊断的结果的准确统计解释是重要的,特别是在取决于这个参数的统计模型用于检测染色体非整倍性的情况下[sparks ab等人,(2012),美国妇产科杂志(am j obstet gynecol),206:319 e311-319]以及鉴定单基因疾病遗传的情况下[lo ym等人(2007),美国科学院院报(proc natl acad sci u s a.)104:13116-13121;lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91;lam kw等人(2012),临床化学(clin chem.);new mi等人(2014),临床内分泌学与代谢杂志(the journal of clinical endocrinology&metabolism),99:e1022-e1030;yoo s-k等人(2015),临床化学(clinical chemistry);tsui nb等人(2011),血液(blood),117:3684-3691]。例如,胎儿dna分数是用于准确确定哪种母亲单倍型传送给胎儿的相对单倍型剂量分析(rhdo)的中心参数[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91;lam kw等人(2012),临床化学(clin chem.);new mi等人(2014),临床内分泌学与代谢杂志(the journal of clinical endocrinology&metabolism),99:e1022-e1030]。在该诊断方法中,基本原理是传送给胎儿的母亲单倍型的相对剂量会比未传送者稍微过表现以及胎儿
dna分数用于确定过表现的统计显著性。
[0005]
迄今为止,已经开发了许多方法来估计孕妇的母亲血浆中分数胎儿dna浓度。例如,来源于y染色体的特异性信号用以推断携带男性胎儿的孕妇中的胎儿dna分数[chiu rw等人(2011),英国医学杂志(bmj)342:c7401;lo ym等人(1998),美国人类遗传学杂志(am j hum genet),62:768-775;lun fm等人(2008),临床化学(clin chem)54:1664-1672;hudecova i等人(2014),公共科学图书馆期刊(plos one),9:e88484]。然而,基于y染色体特异性信号的方法不适用于怀有女性胎儿的孕妇。另一种方法是使用单核苷酸多态性(snp),使得计算胎儿特异性等位基因与共有等位基因的比率以推断胎儿dna分数。在这种方法中,基因型信息必须是已知的,并且应该符合以下情况中的一种:(a)母亲是纯合的而胎儿是杂合的;(b)父亲和母亲基因型都是纯合的,但具有不同的等位基因[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91;liao gj等人(2011),临床化学(clin chem),57:92-101]。但是,一方面,在无创产前诊断的实际临床情形中,胎儿基因型不可事先获得。另一方面,父亲差异的发生率可高达30%,这通过世界各地对父亲差异的流行病学研究得出[bellis ma,hughes k,hughes s,ashton jr(2005)流行病学与社区卫生杂志(j epidemiol community health),59:749-754],这限制了用于数据分析的父亲dna的可用性。即使通过利用跨越不同snp位点的母亲血浆dna的高深度测序(例如母亲血浆dna的靶向测序)开发独立于亲本基因型的算法以避免额外基因型信息的先决条件[jiang p等人(2012),生物信息学(bioinformatics),28:2883-2890],也需要额外的努力来捕获一组感兴趣的区域,例如,通过使用基于杂交或基于扩增子的富集系统[sparks ab等人,(2012),美国妇产科杂志(am j obstet gynecol),206:319e311-319;liao gj等人(2011),临床化学(clin chem),57:92-101]。
[0006]
除了取决于snp的方法外,还在探索不取决于snp的方法。例如,母亲血浆dna的片段尺寸可以用于估计胎儿dna分数[yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588;kim sk等人(2015),产前诊断(prenatal diagnosis):n/a-n/a],因为源自胎儿的dna通常比母源dna更短[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91]。然而,其它一些病情将会影响基于尺寸的胎儿dna分数估计的准确性,例如系统性红斑狼疮[chan rw等人(2014),美国科学院院报(proc natl acad sci u s a),111:e5302-5311]。或者,胎儿特异性表观遗传变化,例如甲基化rassf1a和非甲基化serpinb5序列,被证明是用于胎儿dna分数预测的胎儿标记,而不管基因型信息如何[chan kc等人(2006),临床化学(clin chem),52:2211-2218;chim ss等人(2005),美国科学院院报(proc natl acad sci u s a),102:14753-14758]。但是,用于定量这些表观遗传标记的分析步骤涉及亚硫酸氢盐转化或用甲基化敏感性限制酶消化,因此可能影响这些方法的精确度。
[0007]
因此,需要新技术以从母亲血浆提供胎儿dna分数信息。


技术实现要素:

[0008]
本发明的实施例提供了用于推导母亲血浆中的胎儿dna分数的方法、系统和装置。可以在无需具体确定父亲或胎儿基因型的情况下确定胎儿dna分数。可以确定单独的参数,并且可以使用校准曲线来确定实际胎儿dna分数。例如,可以确定具有名义上被鉴定为非母
亲等位基因的等位基因的读取的量与具有名义上被鉴定为母亲等位基因的等位基因的读取的量的比率。作为另一个实例,可以确定显示名义上非母亲等位基因的基因座的量与由单独的数据集确定的纯合母亲基因座的量的比率。也可以使用读取尺寸的差异。基因座(位点)可以限于在群体中已知的杂合基因座。
[0009]
母亲基因型信息可以由仅有母亲dna的样品获得,或者可以从具有母亲和胎儿dna分子两者的生物样品的测序(例如,在浅深度处)假定。实际或假定的母亲基因型信息可以与来自生物样品的dna分子的测序组合。尽管可能并不明确地知道母亲在特定基因座是纯合的或者胎儿是杂合的,但是实施例可以使用在此类位点处的读取来确定单独的参数,这是与先前技术的区别。任何误差都被证实是一致的,从而可以通过校准曲线进行补偿,校准曲线可以使用单独的技术产生一次以确定胎儿dna分数。
[0010]
因为测序可处于浅深度,所以即使存在非母亲等位基因,基因座可以仅有很少的读取,并且可以无法显示非母亲等位基因。然而,表征经测序的非母亲等位基因的归一化参数可用于提供对胎儿dna分数的准确估计,即使在一个基因座或所有基因座处的非母亲等位基因的量不代表胎儿dna分数。这些归一化参数可以包括具有非母亲等位基因的序列读取的量或具有非母亲等位基因的基因座的量。本文所述的方法可不需要对特定区域进行高深度测序或富集。因此,这些方法可以纳入到广泛使用的无创产前检测和其它诊断中。
[0011]
一些实施例涉及与本文描述的方法相关联的系统和计算机可读介质。
[0012]
更好地理解本发明实施例的本质和优点
附图说明
[0013]
图1是根据本发明的实施例的使用母亲基因型测量分数胎儿dna浓度的示意图。
[0014]
图2a显示根据本发明的实施例的由来自第一数据集的训练数据集构建的实际胎儿dna分数和非母亲等位基因分数的线性回归模型。
[0015]
图2b显示根据本发明的实施例的使用独立数据集的图2a中回归模型的验证。
[0016]
图3a显示根据本发明的实施例的由来自第二数据集的训练数据集构建的实际胎儿dna分数和非母亲等位基因分数的线性回归模型。
[0017]
图3b显示根据本发明的实施例的使用独立数据集的图3a中回归模型的验证。
[0018]
图4a显示根据本发明的实施例的第一数据集的实际胎儿dna分数与估计的胎儿dna分数之间的偏差。
[0019]
图4b显示根据本发明的实施例的第二数据集的实际胎儿dna分数与估计的胎儿dna分数之间的偏差。
[0020]
图5显示根据本发明的实施例的相对预测误差与实际胎儿dna分数之间的关系图。
[0021]
图6a、6b、6c和6d显示根据本发明的实施例的在各种测序深度处的胎儿dna分数预测的准确度。
[0022]
图7显示根据本发明的实施例的使用读取量测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法。
[0023]
图8显示根据本发明的实施例的测量胎儿dna分数而不获得母亲基因型、父亲基因型或仅包含母亲dna分子的生物样品的图示。
[0024]
图9显示根据本发明的实施例的使用各种量的基因座测量怀有胎儿的孕妇的生物
样品中的胎儿dna分数的方法。
[0025]
图10a显示根据本发明的实施例的来自胎儿dna分数和表观等位基因差异(aad)值的线性回归模型的校准曲线。
[0026]
图10b显示根据本发明的实施例的基于胎儿dna分数和短dna分子比例的线性回归图。
[0027]
图10c显示根据本发明的实施例的由aad值确定的胎儿dna分数相对于基于源自y染色体的读取的比例的胎儿dna分数的图。
[0028]
图11显示根据本发明的实施例的测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法。
[0029]
图12a、12b、12c和12d说明根据本发明的实施例的母亲与非母亲等位基因的dna分子尺寸之间的关系。
[0030]
图13显示根据本发明的实施例的使用尺寸值测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法。
[0031]
图14是根据本发明的实施例的对六组不同的双胞胎计算的胎儿dna分数的表格。
[0032]
图15是根据本发明的实施例的胎儿dna分数与显示尺寸差异的基因座之间的关系图。
[0033]
图16显示根据本发明的实施例的使用各种量的、具有特定尺寸的dna分子的基因座测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法。
[0034]
图17显示根据本发明的实施例的可与系统和方法一起使用的示例计算机系统的框图。
[0035]
图18显示根据本发明的实施例的测序系统。
[0036]
图19显示根据本发明的实施例的计算机系统。
[0037]
术语
[0038]
如本文所用,术语“基因座”或其复数形式是在基因组之间具有变异的、具有任何长度的核苷酸(或碱基对)的位置或地址。“序列读取”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如,序列读取可以是从核酸片段测序的一短串核苷酸(例如20-150),在核酸片段的一端或两端的一短串核苷酸,或生物样品中存在的整个核酸片段的测序。序列读取可以多种方式获得,例如使用测序技术或使用探针,例如在杂交阵列或捕获探针中,或扩增技术,例如聚合酶链式反应(pcr)或使用单一引物的线性扩增或等温扩增。
[0039]“生物样品”是指从受试者(例如,人类,例如孕妇、癌症患者、或疑似患有癌症的人、器官移植接受者或疑似患有涉及器官的疾病过程的受试者(例如,心肌梗塞的心脏,或中风的大脑,或贫血的造血系统)获得,并含有一种或多种感兴趣的核酸分子的任何样品。生物样品可以是体液,例如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰液、支气管肺泡灌洗流体、乳头的排出流体、身体的不同部位(例如甲状腺、乳房)的抽吸流体等。也可以使用粪便样品。在各种实施例中,已富集游离dna的生物样品中的大部分dna(例如,通过离心方案获得的血浆样品)可以是游离的,例如,大于50%、60%、70%、80%、90%、95%或99%的dna可以是游离的。离心方案可以包括例如3,000g
×
10分钟,获得流体部分,再在例如30,000g下再离心10分钟以除去残留细胞。样品中的游离dna可以来源于各种组织的细胞,因此样品可以包含游
离dna的混合物。
[0040]“核酸”可以指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其聚合物。该术语可以涵盖含有已知核苷酸类似物或经修饰的主链残基或键的核酸,其是合成的、天然存在的和非天然存在的,其具有与参照核酸相似的结合特性,并且以类似于参照核苷酸的方式代谢。该类似物的实例可包括但不限于硫代磷酸酯、亚磷酰胺、膦酸甲酯、手性膦酸甲酯、2-o-甲基核糖核苷酸、肽-核酸(pna)。
[0041]
除非另外指出,否则特定的核酸序列也隐含地涵盖其被保守修饰的变体(例如,简并密码子取代物)和互补序列以及明确指出的序列。具体而言,简并密码子取代物可以通过产生其中一个或多个选择的(或全部)密码子的第三位置被混合碱基和/或脱氧肌苷残基取代的序列来实现(batzer等人,核酸研究(nucleic acid res.)19:5081(1991);ohtsuka等人,生物化学杂志(j.biol.chem.)260:2605-2608(1985);rossolini等人,分子和细胞探针(mol.cell.probes)8:91-98(1994))。术语核酸可与基因、cdna、mrna、寡核苷酸和多核苷酸互换使用。
[0042]
除了涉及天然存在的核糖核苷酸或脱氧核糖核苷酸单体之外,术语“核苷酸”可以被理解为是指其相关的结构变体,包括衍生物和类似物,其在功能上等同于其中正在使用核苷酸的特定上下文(例如,与互补碱基杂交),除非上下文另有明确说明。
[0043]“序列读取”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如,序列读取可以是在生物样品中存在的整个核酸片段。序列读取可以从单分子测序获得。
[0044]“分类”是指与样品的特定特性相关联的任何数值或其它字符。例如,“+”符号(或单词“正”)可以表示样品被分类为具有删除或扩增。分类可以是二元的(例如,正或负)或者具有更多等级的分类(例如,1到10或0到1的等级)。术语“截止”和“阈值”是指操作中使用的预定数值。例如,截止尺寸可以指高于其上片段被排除的尺寸。阈值可以是特定分类应用的高于或低于其的值。这些术语中的任一个可以在这些情况的任一种下使用。
[0045]
术语“尺寸概貌”通常涉及生物样品中dna片段的尺寸。尺寸概貌可以是提供各种尺寸的一定量的dna片段的分布的直方图。可以使用各种统计参数(也称为尺寸参数或恰好参数)来区分一个尺寸概貌与另一个尺寸概貌。一个参数是特定尺寸或尺寸范围的dna片段相对于所有dna片段或相对于另一个尺寸或范围的dna片段的百分比。
具体实施方式
[0046]
使用母亲血浆dna的大规模平行测序的无创产前测试(nipt)越来越被认为是现代产前诊断中的重要组成,并且已经被迅速用于世界范围内的临床应用。为了保证这种无创产前诊断的准确解释,胎儿dna分数成为待测量的关键参数。虽然已经开发了各种方法来估计这个参数,但是通用和广泛适用的方法却很少。
[0047]
一些实施例允许使用实际或假定的母亲基因型和母亲血浆的随机大规模平行测序来精确估计胎儿dna分数。胎儿dna分数可以与表征生物样品中非母亲物质的量的参数有关。非母亲物质的量可以被计算为非母亲的序列读取的分数,或具有非母亲等位基因的基因座的比例。在这些计算中的任一种中,参数不能准确地表示实际的胎儿dna分数。测序可以在浅深度处进行,使得并非所有存在的非母亲等位基因都可以进行测序。另外,序列读取的非母亲分数的计算可以包括在没有非母亲等位基因的位点处的读取。然后在计算非母亲
分数时包括这些序列读取将包括潜在的纯合位点,其通常不会用于常规方法来确定胎儿dna分数。类似地,计算具有非母亲等位基因的基因座的比例可以包括使用许多潜在的纯合基因座,其在计算胎儿dna分数的常规方法中通常不被认为是重要的。
[0048]
但是,发现胎儿dna分数与源自孕妇血浆中母亲纯合基因座的非母亲等位基因分数有关,即使非母亲等位基因分数不能精确地说明所有非母亲等位基因。此外,发现胎儿dna分数与具有非母亲等位基因的基因座的比例相关,甚至当序列读取不显示具有非母亲等位基因的所有基因座时也是如此。这些方法用实验数据进行验证。使用浅深度测序,方法可能比传统方法更高效并更经济。此外,这些方法不依赖于父亲基因型或胎儿的特定遗传性状,因此这些方法可广泛应用于任何怀孕女性。这些方法还可以进一步增强无创产前检测的临床解释。
[0049]
i.使用序列读取的量分析dna
[0050]
可以对仅母亲dna进行测序,并将其与含有母亲dna和胎儿dna两者的样品中的dna进行比较以估计胎儿dna分数。可以对仅母亲dna进行测序以鉴定纯合位点。然后可以对含有母亲dna和胎儿dna的混合物的样品(例如,母亲血浆或血清)进行测序。在混合物中,一些鉴定的纯合位点可以具有非母亲等位基因的序列读取,而其它鉴定的纯合位点可以具有仅与母亲等位基因相同的等位基因的序列读取。可以使用非母亲等位基因和与母亲等位基因相同的等位基因的这些读取来计算非母亲分数。可能在分母中包含只具有与母亲等位基因相同的等位基因的位点的这种非母亲分数可能不等于实际胎儿dna分数。但是,这种非母亲分数可能与胎儿dna分数有关。较高的胎儿dna分数可能导致较高的非母亲分数。胎儿dna分数和非母亲分数的校准曲线可用于将胎儿dna分数的估计值与针对样品计算的非母亲分数相关联。
[0051]
但是,含有母亲dna和胎儿dna两者的样品可以在浅深度处测序,基因座可能具有仅一个或两个读取。即使母亲dna和胎儿dna两者的样品中的读取显示与母亲等位基因相同的等位基因,也不能以高统计学可信度确定该位点在胎儿中是纯合的,因为胎儿非母亲等位基因可能已经存在但只是没有在几个读取中显示。浅深度测序则可能低估胎儿dna中非母亲等位基因的实际数目。
[0052]
即使非母亲等位基因的分数可能不是非母亲等位基因的实际分数,该分数也可以与校准曲线一起使用以获得准确的胎儿dna分数。发现胎儿dna分数与非母亲分数相关,即使该分数被低估或否则不包括非母亲等位基因的精确计数。较高的胎儿dna分数增加了非母亲等位基因被测序的可能性,从而增加了非母亲分数。因此,即使在浅深度处,非母亲分数与胎儿dna分数之间的关系也可以在校准曲线中表示,并用于估计胎儿dna分数。
[0053]
a.非母亲分数和校准曲线
[0054]
含有母亲dna和胎儿dna的样品的非母亲分数是具有非母亲等位基因的第一读取量与第二读取量的比率。两个读取量可以在母亲基因组的某些位点处,包括已知具有高度杂合可能性的位点(即,具有snp的位点)。第二读取量可以包括来自具有母亲等位基因的dna混合物样品的读取。在一些实施例中,第二量可以是在所述位点处的总读取量,其中总量是第一量和具有母亲等位基因的读取的总和。
[0055]
这种非母亲分数可能不等于存在于生物样品中的非母亲等位基因的实际分数。相反,非母亲分数反映了在母亲血浆中是非母亲等位基因的测序读取。因此,非母亲分数可能
取决于测序误差、基因分型误差、母亲是纯合的以及胎儿是杂合的位点(信息性snp位点)的基础数目、以及胎儿dna分数。结果显示,测序误差、基因分型误差和信息性位点的基础数目是相对恒定的。因此,胎儿dna分数可以由非母亲等位基因分数确定。
[0056]
图1显示非母亲分数用于确定胎儿dna分数的用途。在母亲dna中鉴定出纯合位点。对母亲血浆进行测序,并在鉴定的纯合位点处计数等位基因的读取。即使在一些位点处没有对非母亲等位基因进行测序,非母亲分数也由这些位点处的等位基因的读取的总和计算。然后可以将得到的非母亲分数与先前测量的分数胎儿dna浓度和先前计算的非母亲分数的校准曲线进行比较。可以获得估计的分数胎儿dna浓度。
[0057]
在第110节处,母亲基因型是从母亲组织获得的,例如通过使用基于微阵列的基因分型技术分析血沉棕黄层或口腔拭子样品。在其它实施例中,也可以使用包含胎儿和母亲dna的混合物的样品进行母亲基因型分析。
[0058]
第110节显示母亲基因型中的纯合位点。每个位点具有两个a等位基因,如框图所示。a等位基因可能是或可能不是具有a核苷酸的snp的结果。虽然第110节在母亲基因组中没有显示杂合位点,但杂合位点可能位于纯合位点之间。纯合位点可能仅限于已知具有单核苷酸多态性(snp)的位点,其可以在例如dbsnp或hapmap的数据库中鉴定。表现纯合的母亲位点可以从基因分型信息中鉴定,并与按参照基因组进行校准。基因分型可以使用任何合适的基因分型技术进行,例如使用测序(其可以包括与参照基因组的校准)、靶向测序、基于扩增子的测序、质谱法、微滴数字pcr、杂交阵列或微阵列。
[0059]
所使用的纯合位点的数目可以取决于所使用的微阵列平台。例如,对于affymetrix,有~700,000个纯合位点,而对于beadchip,有~200万个。因此,实施例有足够的位点集中于snp位点而不是整个基因组中的任何位点,但是后者是可能的。
[0060]
在第115节处,对母亲血浆dna进行测序。母亲血浆包括许多dna片段,其可以包括来自所鉴定的纯合位点的等位基因。第115节显示具有a等位基因(存在于纯合位点的母亲等位基因)的片段和具有b等位基因(不存在于纯合位点的非母亲等位基因)的片段。母亲血浆dna可以用大规模平行测序进行测序。母亲血浆dna可以在浅深度处进行测序。例如,测序读取的数目可以小于单倍体人类基因组的0.1x、0.2x、0.3x、0.4x、0.5x、0.8x、1x、1.5x、2x、3x、4x、5x和10x覆盖率。读取的数目可以少于或等于5000万个读取,包括少于或等于3000万个读取、2000万个读取、1500万个读取、少于或等于1000万个读取、少于或等于800万个读取、少于或等于500万个读取、少于或等于400万个读取、少于或等于200万个读取或少于或等于100万个读取。在第110节中获得的序列读取也可以在浅深度处确定。因此,纯合的基因型可能不准确(即,女性可能在被鉴定为纯合的位点中的一处具有b),但是结果显示这样的不准确性在样品之间是一致的,从而允许校准曲线以所需准确度提供胎儿dna分数。
[0061]
在第120节处,将来自母亲血浆(或具有母亲和胎儿dna的混合物的其它样品)的序列读取映射到参照基因组。可以仅对母亲基因组中经鉴定的纯合位点进行映射。与纯合位点的校准区分了通常来自父亲贡献的b非母亲等位基因,但是可能与测序误差、新生突变以及本文提到的其它实例有关。如上所述,在第110节处的基因分型在浅深度处进行的情况下,b等位基因也可以来自母亲。
[0062]
然后对a母亲等位基因和b非母亲等位基因两者总计母亲血浆的序列读取。总计在鉴定的纯合位点处具有b非母亲等位基因的序列读取。即使在特定位点处没有测序b非母亲
等位基因,总计在鉴定位点处具有a母亲等位基因的序列读取。
[0063]
在第130节处,确定非母亲等位基因分数。为了计算非母亲等位基因分数,由第120节中的读取获得在纯合位点处具有b非母亲等位基因的序列读取的总数,σb。由第120节中的读取获得具有b非母亲等位基因或a母亲等位基因的序列读取的总数,σ(a+b)。将非母亲等位基因分数计算为具有b非母亲等位基因的序列读取的总数与具有a母亲等位基因或b非母亲等位基因的序列读取的总数的比率,将比率转换为百分比:
[0064][0065]
也可以使用其它相关的分数或百分比。例如,具有b非母亲等位基因的序列读取的总数可以除以仅具有a母亲等位基因的序列读取的总数的总和。也可以使用文中描述的任何分数的倒数。
[0066]
实际上,非母亲等位基因的分数由胎儿dna分数以及测序和基因分型误差控制。假设来自基因分型和测序平台的误差是在某情况下相对恒定的系统性误差,则分数胎儿dna浓度与在母亲血浆中测量的非母亲等位基因的分数成比例。胎儿dna分数可以通过分析非母亲等位基因的分数来预测。
[0067]
在第140节处,显示了用于由非母亲等位基因分数获得分数胎儿dna浓度的校准曲线。校准曲线可以具有各种功能形式,例如线性、二次或任何多项式。第140节显示线性校准曲线,x为非母亲分数,由等式(1)计算,y为分数胎儿dna浓度,α为线斜率,β为线的y轴截距。
[0068]
为了建立校准曲线,实施例可以使用具有已知胎儿dna分数(例如,由y染色体估计,基于信息性snp位点等)的一系列样品。对于每个具有已知胎儿dna分数的样品,测量非母亲等位基因分数。可以确定已知的胎儿dna分数值与测量的非母亲分数的函数拟合,并将其用作校准曲线。这些样品可以被称为校准样品。
[0069]
在各种实施例中,校准值可以对应于由校准样品确定的校准数据点的校准值或由其确定的任何校准值,例如近似于校准数据点的校准函数。一个或多个校准样品可以包括或可以不包括用于确定优选末端位点的任何额外样品。
[0070]
对于一个或多个校准样品中的每一个,可以例如使用组织特异性等位基因来测量第一组织类型的对应比例贡献。可以使用相应数目的游离dna分子来确定相应的相对丰度,所述游离dna分子在对应于第一组基因组位置的多个窗口内终止。测量的比例贡献和相对丰度可以提供校准数据点。一个或多个校准数据点可以是形成近似于多个校准数据点的校准函数的多个校准数据点。校准值的使用的更多细节可以在美国专利公布2013/0237431中找到。
[0071]
在确定非母亲等位基因分数时,即使不知道胎儿是否真正具有非母亲等位基因或者非母亲等位基因是否是误差,也可以对在一个位点处具有非母亲等位基因的每个读取进行计数。在一些实施中,在使用位点前可能不需要最小数目的非母亲等位基因,否则将用作测试以确定等位基因不是误差。另外,不具有非母亲等位基因的序列读取的位点仍然可以用于确定非母亲等位基因分数。例如,即使母亲血浆dna中的一些位点仅具有母亲等位基因的序列读取,母亲等位基因的这些读取仍可能出现在等式(1)中用于计算非母亲等位基因分数的分母中。因为计算包括可能不具有非母亲等位基因的位点,所以所得到的非母亲等位基因分数可能不反映实际的非母亲等位基因分数。
[0072]
为了确保更高的准确性,实施例可以过滤出携带dbsnp数据库中未注释的位点的等位基因的读取,例如,假定所用的所有snp是双等位基因的。例如,snp位点在dbsnp数据库中被注释为a/c。过滤出血浆中所见的携带“g”的读取,但该位点仍然可以用作其它正在被分析的读取的参照。这可以减少测序误差影响。此外,过滤出在不被注释为snp位点的位点处的所有读取。
[0073]
b.校准曲线的训练和验证
[0074]
使用母亲血浆样品来验证非母亲等位基因分数在估计胎儿dna分数中的用途。一些样品被用作训练数据集,以产生作用胎儿dna分数对非母亲等位基因分数的校准曲线。对于剩余的样品,确定每个样品的非母亲等位基因分数,然后基于由初始样品产生的校准曲线估计胎儿dna分数。然后将剩余样品的估计的胎儿dna分数与实际的胎儿dna分数进行比较,以验证使用非母亲等位基因分数的准确度。
[0075]
1.数据集
[0076]
使用两个数据集来检验关于胎儿dna浓度是否可以由母亲血浆中测量的非母亲等位基因的分数来确定的假设。对于第一数据集,总共有35个样品通过affymetrix基因分型微阵列(affymetrix genome-wide human snp array 6.0系统)进行基因分型,并通过genome analyzer iix(illumina)以36个循环的配对末端模式进行测序,分别如[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91]和[yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588]所述。在通过affymetrix基因分型平台询问的906,600个snp之间平均获得671,206个(范围635,378-682,501)纯合位点。同时,在使用sopa2将配对末端测序读取映射到参照人基因组后[yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588;li rq等人(2009),生物信息学(bioinformatics),25:1966-1967],得到用于随后分析的样品的12,961,498个(范围7,728,645-23,454,296)可校准的和非重复的中值。近1300万个读取的中值相当于约0.3x覆盖率。
[0077]
第二数据集具有比第一数据集更高的读取数目和样品数目。对于第二数据集,共有70个样品通过beadchip阵列(illumina)进行基因分型,并通过hiseq 2000测序仪(illumina)(50bp x 2)进行测序[stephanie c等人(2013),临床化学(clinical chemistry)]。在通过beadchip阵列(illumina)询问的2,351,072个snp之间平均获得1,940,577个(范围1,925,282-1,949,532)纯合基因座。校准后,得到样品的69,959,574个(范围26,036,386-94,089,417)可校准的和非重复的中值。近7000万个读取对应于约2.3x覆盖率。为了评估胎儿dna分数预测的性能,将估计的胎儿分数与通过使用胎儿基因型作为标准(称为实际胎儿dna分数)确定的胎儿dna分数进行比较。
[0078]
2.非母亲等位基因分数计算
[0079]
使用等式(1)计算每个样品的非母亲等位基因分数。对于从仅对母亲样品进行基因分型鉴定的纯合位点,计数来自相应的母亲血浆样品的读取的数目。将所鉴定的纯合位点处具有非母亲等位基因的读取的数目总和除以纯合位点处的读取的总数(即,具有非母亲等位基因或母亲等位基因的读取),然后转换成百分比。
[0080]
3.分数胎儿dna浓度估计
[0081]
为了确认分数胎儿dna浓度与母亲血浆中非母亲等位基因的分数成比例,将每个
数据集随机分开,一些样品在训练集中,其余样品在独立的验证集中。使用线性回归来通过分别分析第一数据集和第二数据集的训练集中的12个和23个样品,建模母亲血浆中实际胎儿dna分数(因变量y)与非母亲等位基因的分数(自变量x,由等式(1)计算)之间的关系。通过分析与其中母亲是纯合的以及胎儿是杂合的snp重叠的读取,根据下式推导实际胎儿dna分数(f)[lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91]。
[0082][0083]
其中p是胎儿特异性等位基因的测序读取的数目,并且q是共有等位基因的读取计数。等式(2)与等式(1)不同,因为等式(2)包括仅来自其中母亲是纯合的以及胎儿是杂合的位点的读取,而等式(1)也可包括来自其中母亲和胎儿表现纯合的位点的读取。在其它实施例中,f可以缩放2倍以对应于所有胎儿dna的总胎儿分数。也可以使用其它比例,例如p/q。
[0084]
因此,f被假定为实际胎儿dna分数,并且由其中母亲是纯合的并且胎儿是杂合的位点估计。杂合性可以通过对相应位点处的胎盘组织进行基因分型来确定。使用确定了实际胎儿dna分数的样品以显示使用本发明实施例推导的f是准确的。
[0085]
4.结果
[0086]
图2a显示使用第一数据集的训练数据集构建的线性模型(y=11.9x-1.4)。使用先前获得的胎儿基因型确定的实际胎儿dna分数显示在y轴上,并且非母亲等位基因分数显示在x轴上。调整的r平方为0.97(p值《0.0001)。
[0087]
图2b显示估计的胎儿dna分数与第一数据集中的实际胎儿dna分数高度相似。使用图2a的线性模型估计的胎儿dna分数显示在y轴上。使用先前获得的胎儿基因型确定的实际胎儿dna分数显示在y轴上。将线性回归与数据拟合,得出的拟合具有0.99的调整的r平方(p值《0.0001)。
[0088]
图3a显示由第二数据集的训练集中的24个样品构建线性模型(y=18.9x-6.6,调整的r平方为0.99,且p值《0.0001)。使用先前获得的胎儿基因型确定的实际胎儿dna分数显示在y轴上,并且非母亲等位基因分数显示在x轴上。
[0089]
图3b显示估计的胎儿dna分数与第二数据集中的实际胎儿dna分数高度相似。使用图2b的线性模型估计的胎儿dna分数显示在y轴上。使用先前获得的胎儿基因型确定的实际胎儿dna分数显示在y轴上。将线性回归拟合到数据,得出的线性拟合具有0.99的调整的r平方(p值《0.0001)。
[0090]
图2b和图3b中的验证集显示基于非母亲等位基因分数和实际胎儿dna分数的校准曲线的、估计的胎儿dna分数与实际胎儿dna分数高度相关。图2b和图3b中的验证集两者的线性拟合均具有0.99的r平方(p值《0.0001)。高r平方值表明该技术是精确的。图2b和图3b中的点也靠近y=x线,这将表明对实际胎儿dna分数的完美估计。
[0091]
图4a和4b显示与实际胎儿dna分数的中值偏差。图4a和图4b中的x轴是实际的胎儿dna分数。y轴是验证数据集中每个样品的估计的胎儿dna分数与实际dna分数之间的百分比偏差。y轴上的正值对应于大于实际胎儿dna分数的估计的胎儿dna分数。y轴上的负值对应于小于实际胎儿dna分数的估计的胎儿dna分数。图4a显示,对于第一数据集的验证集,中值偏差为-0.14%并且范围为-0.7%至1.7%。图4b显示对于第二数据集,中值偏差为-0.22%并且范围为-1.5%至0.98%。两个数据集的两条校准曲线的结果的差异可归因于所使用的
不同平台。图4a和图4b表明根据使用非母亲等位基因分数估计的胎儿dna分数,低于2%的最大偏差以及-0.14%与-0.22%之间的中值偏差是可能的。
[0092]
进一步使用相对预测误差(e%)来测量由验证数据集构建的模型的准确度,其被定义为:
[0093][0094]
其中表示估计的分数胎儿dna浓度,并且f表示实际的胎儿dna浓度。例如,e%=5%表明,如果实际胎儿dna分数为10%,则读数将在9.95%与10.05%(10%
±
0.05)之间。对于第一数据集和第二数据集,发现e%的平均值分别为1.7%(范围:0.7-2.9%)和3.8%(范围:1.3-14.9%)。
[0095]
实验结果证实可以使用非母亲等位基因分数来准确和精确地测量胎儿dna分数。估计的胎儿dna分数的准确度和精确度在nipt测试通常需要的范围内。
[0096]
c.胎儿dna分数估计的准确度取决于实际分数胎儿dna浓度
[0097]
即,预测准确度取决于正在被分析的实际胎儿dna分数。胎儿dna分数越高,估计越准确。因为在分娩后收集了涉及小于5%的胎儿dna分数的更多数据点(图3b),所以使用第二数据集来研究实际胎儿dna分数与相对预测误差之间的关系。
[0098]
图5显示相对预测误差对实际胎儿dna浓度的散点图。以百分比表示的相对预测误差显示在y轴上,并且母亲血浆中的非母亲等位基因分数在x轴上显示为百分比。散点图显示非常清晰的“l”形,其中具有高胎儿dna水平的病例表现出低的预测误差,并且具有低胎儿dna水平的病例表现出相对高的预测误差。即使对于5%的实际胎儿dna分数,e%也将接近5%(图5)。
[0099]
d.测序深度与胎儿dna分数估计的准确度之间的关系
[0100]
为了进一步表明测序深度如何影响胎儿dna分数,对第二数据集进行下采样分析,这是因为第二数据集中的样品具有比第一数据集更高的测序深度,允许进行多次采样分析。对于20个样品中的每个样品,随机选择不同数目的序列读取,并且从第二数据集中的20个样品中随机选择配对末端读取,每个样品具有100、200、400、600和800万个。重复胎儿dna分数预测的上述分析。随机选取的序列读取的数目为100万、200万、400万和800万。
[0101]
图6a显示100万个读取处的估计的胎儿dna分数相对于实际的胎儿dna分数。对数据的线性回归拟合具有0.9946的r平方以及小于0.001的p值。
[0102]
图6b显示200万个读取处的估计的胎儿dna分数相对于实际的胎儿dna分数。对数据的线性回归拟合具有0.9918的r平方以及小于0.001的p值。
[0103]
图6c显示在400万个读取处的关系。对数据的线性回归拟合具有0.9927的r平方以及小于0.001的p值。
[0104]
图6d显示在800万个读取处的关系。对数据的线性回归拟合具有0.9924的r平方以及小于0.001的p值。
[0105]
无论读取的数目如何,r平方值均大于0.99。无论读取的数目如何,p值都保持小于0.001。结果显示,即使使用100万个读取,也可以使我们进行与通过使用200、400、600或800万个读取得到的结果一样好的预测。
[0106]
e.方法的适用性
[0107]
存在于孕妇的母亲血浆中的非母亲等位基因的分数可用于估计胎儿dna分数。母亲血浆中存在具有高r平方的分数胎儿dna浓度与非母亲等位基因分数之间的线性关系,这表明如假定对相同的数据集应用一致的平台,则基因分型和测序误差相对恒定。这种方法的预测能力已经在独立的数据集中得到验证。对于不同的测序或基因型平台可以用更新的校准曲线提高准确度。第二数据集中改进的r平方可能归因于基因分型和测序系统的提高的准确度[yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588;lo ymd等人(2010),科学转化医学(sci transl med),2:61ra91]。然而,在两个数据集之间观察到的不同相对误差(e%)可能是由于更多的样品在第二数据集中表现出相对较低的胎儿dna分数。
[0108]
值得注意的是,测序深度不是影响胎儿dna分数估计的准确度的关键因素,如下采样分析所表明。这种方法可以准确地推广到具有不同测序深度的样品。基本原因可能是,随着测序深度变化,显示母亲血浆中非母亲等位基因的基因座部分会成比例增加或减少。那么,母亲血浆中非母亲等位基因的分数可能在不同测序深度之间是恒定值。因此,这种方法可以消除对测序深度的高需求,并且可以容易地应用于真实的临床实践,这是因为在无创产前诊断中可以常规地实现具有~1500万个测序读取的量[kim sk等人(2015),产前诊断(prenatal diagnosis):n/a-n/a]。
[0109]
胎儿dna预测的准确度应该高于两个先前的基于非多态性的方法[yusc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588;kim sk等人(2015),产前诊断(prenatal diagnosis):n/a-n/a],这是因为r平方统计数据的先前值分别为0.83和0.93[yu sc等人(2014),美国科学院院报(proc natl acad sci u s a),111:8583-8588;kim sk等人(2015),产前诊断(prenatal diagnosis):n/a-n/a],这低于本研究的对应值(第二数据集中r平方值为0.99)。此外,该算法能够准确地确定5%的低胎儿dna分数(图5)。这种测量低胎儿dna分数的能力是特别重要的,这是因为相当一部分(约5%)的母亲血浆样品具有小于5%的分数胎儿dna浓度[chiu rw等人(2011),英国医学杂志(bmj)342:c7401;palomaki ge等人(2011),遗传医学(genet med),13:913-920]。胎儿dna分数的准确估计可以允许在质量控制步骤中精确地过滤出具有低胎儿dna分数的样品[palomaki ge等人(2011),遗传医学(genet med),13:913-920]。此外,来自涉及胎儿非整倍性的染色体的母亲血浆dna的量的变化程度显示与胎儿dna分数的相关性。数据落在相关曲线外的样品被认为更可能是假阳性。估计胎儿dna分数的实施例可帮助鉴定假结果。另一方面,某些与妊娠相关的病症(例如先兆子痫和三体性18)与母亲血浆中扰动的胎儿dna分数有关。因此,对胎儿dna分数的更好估计将允许更敏感地检测与分数胎儿dna浓度的干扰量相关的那些病情。
[0110]
因为大规模平行的基于测序的临床诊断逐渐被认可并逐渐应用于临床实践,所以个性化基因型可用于每个个体。因此,母亲基因型辅助的胎儿dna分数估计可以容易地整合到用于无创产前诊断的、当前存在的方法中。使用等位基因的序列读取的实施例提供了用于准确估计分数胎儿dna浓度的一般方法。由于在基于随机测序的无创产前诊断中准确估计分数胎儿dna浓度的方法很少,所以该方法通过对母亲血浆dna的测序结果进行更准确的统计解释,将提供一种增强胎儿染色体非整倍体的无创产前检测的最快速采用的临床实用工具中的一个有用工具[agarwal a等人(2013),产前诊断(prenat diagn),33:521-531]。
[0111]
f.使用读取量测量胎儿dna分数的示例性方法
[0112]
图7显示测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的示例性方法700。生物样品包括母亲dna分子和胎儿dna分子。方法700可以使用计算机系统来进行。
[0113]
在框702处,方法700包括鉴定具有序列信息的多个位点,所述序列信息指示所述女性对于在所述多个位点的每个位点处的第一等位基因是纯合的。作为实例,序列信息可以由同一样品(例如不同读取集或不同等分的样品)确定,其可以是血浆或胎儿和母亲dna的其它混合物,或来自女性的不同样品(例如来自血沉棕黄层的样品、口腔拭子或不同的血浆样品)。不管样品的来源如何,序列信息可以包括dna分子读取的单独数据集,例如来自相同样品或不同样品的其它读取。在一些实施例中,可以仅基于在特定位点处检测到的第一等位基因来作出女性是纯合的指示。在其它实施例中,所述指示可以允许具有不同等位基因的一些读取,但是位点处具有另一个等位基因的读取数目低于阈值(例如,称位点纯合以在特定统计准确度内的阈值)。当使用仅母亲样品(例如血沉棕黄层)来获得序列信息时,可以进行该实施例。如本文所述,序列信息可以通过任何合适的技术获得,例如测序或验证。
[0114]
女性实际上在多个位点处可能是纯合的。然而,在一些实施例中,女性可以在浅深度处接受测序,使得在这些位点处只读取少数等位基因(例如一个或两个),并且即使女性在该位点处是杂合的,女性也可以表现出纯合。鉴定多个位点可以包括由生物样品的dna分子获得多个读取。在其它实施例中,鉴定女性在该处表现出纯合的多个位点可以包括从不包含胎儿dna样品的另一个生物样品(即,第二生物样品)的多个读取中鉴定多个位点。例如,该第二生物样品可以是母亲血沉棕黄层或口腔拭子。鉴定女性在该处表现出纯合的多个位点可以包括对来自女性的第二生物样品中的细胞进行基因分型。在一些实施例中,母亲基因型的分析不需要是高度准确的,并且可以从母亲血沉棕黄层的浅深度测序获得,例如,但不限于,小于单倍体人类基因组的0.1x、0.2x、0.3x、0.4x、0.5x、0.8x、1x、1.5x、2x、3x、4x、5x和10x覆盖率。在一些实施例中,多个读取可以限于仅在用于已知具有snp的位点的参照数据库中的第二多个位点处发生的读取。
[0115]
在框704处,方法700包括从生物样品的dna分子获得多个读取。多个读取可以从测序装置或从数据存储装置获得。方法700也可以包括在获得读取之前接收生物样品。这些读取可以限于在数据库中被鉴定为对应于双等位基因位点的位点,即具有snp的位点。可以对生物样品中的多个dna分子进行测序以获得读取。在其它实施例中,可以使用探针微阵列分析生物样品中的多个dna分子以获得读取。
[0116]
在框705处,方法700包括鉴定多个读取在参照基因组中的位置。例如,可以对游离dna分子进行测序以获得序列读取,并且可以将序列读取映射(校准)到参照基因组。如果生物体是人类,那么参照基因组将是可能来自特定亚群的参照人类基因组。作为另一个实例,可以用不同探针(例如,在pcr或其它扩增后)分析游离dna分子,其中每个探针对应于基因组位置。
[0117]
在框706处,方法700包括确定第一读取量。第一读取量中的每一个读取位于多个位点中的一个位点,并且每个读取显示与该位点处女性的第一等位基因不同的第二等位基因。在一些情况下,第一读取量是非母亲等位基因的读取量。第二等位基因可以限于在数据库中被鉴定为对应于双等位基因位点的等位基因。多个位点中,并非所有位点都可以包括显示第二等位基因的读取。实际上,多个位点中的一部分位点可能不包括显示第一等位基
因的读取。
[0118]
在框708处,可以确定多个位点处的第二读取量。第二读取量中的每个读取位于多个位点中的一个位点处,并且每个读取在该位点处显示第一等位基因。在一些实施例中,第二量可以包括与显示不同于女性等位基因的等位基因的第一读取量相加的相同等位基因的读取。换句话说,第二量可以是a+b的总和,如图1所示,或者第二量可以是a的总和。确定第二读取量可以由读取的总数隐含地确定。读取的总数可以是第二读取量。
[0119]
在框710处,非母亲等位基因分数可以由第一量和第二量确定。非母亲等位基因分数可以包括第一量除以第二量。非母亲等位基因分数可以包括转换成百分比的数值。在一些实施例中,非母亲等位基因分数可以包括第二量除以第一量。
[0120]
在框712处,可以获得使用具有已知胎儿dna分数和测量的非母亲等位基因分数的另一个样品确定的校准点。校准点可以是多个校准点中的一个校准点,并且多个校准点可以构成校准曲线。校准曲线可以通过确定来自多个孕妇的多个其它样品的胎儿dna分数来计算。多个其它样品的每个其它样品的胎儿dna分数可以包括鉴定第二多个位点,其中在每个位点处,胎儿是杂合的并且孕妇是纯合的。在一些实施例中,可以使用男性胎儿的y染色体确定胎儿dna分数。可以获得来自另一个样品的dna分子的多个读取。多个读取可以等于或类似于来自第一生物样品的dna分子的多个读取的数目。可以确定在第二多个位点处具有胎儿特异性等位基因的第三量的读取。可以确定在第二多个位点处具有共有等位基因的第四量的读取。胎儿dna分数可以使用第三量和第四量来确定。可以计算多个样品的非母亲分数。胎儿dna分数和非母亲分数可以拟合到线性或其它函数。线性或其它函数可以描述校准曲线。
[0121]
在框714处,可以使用校准点和非母亲等位基因分数来计算胎儿dna分数。可以将非母亲等位基因分数与校准曲线的校准点进行比较。计算的胎儿dna分数可以等于校准曲线上对应于相同或相似的非母亲等位基因分数的胎儿dna分数。如果校准曲线由等式表示,则胎儿dna分数可以是将非母亲等位基因分数代入等式的计算结果。
[0122]
g.使用dna分子的特性测量胎儿dna分数的示例性方法
[0123]
图11显示测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的示例性方法1100。方法1100可以使用定义一组dna分子的特性的值。该特性可以包括分子组的尺寸参数或分子组的序列读取的量。
[0124]
在框1102处,方法1100包括鉴定具有序列信息的多个位点,所述序列信息指示女性对于在多个位点的每个位点处的第一等位基因是纯合的。鉴定多个位点可以通过本文描述的任何操作进行,包括方法700中描述的操作。
[0125]
在框1104处,方法1100包括从dna分子获得多个读取。获得多个读取可以通过本文描述的任何操作进行,包括方法700中描述的操作。
[0126]
在框1105处,方法1100包括鉴定参照基因组中多个读取的位置。参照基因组可以是人类基因组。鉴定读取的位置可以包括将读取校准到参照基因组或使用探针。鉴定位置可以通过本文描述的任何操作进行,包括方法700中针对框705所描述的操作。
[0127]
在框1106处,方法1100包括确定第一组dna分子的第一值。第一组dna分子的每个dna分子可以包括位于多个位点中的一个位点的读取。每个读取可能显示不同于该位点的第一等位基因的第二等位基因。第一值可以定义第一组dna分子的特性。例如,如方法700,
第一值可以是位于多个位点并具有第二等位基因的读取的数目。确定第一值可进一步包括测量第一组dna分子的尺寸,其中第一尺寸值具有第一组dna分子的第一尺寸分布。在实施例中,第一值可以是尺寸参数。尺寸参数可以是尺寸在一定范围内的分子数目或者在一定尺寸下的分子的累积频率,例如第一组dna分子中具有最大尺寸的dna分子的第一累积频率。
[0128]
在框1108处,方法1100包括确定第二组dna分子的第二值。第二组dna分子中的每个dna分子可以包括位于多个位点中的一个位点的读取。每个读取可显示该位点处的第一个等位基因。第二组dna分子也可以来自与第一组dna分子相同的生物样品,或者可以来自另一个生物样品(例如仅有母亲dna的样品,如血沉棕黄层或口腔拭子)。确定第二值可以进一步包括测量第二组dna分子的尺寸,其中第二尺寸值具有第二组dna分子的第一尺寸分布。第二值可以定义第二组dna分子的特性。例如,如果第一值是尺寸参数,则第二值也可以是尺寸参数。第二值可以是位于多个位点并具有第一等位基因的第二量的读取。
[0129]
在框1110处,可以由第一值和第二值确定参数的参数值。该参数可以包括第一值除以第二值的比率。
[0130]
在框1112处,方法1100可以包括将参数值与使用具有已知胎儿dna分数的至少一种其它样品(例如,校准样品)确定的校准点和对应于至少一种其它样品中的参数的单独测量值的校准值相比较。校准点可以是多个校准点中的一个校准点,并且多个校准点可以构成校准曲线。校准曲线可以通过确定来自多个孕妇的多个其它样品的胎儿dna分数来计算,类似于方法700的框712中的操作。可以计算多个其它样品的参数值。可以将胎儿dna分数和参数拟合成线性或其它函数。线性或其它函数可以描述校准曲线。
[0131]
在框1114处,可以基于比较来计算胎儿dna分数。计算的胎儿dna分数可以等于校准曲线上对应于相同或相似参数值的胎儿dna分数。如果校准曲线由等式表示,则胎儿dna分数可以是将参数值代入等式的计算结果。
[0132]
h.使用尺寸参数测量胎儿dna分数
[0133]
具有非母亲等位基因的dna分子的尺寸和/或具有母亲等位基因的dna分子的尺寸可用于估计胎儿dna分数。已经发现胎儿dna比母亲血浆中的母亲dna更短(lo ymd等人科学转化医学(sci transl med.)2010;2:61ra91)。因此,具有非母亲等位基因的dna分子平均来讲应该比母亲血浆中具有母亲等位基因的dna分子更短。
[0134]
作为实例,通过微阵列方法(illumina)对具有20%胎儿dna分数的母亲血浆进行基因分型。鉴定了其中母亲dna是纯合的以及非母亲等位基因存在于血浆中的位点。比较母亲等位基因和非母亲等位基因的、具有这些位点的dna分子的尺寸。
[0135]
图12a显示具有母亲等位基因和非母亲等位基因的dna分子的尺寸分布。x轴是碱基对中dna分子的尺寸。y轴是以百分比表示的给定尺寸的频率。线1202是具有母亲等位基因的dna分子的尺寸分布,而线1204是具有非母亲等位基因的dna分子的尺寸分布。线1204通常在线1202的左边,表明具有非母亲等位基因的dna分子通常比具有母亲等位基因的dna分子更短。
[0136]
图12b显示来自图12a的dna分子的尺寸的累积频率。x轴是碱基对中dna分子的尺寸。y轴是用百分比表示的累积频率。线1206是具有母亲等位基因的dna分子的尺寸的累积频率曲线。线1208是具有非母亲等位基因的dna分子的尺寸的累积频率曲线。线1208在线
1206上方,表明具有非母亲等位基因的dna分子比具有母亲等位基因的dna分子更短。
[0137]
图12c显示δs,两个累积频率曲线(线1206和线1208)之间的差值。x轴是碱基对中dna分子的尺寸。y轴是δs,两个累积频率曲线之间的差值。δs的最大值为约150bp。结果,对于尺寸小于或等于150bp的dna分子,非母亲等位基因的dna分子相对富集。对具有800万个配对末端序列读取的32个样品定量150bp的δs(表示为δs
150
),以测试其在估计胎儿dna分数中的适用性。
[0138]
图12d显示了32个样品的δs
150
与胎儿dna分数之间的关系。x轴是用百分比表示的胎儿dna分数。y轴为δs
150
,具有非母亲等位基因的dna分子的累积频率曲线与具有长度为150bp的母亲等位基因的dna分子的累积频率曲线之间的差异。δs
150
与胎儿dna分数正相关。换言之,携带非母亲等位基因的较高量的短dna分子表明较高的胎儿dna分数。将线性回归拟合到数据。线性拟合的r平方为0.81(p《0.01)。具有母亲等位基因的dna分子包括dna分子,其为胎儿dna,但仍携带母亲等位基因。因此,δs
150
预计不会反映母亲dna与胎儿dna之间的实际尺寸差异。
[0139]
在一些实施例中,δs可以是不同于150bp的尺寸。例如,δs可以为50、60、70、80、90、100、110、120、130、140、160、170、190、200或210bp。也可以使用其它尺寸参数。尺寸差异可以在两组的尺寸分布的任何统计值之间。例如,可以使用第一组dna分子与第二组dna分子的中值尺寸的差异。另一个例子是在第一组与第二组之间以尺寸计的累积频率的最大值。可以使用美国专利公布2011/0276277和2013/0237431中描述的任何尺寸值。
[0140]
可以使用尺寸参数与胎儿dna分数之间的校准曲线。校准曲线可以将其它样品的胎儿dna分数与尺寸参数相关联。其它样品的胎儿dna分数可以通过本文所述的任何方法来确定。然后可以测量其它样品的尺寸参数并相对于胎儿dna分数绘图。将线性回归或其他回归拟合到数据来确定校准曲线。然后,可以将具有未知胎儿dna分数的生物样品的尺寸参数与校准曲线比较以估计胎儿dna分数。
[0141]
在这些实施例中,即使参数不反映胎儿dna和母体dna的尺寸,基于非母亲等位基因dna和母体等位基因dna的尺寸的尺寸参数也可以用于估计胎儿dna分数。
[0142]
i.使用尺寸参数测量胎儿dna分数的示例性方法
[0143]
图13显示测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的示例性方法1300。方法1300可以使用定义一组dna分子的尺寸的值。该值可以是尺寸参数的值。
[0144]
在框1302处,方法1300包括基于序列信息来鉴定多个位点,所述序列信息指示女性对于在多个位点的每个位点处的第一等位基因是纯合的。鉴定多个位点可以通过本文描述的任何操作进行,包括如方法700中的操作那样。
[0145]
在框1304处,方法1300包括从生物样品的dna分子获得多个读取。获得多个读取可以通过本文描述的任何操作进行,包括如方法700中的那样。
[0146]
在框1305处,方法1300包括鉴定参照基因组中的多个读取的位置并确定生物样品的dna分子的尺寸。鉴定位置可以通过本文描述的任何操作进行,包括方法700中针对框705所描述的操作。测量尺寸可以通过电泳或计算机进行。
[0147]
在框1306处,方法1300包括确定第一组dna分子的第一尺寸值。第一组dna分子中的每个dna分子可以包括位于多个位点中的一个位点的读取。每个读取可以显示不同于该位点的第一等位基因的第二等位基因。第一尺寸值可以对应于第一组dna分子的第一尺寸
分布的统计值。第一尺寸值可以是尺寸参数。尺寸参数可以是尺寸在一定范围内的分子的数目或在一定尺寸下的分子的累积频率。作为进一步的实例,尺寸值可以是第一组dna分子的中值尺寸、尺寸分布的模式或平均值尺寸。
[0148]
在框1308处,方法1300包括确定第二组dna分子的第二值。第二组dna分子中的每个dna分子可包括位于多个位点中的一个位点的读取。每个读取可显示该位点处的第一个等位基因。第二组dna分子也可以来自生物样品或可以来自另一种生物样品(例如,仅有母亲dna的样品,如血沉棕黄层或口腔拭子)。作为其它实例,尺寸值可以是第二组dna分子的中值尺寸、尺寸分布的模式或平均值尺寸。第二尺寸值可以对应于第二组dna分子的第二尺寸分布的统计值。例如,如果第一值是尺寸参数,则第二值也可以是尺寸参数。
[0149]
在框1310处,可以由第一值和第二值确定参数值。该参数可以包括第一值除以第二值的比率。
[0150]
在框1312处,方法1300可以包括将参数值与使用具有已知胎儿dna分数的至少一种其它样品(例如,校准样品)确定的校准点和对应于至少一种其它样品中的参数的单独测量值的校准值相比较。校准点可以是多个校准点中的一个校准点,并且多个校准点可以构成校准曲线。校准曲线可以通过确定来自多个孕妇的多个其它样品的胎儿dna分数来计算,类似于在方法700中所描述的。可以计算多个其它样品的参数值。可以将胎儿dna分数和参数拟合成线性或其它函数。线性或其它函数可以描述校准曲线。
[0151]
在框1314处,可以基于比较来计算胎儿dna分数。可以将参数值与校准曲线的校准点相比较。计算的胎儿dna分数可以等于校准曲线上对应于相同或相似参数值的胎儿dna分数。如果校准曲线由等式表示,则胎儿dna分数可以是将参数值代入等式的计算结果。
[0152]
ii.用基因座量分析dna
[0153]
为了确定母亲基因型或胎儿基因型,一些实施例不需要分析来自仅母亲dna、仅胎儿dna或来自仅一个受试者的任何dna的样品的读取。实际上,一些实施例不需要包括关于母亲基因型的高度准确的信息。例如,确定母亲基因型上什么基因座是纯合的,不需要以高的统计置信度或甚至任何统计置信度来知晓。相反,方法可以假定某些基因座由于含有母亲dna和胎儿dna两者的样品中只存在一个或几个等位基因而是纯合的。这些方法通常具有浅测序深度,不足以确信地评估基因座处存在的等位基因。例如,确定基因座是纯合的可以基于基因座处的仅一个或两个读取。因此,因为该位点未在足够深度处被测序,所以被鉴定为纯合的位点可能仅显示为纯合的。
[0154]
另外,分析dna的实施例可以包括分析含有母亲dna和胎儿dna两者的样品中的替代等位基因(例如,非母亲等位基因)的表观上纯合的基因座。分析替代等位基因的样品也可以在浅测序深度处进行。浅测序深度可能导致在一个基因座上很少的读取,有时候只有一个或两个读取。在一个基因座处的低数目的读取可能导致不对在基因座处实际存在的任何替代等位基因进行测序,或少计数在一个基因座处存在的替代等位基因的比例。因为这些可能的误差,所以使用浅测序深度的技术预计不能准确地测量胎儿dna分数或生物样品的其它特征。
[0155]
此外,作为测定胎儿dna分数的手段的鉴定基因座处的替代等位基因预计对于任何单个基因座不是有效的。对于任何单个基因座,替代等位基因将存在或不存在。这种二元结果不能提供足够的信息来测量胎儿dna分数或生物样品的其它特征。
[0156]
然而,本文所述的方法令人惊讶地可以在进行浅测序时准确地测量胎儿dna分数或生物样品的其它特征。这些方法可以通过使用多个基因座,对结果求平均值以最小化测序和其它误差,并使用校准数据来提供关于生物样品的有用信息。这些方法与传统方法相比有所改进,传统方法可能仅对男性胎儿有效,可能需要单亲或双亲的基因型信息,或可能需要高的测序深度。
[0157]
a.一般方法
[0158]
图8显示测量胎儿dna分数而不获得母亲基因型,父亲基因型或仅含有母亲dna分子的生物样品的方法800的图示。
[0159]
框802从一种生物样品或多种生物样品开始。生物样品可以是来自怀有胎儿的孕妇的血浆、血清、血液、唾液、汗液、尿液、眼泪或其它流体。生物样品可具有1%、2%、3%、4%或5%的最小胎儿dna分子分数。生物样品含有母亲和胎儿dna分子两者。生物样品可以由医学专业人员施用的针头获得。生物样品也可以作为常规医疗预约的一部分无创地获得。
[0160]
框804显示从来自生物样品的dna分子获得测序读取。任何数据集的测序读取可能是浅深度或低深度。例如,测序读取的数目可以小于单倍体人类基因组的0.1x、0.2x、0.3x、0.4x、0.5x、0.8x、1x、1.5x、2x、3x、4x、5x和10x覆盖率。dna分子的测序可以通过任何合适的测序技术或系统进行。测序或读取可限于具有已知和常见snp的位点,包括参照数据库中的snp(例如,dbsnp或hapmap)。
[0161]
框806和808显示了从一个或多个生物样品获得的测序读取的两个数据集。这两个数据集可以是来自两个生物血浆dna复制品的数据(即几乎同时来自同一患者的两次不同的血液抽取);一份血浆样品分成两份;一个血浆样品和一个构成基因组dna样品(例如母亲血沉棕黄层dna、口腔拭子dna);或者一个血浆/血清测序数据集在计算机上随机分成两个测序数据集。因此,在框802中可以获得两个样品,单独地获得每个样品的序列读取。
[0162]
框810描绘了鉴定第一组基因座的每个基因座中的排他性等位基因。为了说明的目的,读取812显示第一组基因座814,其特征在于在基因座a-h的每个基因座处的排他性单个等位基因。等位基因在图8中用白色或黑色正方形表示。在读取812中,第一组基因座814包括基因座a-h。基因座a-h可能不是连续的基因座。这些基因座表观上是纯合的,因为没有基因座显示两个不同的等位基因的存在。考虑到在读取812中的任何位置处只有一个或两个读取,所以将任何基因座表征为纯合的不能以高统计置信度来完成。事实上,对于只有单个读取的基因座,基因座通常不被认为以任何置信度表征为纯合的。这些基因座可能限于具有已知和常见snp的基因座。
[0163]
框816显示鉴定显示替代等位基因的第二组基因座。从第一组基因座814内鉴定第二组基因座。读取818显示由第二数据集测序的等位基因。对于相同的基因座,基因座a、c、f和g显示具有与读取814中的等位基因不同的等位基因的读取。这些基因座显示了替代等位基因,因为等位基因是第一数据集中的等位基因的替代。基因座b、d、e和h显示具有与读取814中的等位基因相同的等位基因的读取。因此第二组基因座被鉴定为基因座a、c、f和g。
[0164]
框820确定第一量的基因座。可以从第一组基因座确定第一量的基因座。在其它实施例中,因为是在第二数据集中分析第一组基因座,所以第一量的基因座可以由第二数据集确定。第一量可以是基因座的数目或具有等位基因的读取的数目。如果第一量是基因座
的数目,则对于读取812,所示的基因座的数目是8。第一量可以被限制为来自具有特定尺寸或特定性质的dna分子的读取。例如,第一量可以是相对于其它dna分子具有特定绝对尺寸或特定尺寸的dna分子的基因座的数目。具有等位基因的读取的数目可以是等位基因读取的计数。在读取812中,具有等位基因的读取的数目为11。在某些实施例中,如果每个基因座平均为约一个等位基因读取,则具有等位基因的读取的平均数目可以等于基因座的数目。
[0165]
框822确定第二组基因座中的第二量的基因座。第二量可以是基因座的数目或具有等位基因的读取的数目。第二量应该与第一量相当,并且具有相同的单位,但是在一些实施例中,第一量和第二量可以具有不同的单位。如果第二量是基因座的数目,则由第二组读取818确定的第二量是4。如果第二量是具有等位基因的读取的数目,则读取818中的第二量是6。因为对第二组基因座分析了第二数据集中的第一组基因座,所以在一些情况下,除了第一数据集以外,第一量的基因座可以被认为是还由第二数据集确定。
[0166]
框824由第一量和第二量确定表观等位基因差异(aad)。aad是定量显示在第二数据集中且并不存在于第一数据集中的替代等位基因的位点的比例的参数。如框824所示,aad可以通过第二量除以第一量来计算。在其它实施方式中,aad可以从第二量除以仅母亲等位基因的量来计算(即,第二量与第一量之间的差异)。计算aad可以包括乘法因子和/或所描述的计算的倒数。aad可以被认为是第二量的归一化参数。
[0167]
框826显示使用aad分析生物样品。分析生物样品可以包括使用校准曲线由aad计算胎儿dna分数。校准曲线描述胎儿dna分数与aad之间的关系,如图828中所示。校准曲线可以基于实际胎儿dna分数和来自其它生物样品的aad值来确定。校准曲线中的数据点的测序读取的数目可能与具有未知的胎儿dna分数的生物样品中的测序读取的数目相似。换句话说,来自具有已知胎儿dna分数的样品的aad数据应该在与具有未知胎儿dna分数的生物样品相似或相同的测序深度处。例如,校准曲线可以处于来自生物样品的dna分子的测序深度的1x、5x、10x、15x或20x内的测序深度处。在一些实施例中,校准曲线可以限于具有与母亲、父亲或胎儿相似遗传背景的样品。例如,校准曲线可以缩小到来自相同或相似种族组的人样品的aad数据。校准曲线也可以限于特定的单倍型或单倍型模块。因此,对于相同的样品、几个基因组区域(包括单倍型)可以使用几条校准曲线。在一些实施例中,aad可以用于无创地测试双胞胎接合性。
[0168]
随着测序深度增加,被鉴定为具有非母亲等位基因的基因座的比例将随着测序在基因座处越来越多的非母亲等位基因而增加。因此,在高测序深度下,具有非母亲等位基因和aad值的基因座的比例预计不会随胎儿dna分数变化。测序深度可以被限制为最大5x、10x、15x、20x或25x覆盖率,以避免aad值不取决于胎儿dna分数的区域。生物样品仍然可以在高于该最大值的高测序深度处被测序,但是随后可以对所得到的数据进行随机下取样以生成具有低于最大值的测序深度的测序读取数据集。
[0169]
b.测量胎儿dna分数的示例性方法
[0170]
图9显示测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法900。生物样品包括母亲dna分子和胎儿dna分子。生物样品可以是本文所述的任何生物样品。
[0171]
在框902中,方法900包括接收来自怀有胎儿的孕妇的第一样品的dna分子的多个读取的数据集。数据集可以通过计算机系统从测序设备或数据存储设备接收。第一样品可能是或可能不是生物样品。第一样品可能只具有母亲dna,没有胎儿dna,例如血沉棕黄层或
口腔拭子。
[0172]
在框904中,方法900包括鉴定参照基因组中的第一多个读取的位置。鉴定位置可以通过本文描述的任何操作进行,包括在方法700的框704中用于鉴定位点所述的操作。
[0173]
在框906中,方法900包括基于第一数据集和所鉴定的位置来鉴定第一组基因座。第一组基因座中的基因座没有显示多于一个等位基因。换句话说,第一组基因座中的每个基因座是单等位基因的并且呈现为纯合。第一组基因座可以从参照数据库的一组基因座中选择。换句话说,第一组基因座可以是来自参照数据库的基因座组的子集,第一组基因座的每个基因座在来自参照数据库的基因座组中。可能已知该组基因座包括单核苷酸多态性(snp)或高度杂合性的实例。参照数据库可以包括短遗传变异数据库(dbsnp)或hapmap数据库。该组基因座可以被缩小到已知在与母亲或胎儿的种族或遗传组类似的某些种族或其它遗传组中具有高杂合性概率的某些基因座。
[0174]
多个读取可以处于浅深度处。例如,读取的深度可以在实施例中小于或等于10x、小于或等于5x、小于或等于4x、小于或等于3x、小于或等于2x、小于或等于1x、或者小于或等于0.5x。对于单倍体人类基因组,1x覆盖率对于50bp的尺寸约为5000万个读取。读取的数目可以少于或等于5000万个读取,包括少于或等于3000万个读取、2000万个读取、1500万个读取、少于或等于1000万个读取、少于或等于800万个读取、少于或等于500万个读取、少于或等于400万个读取、少于或等于200万个读取或少于或等于100万个读取。一个基因座可能有总共一个或两个读取。第一组基因座中的多个基因座包括第一组基因座中全部基因座的超过10%、超过20%、超过30%、超过40%、超过50%、超过60%、超过70%、超过80%或超过90%,可以有最多一个或两个读取。第一组基因座的任何基因座中的最大读取数目可以是1、2、3、4、5、6、7、8、9或10。
[0175]
在框908中,方法900包括确定第一量的基因座。第一量可以是来自第一数据集的第一组基因座中的基因座的数目,或者可以是第一组基因座中等位基因读取的总数。在其它实施例中,第一量可以由来自第二数据集的第一组基因座中的基因座的数目确定。
[0176]
在框910中,可以接收来自生物样品的dna分子的多个读取的第二数据集。第二数据集可通过计算机系统从测序装置或数据存储装置接收。
[0177]
在框912中,方法900包括鉴定参照基因组中的第二多个读取的位置。鉴定位置可以通过本文描述的任何操作进行,包括在方法700的框704中用于鉴定位点所述的操作。
[0178]
在框914中,基于第二数据集和所鉴定的位置来鉴定第二组基因座。第二组基因座的每个基因座显示与第一组基因座中显示的等位基因不同的等位基因。换句话说,第二组基因座的每个基因座可以显示非母亲等位基因,而第一组基因座中的每个对应基因座可以仅显示母亲等位基因。第二数据集中的每个读取可以不同于第一数据集中的每个读取。在一些实施例中,第一数据集可以是多个读取的一半,并且第二数据集可以是多个读取的另一半。
[0179]
在框916中,方法900包括确定第二数据集中的一组基因座中的第二量的基因座。第二量可以是第二组基因座中的基因座的数目,或者可以是第二组基因座中等位基因读取的总数。第二量可以被限制为来自具有一定尺寸的dna分子的读取。例如,用于第二量的读取可以被限制为来自与第二多个dna分子具有最小平均尺寸差异的第一多个dna分子的读取。第二多个dna分子可以包括具有用于第一组基因座的序列读取的dna分子。第二多个dna
分子可以包括在生物样品中测序的所有dna分子。在实施例中,最小尺寸差异可以是5bp、10bp、20bp、30bp或40bp。可以测量第一多个或第二多个dna分子的尺寸,或可以接收第一多个或第二多个dna分子的尺寸。
[0180]
在框918中,可以确定第一量和第二量的归一化参数。在一些实施例中,归一化参数可以包括第二量除以第一量。归一化参数可以是表观上非母亲等位基因数目与母亲等位基因数目的比率。在其它实施例中,归一化参数可以包括第二量除以第一量和第二量之和。在这些实施例中,归一化参数可以是表观上非母亲等位基因数目与等位基因总数目的比率。归一化参数也可以是这些计算中的任一个的倒数。aad是归一化参数的一个实例。
[0181]
在框920中,方法900包括将参数值与使用具有已知的胎儿dna分数的至少一种其它样品(例如,校准样品)确定的校准点以及对应于在至少一种其它样品中的参数的单独测量值的校准值相比较。校准点可以是多个校准点中的一个校准点。多个校准点可以构成校准曲线。校准曲线可以是拟合到已知胎儿dna分数的数据点以及对不同生物样品确定的归一化参数的曲线。图828是校准曲线的一个例子。校准曲线可以是数据点的线性回归。校准曲线可以具有不等于1并且可以小于1的斜率。
[0182]
校准曲线可使用已知胎儿dna分数和来自另一种生物样品的归一化参数(即,第二归一化参数)来确定,归一化参数通过与来自目前正在被分析的生物样品的归一化参数(即,第一归一化参数)相似的方法确定。第二归一化参数也可以通过与框902至918类似的操作来确定。与来自另一种生物样品的数据集中的基因座相关的读取的数目可以大约等于当前生物样品中的读取的数目。读取的数目可以在彼此的1x、5x或10x内。
[0183]
在框922中,基于比较来计算胎儿dna分数。胎儿dna分数可以是对应于归一化参数的相同值的校准曲线中的胎儿dna分数。在一些实施例中,胎儿dna分数可以插在归一化参数的两个值的两个胎儿dna分数之间。在其它实施例中,校准曲线可以是y=mx+b形式的线性等式,其中y是胎儿dna分数,x是归一化参数,并且m和b是拟合到校准曲线的参数。
[0184]
c.胎儿dna分数的实验结果
[0185]
使用来自怀男性胎儿的24位孕妇的24个血浆样品,使用aad测量胎儿dna分数,每个样品具有平均810万个序列读取(范围:710-1030万)。在24个样品中,14个样品用于建立对实际胎儿dna分数与aad值之间的关系进行建模的校准曲线。实际胎儿dna分数由来源于y染色体的读取的比例确定(hudecova i等人,公共科学图书馆期刊(plos one).2014;9:e88484)。为了计算aad值,将14个样品中的每个样品随机分成两个数据集。在第一数据集中,鉴定了显示一种且仅一种类型的等位基因的第一组基因座。在第二数据集中,分析第一组基因座中的每个基因座以确定是否存在替代等位基因。具有替代等位基因的基因座构成第二组基因座。aad被计算为第二组基因座中的基因座数目除以第一组基因座中的基因座数目,再乘以100%。
[0186]
图10a显示来自胎儿dna分数和aad值的线性回归模型的校准曲线。y轴表示来源于y染色体的胎儿dna分数,而x轴表示aad值。线性回归斜率为11.61,y截距为-109.93。r平方值是0.8795。
[0187]
图10b显示基于胎儿dna分数和短dna分子比例的线性回归。y轴显示来源于y染色体的胎儿dna分数,而x轴显示样品中尺寸小于150bp的dna分子的百分比。已经基于dna分子的尺寸估计了胎儿dna分数(yu sc等人,美国科学院院报(proc natl acad sci u s a.)
2014;111:8583-8)。线性回归的斜率为1.9247,y截距为-3.7911。r平方值是0.3593。
[0188]
对于这个数据集,由aad值确定胎儿dna分数,给出了比由r平方值表示的较短dna分子的比例确定胎儿dna分数更高的相关性。以更高的r平方值,基于aad的胎儿dna分数估计将比基于尺寸概貌的方法更准确。
[0189]
为了测试图10a的基于aad的校准曲线的普遍性,对来自10位孕妇的其余10个样品进行测序。将10个样品中的每个样品随机分成两个数据集。在第一数据集中,鉴定了显示一种且仅一种类型的等位基因的第一组基因座。在第二数据集中,分析第一组基因座中的每个基因座以确定是否存在替代等位基因。具有替代等位基因的基因座构成第二组基因座。aad被计算为第二组基因座中的基因座数目除以第一组基因座中的基因座数目,再乘以100%。
[0190]
由图10a中的校准曲线确定10个样品的aad值的胎儿dna分数。另外,通过来源于y染色体的读取的比例来确定10个样品的胎儿dna分数。
[0191]
图10c显示基于来源于y染色体的读取的比例,通过在y轴上的aad值相对于胎儿dna分数确定的胎儿dna分数。由aad值估计的胎儿dna分数与实际胎儿dna分数充分相关,r平方为0.896。与实际胎儿dna分数的中值偏差为仅0.8%,表明实现了胎儿dna分数预测的高准确度。因此,基于aad的校准曲线被观察到被广泛地推广到一组新的样品中。
[0192]
基于aad的胎儿dna分数估计的准确性可以随着样品中更高的胎儿dna分数,降低的测序误差率和使用基于来自具有相似遗传概貌的个体的样品的校准曲线而增加。
[0193]
d.用aad分类双胞胎接合性
[0194]
aad可以用来分类双胞胎是单卵还是双卵。双卵双胞胎具有不同基因型的胎儿。具有不同基因型的基因座意味着至少一个胎儿具有非母亲等位基因。在具有双卵胎儿的血浆样品中具有非母亲等位基因的基因座的比例将高于在具有单卵胎儿的血浆样品中的基因座的比例。对于单卵双胞胎来说,因为胎儿的基因型是相同的,所以具有单卵胎儿的血浆样品中的基因座的比例预计不会高于具有单个胎儿的血浆样品中的基因座的比例。然后与单卵胎儿相比,对于双卵胎儿而言,具有非母亲等位基因的基因座的比例预计将会更高。因此,由具有非母亲等位基因的基因座的比例计算的aad预计将会更高,对于双卵胎儿,计算的胎儿dna分数预计将会更高。
[0195]
图14显示对六组不同的双胞胎计算的胎儿dna分数。三组双胞胎是单卵的,三组双胞胎是双卵的。胎儿dna分数通过两种方法估计。在第一种方法中,基于dna分子的尺寸估计胎儿dna分数(yu sc等人,美国科学院院报(proc natl acad sci u s a.)2014;111:8583-8)。dna分子的尺寸预计不会根据胎儿的接合性而变化。在第二种方法中,胎儿dna分数由一定量的基因座估计(例如,如针对使用aad值的实施例所述)。在第二种方法中,由aad值估计胎儿dna分数。aad值预计会根据胎儿的接合性而变化。图14显示,与单卵双胞胎相比,对于双卵双胞胎,基于aad的胎儿dna分数与基于尺寸的胎儿dna分数之间的差异更大。胎儿dna分数估计的这种差异可以用来将胎儿分类为单卵或双卵。
[0196]
为了分类多胎儿的接合性,如本文所述,可使用aad值估计生物样品的胎儿dna分数。然后可以将该第一胎儿dna分数与截止值进行比较。截止值可被确定为比生物样品的第二胎儿dna分数大的某个值。第二胎儿dna分数可以通过其中估计的胎儿dna分数不基于样品中的胎儿dna的接合性而变化的方法来估计。例如,估计的胎儿dna分数可以基于生物样
品中dna分子的尺寸概貌。截止值可以是比第二胎儿dna分数更大的某个绝对百分比。例如,在图14中,截止值可以比基于尺寸的胎儿dna分数大2至4绝对百分比。截止值可以是比第二胎儿dna分数更大的绝对百分比,相对百分比,或者标准偏差的倍数。
[0197]
如果计算的胎儿dna分数大于截止值,则可将胎儿分类为双卵。如果计算的胎儿dna分数小于截止值,那么胎儿可以被分类为单卵。在一些实施例中,可以使用两个截止值,第一截止值大于第二截止值。如果计算的胎儿dna分数大于或等于第一截止值,则胎儿可以被分类为双卵。如果计算的胎儿dna分数小于或等于第二截止值,则胎儿可以被分类为单卵。如果计算的胎儿dna分数在两个截止值之间,则胎儿可以被分类为接合性的不确定。胎儿然后可以经历进一步的接合性测试。
[0198]
e.具有一定尺寸的基因座的aad
[0199]
aad的计算可以基于通过不同于序列读取的特征来鉴定非母亲等位基因。例如,如上所述,胎儿dna比母亲dna更短。因此,一个长dna分子可能包括一个母亲等位基因,而一个短dna分子可能包括一个非母亲等位基因。表明非母亲等位基因的特征可能与基因座中dna分子的尺寸参数有关。尺寸参数可能是某一绝对尺寸或相对于其它dna分子的某一尺寸。
[0200]
鉴定具有非母亲等位基因的基因座可基于与母亲等位基因的尺寸差异。更大的胎儿dna分数可与至少显示与另一数据集中分子具有某一尺寸差异的一个数据集中分子的位点的更大比例相关。
[0201]
作为实例,分析了来自孕妇的母亲dna的一个等分的浅深度序列数据,并鉴定了具有长度大于166bp的dna分子的第一组基因座。具有来自同一孕妇的母亲和胎儿dna的第二个等分在浅深度处测序。在来自第二等份的数据中,鉴定了具有短于143bp的尺寸参数(尺寸值)的dna分子的第二组基因座。换句话说,给定基因座处两个等分的dna分子的尺寸参数之间的差异至少为23bp。第二组基因座中的基因座数目除以第一组基因座中的基因座数目得到具有至少23bp尺寸差异的基因座比例。还确定了孕妇的胎儿dna分数。对另外23名孕妇重复该过程并绘制结果。该计算还可以通过以下步骤完成,首先确定尺寸值在尺寸阈值以下的基因座,然后确定具有在第二阈值以上的尺寸值的那些基因座在不同等分中的比例。
[0202]
图15显示胎儿dna分数与显示尺寸差异的基因座之间的关系。x轴是两个等份之间显示至少23bp的尺寸差异的基因座百分比的比例。y轴是胎儿dna分数。胎儿dna分数与显示尺寸差异的基因座比例之间呈正相关。r平方为0.62(p=0.0011)。
[0203]
显示尺寸差异的基因座比例与胎儿dna分数之间的相关性显示,可以使用显示尺寸差异的基因座比例作为参数(类似于aad)来估计胎儿dna分数。尺寸差异不一定是23bp。在其它实施例中,尺寸差异可以是至少10、20、30、40或50bp。每组基因座的数据可能不是来自两个不同的等分部分。数据可以从相同的生物样品获得。
[0204]
最小尺寸差异可以用作鉴定非母亲等位基因的另外的因子。利用浅度测序,如果在与第一个数据集中的母亲等位基因不同的第二个数据集中发现等位基因,则第二个数据集中的等位基因可能是非母亲等位基因。然而,第二个数据集中的等位基因也可能是一个母亲等位基因,由于深度较浅,所以在第一个数据集中没有进行测序。如果第二数据集中的等位基因与母亲等位基因的尺寸相似,那么该等位基因可能是第二母亲等位基因。因此,考虑第二个数据集中的等位基因的尺寸差异可以改善具有非母亲等位基因的基因座的鉴定。
[0205]
f.测量具有显示尺寸差异的dna分子的基因座的胎儿dna分数的示例性方法
[0206]
图16显示测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法1600。生物样品包括母亲dna分子和胎儿dna分子。生物样品可以是本文所述的任何生物样品。
[0207]
在框1602中,方法1600包括接收来自第一多个dna分子的第一多个读取的数据集。数据集可以通过计算机系统从测序设备或数据存储设备接收。第一多个dna分子可以或不可以在生物样品中。第一多个dna分子可以来自不具有胎儿dna的生物样品。
[0208]
在框1603中,方法1600包括鉴定参照基因组中的第一多个读取的位置,以及确定对应于第一多个读取的dna分子的尺寸。
[0209]
在框1604中,方法1600包括鉴定第一数据集中的第一组基因座。包含第一组基因座中的每一个基因座的读取的第一多个dna分子具有第一尺寸分布,并且具有超过第一尺寸阈值的第一分布的第一尺寸值。在一些实施例中,包含第一组基因座中的读取的所有dna分子超过第一尺寸阈值。如方法900中所描述的,第一组基因座可以从参照数据库的一组基因座中选择,或者考虑其他因素。多个读取可以处于浅深度处。
[0210]
在框1606中,方法1600包括确定第一量的基因座。第一量可以是来自第一数据集的第一组基因座中的基因座的数目。
[0211]
在框1608中,可以接收来自生物样品的第二多个dna分子的第二多个读取的第二数据集。第二数据集可通过计算机系统从测序装置或数据存储装置接收。方法1600可以包括测量第二多个dna分子的尺寸,或接收第二多个dna分子的尺寸信息。
[0212]
在框1609中,方法1600包括鉴定参照基因组中的第二多个读取的位置,以及确定对应于第二多个读取的dna分子的尺寸。
[0213]
在框1610中,鉴定来自多个读取的第二数据集中的第二组基因座。第二组基因座的每个基因座是第一组基因座的一个基因座。包含第二组基因座中的每一个中的读取的dna分子具有第二尺寸分布,并且具有超过第二尺寸阈值的第二分布的第二尺寸值,所述第二尺寸值在与超过所述第一尺寸阈值的所述第一尺寸值的相反方向上。
[0214]
第一尺寸值可以大于第一尺寸阈值,并且第二尺寸值可以小于第二尺寸阈值,并且第二尺寸阈值可以小于第一尺寸阈值。在其它实施例中,第一尺寸值可以小于第一尺寸阈值,第二尺寸值可以大于第二尺寸阈值,并且第二尺寸阈值大于第一尺寸阈值。
[0215]
在框1612中,方法1600包括确定第二数据集中的一组基因座中的第二量的基因座。第二量可以是第二组基因座中的基因座的数目。
[0216]
在框1614中,可以确定第一量和第二量的归一化参数。在一些实施例中,归一化参数可以包括第二量除以第一量。归一化参数可以是具有小于一定尺寸的dna分子的基因座数目与具有大于一定尺寸的dna分子的基因座数目的比率。在其它实施例中,归一化参数可以包括第二量除以第一量和第二量之和。在这些实施例中,归一化参数可以是具有较小尺寸的dna分子的基因座数目与基因座总数目的比例。归一化参数也可以是这些计算中的任一个的倒数。归一化参数可以是一种aad类型。
[0217]
在框1616中,方法1600可以包括将参数值与使用具有已知胎儿dna分数的至少一个其它样品(例如,校准样品)确定的校准点以及对应于至少一个其它样品中的参数的单独测量值的校准值进行比较。校准点可以是多个校准点中的一个校准点。多个校准点可以构成校准曲线。校准曲线可以是拟合到已知胎儿dna分数的数据点以及对不同生物样品确定的归一化参数的曲线。校准曲线可以是数据点的线性回归。校准曲线可能具有不等于1的斜
率。
[0218]
校准曲线可使用已知胎儿dna分数和来自另一种生物样品的归一化参数(即,第二归一化参数)来确定,归一化参数通过与来自目前正在被分析的生物样品的归一化参数(即,第一归一化参数)相似的方法确定。第二归一化参数也可以通过类似于框1602至1614的操作来确定。与来自另一种生物样品的数据集中的基因座相关的读取的数目可以大约等于当前生物样品中的读取的数目。读取的数目可以在彼此的1x、5x或10x内。
[0219]
在框1618中,基于比较来计算胎儿dna分数。胎儿dna分数可以是对应于归一化参数的相同值的校准曲线中的胎儿dna分数。在一些实施例中,胎儿dna分数可以插在归一化参数的两个值的两个胎儿dna分数之间。在其它实施例中,校准曲线可以是y=mx+b形式的线性等式,其中y是胎儿dna分数,x是归一化参数,并且m和b是拟合到校准曲线的参数。
[0220]
iii.进一步实施例
[0221]
实施例1包括测量怀有胎儿的孕妇的生物样品中的胎儿dna分数的方法,所述生物样品包括母亲dna分子和胎儿dna分子,所述方法包括:获得来自生物样品的dna分子的多个读取;鉴定在该处女性是纯合的多个位点;确定在所述多个位点处显示非母亲等位基因的第一量的读取;确定所述多个位点处的读取总量;由第一量和总量确定非母亲等位基因分数;获得使用已知胎儿dna分数和测量的非母亲等位基因分数确定的校准曲线;并使用校准曲线和非母亲等位基因分数计算胎儿dna分数。
[0222]
实施例2包括实施例1的方法,还包括:通过以下方式计算校准曲线:确定来自多个孕妇的多个其它样品的胎儿dna分数;计算多个样品的非母亲分数;并将胎儿dna分数和非母亲分数拟合到线性函数。
[0223]
实施例3包括实施例2的方法,其中确定另一样品的胎儿dna分数包括:鉴定在该处胎儿是杂合的且孕妇是纯合的第二多个位点;从另一样品的dna分子获得多个读取;确定在所述第二多个位点处具有胎儿特异性等位基因的第二量的读取;确定在所述第二多个位点处具有共有等位基因的第三量的读取;以及使用第二量和第三量确定胎儿dna分数。
[0224]
4包括实施例1的方法,其中非母亲等位基因限于在数据库中被鉴定为对应于双等位基因位点的等位基因。
[0225]
实施例5包括实施例1的方法,其中鉴定在该处女性是纯合的多个位点包括对来自女性的细胞样品进行基因分型。
[0226]
实施例6包括实施例1的方法,还包括:接收生物样品;并对生物样品中的多个dna分子进行测序以获得读取。
[0227]
实施例7包括实施例1的方法,还包括:接收生物样品;以及使用探针微阵列分析生物样品中的多个dna分子以获得读取。
[0228]
实施例8包括一种包括计算机可读介质的计算机产品,该计算机可读介质存储用于控制计算机系统执行实施例1-7中的任何方法的操作的多个指令。
[0229]
实施例9包括一个系统,该系统包括:实施例8的计算机产品;以及用于执行存储在计算机可读介质上的指令的一个或多个处理器。
[0230]
实施例10包括一种系统,该系统包括用于执行实施例1-7的任何方法的装置。
[0231]
实施例11包括被配置成执行实施例1-7的任何方法的系统。
[0232]
实施例12包括一种系统,该系统包括分别执行实施例1-7中的任何方法的步骤的
模块。
[0233]
iv.计算机系统
[0234]
本文提到的任何计算机系统可以使用任何合适数量的子系统。该子系统的实例在图17中显示在计算机系统10中。在一些实施例中,计算机系统包括单个计算机装置,其中子系统可以是计算机装置的组件。在其它实施例中,计算机系统可以包括具有内部组件的多个计算机装置,每个计算机装置是子系统。计算机系统可以包括台式和膝上型计算机、平板电脑、移动电话和其它移动设备。
[0235]
图17中所示的子系统通过系统总线75互连。显示了附加的子系统,诸如打印机74、键盘78、存储设备79、耦合到显示适配器82的监视器76等。耦合到i/o控制器71的外围设备和输入/输出(i/o)设备可以通过本领域已知的任何数量的装置连接到计算机系统,例如输入/输出(i/o)端口77(例如,usb、)。例如,可使用i/o端口77或外部接口81(例如,以太网、wi-fi等)将计算机系统10连接到诸如互联网、鼠标输入设备或扫描仪的广域网。经由系统总线75的互连允许中央处理器73与每个子系统通信并且控制来自系统存储器72或存储设备79(例如,诸如硬盘驱动器的固定磁盘或者光盘)的指令的执行以及子系统之间的信息交换。系统存储器72和/或存储设备79可以体现为计算机可读介质。另一个子系统是数据收集设备85,例如照相机、麦克风、加速度计等。这里提到的任何数据都可以从一个组件输出到另一个组件,并且可以输出给用户。
[0236]
计算机系统可以包括多个相同的组件或子系统,例如通过外部接口81或通过内部接口连接在一起。在一些实施例中,计算机系统、子系统或设备可以通过网络进行通信。在这种情况下,一台计算机可以被认为是一个客户端,另一台计算机是一台服务器,每个可以是同一计算机系统的一部分。客户端和服务器可以分别包含多个系统、子系统或组件。
[0237]
应当理解,本发明的任何实施例可以以控制逻辑的形式使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用具有通常可编程的处理器的计算机软件以模块化或集成的方式实施。如本文所使用的,处理器包括单核处理器,同一集成芯片上的多核处理器,或单个电路板上的多个处理单元或联网处理单元。基于在此提供的公开和教导,本领域的普通技术人员将会知道并且意识到使用硬件以及硬件和软件的组合来实现本发明的实施例的其他方式和/或方法。
[0238]
本技术中描述的任何软件组件或功能可以实现为软件代码,其将通过使用任何合适的计算机语言的处理器来执行(比如,例如java、c、c++、c#、objective-、swift或脚本语言,例如perl或python,其使用例如常规的或面向对象的技术。软件代码可以被存储为用于存储和/或传输的计算机可读介质上的一系列指令或命令。合适的非暂时性计算机可读介质可以包括随机存取存储器(ram)、只读存储器(rom)、例如硬盘驱动器或软盘的磁媒介、或例如光盘(cd)或dvd(数字多功能盘)的光学媒介、闪存等。计算机可读介质可以是这种存储或传输装置的任何组合。
[0239]
这种程序还可以使用适合于经由符合包括因特网的各种协议的有线、光学和/或无线网络的传输的载波信号来编码和传输。因此,根据本发明的一个实施例的计算机可读介质可以使用用这种程序编码的数据信号来创建。用程序代码编码的计算机可读介质可以与兼容设备封装在一起,或者与其它设备分开提供(例如经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、cd或整个计算机系统)上或
内部,并且可以存在于系统或网络内的不同计算机产品上或内部。计算机系统可以包括用于向用户提供本文提到的任何结果的监视器、打印机或其它合适的显示器。
[0240]
图18显示了示例性测序系统。在图18中描绘的系统包括测序装置1802和作为计算机系统1806的一部分的智能模块1804。测序装置1802可以包括本文所述的任何测序装置。计算机系统1806可以包括计算机系统10的一部分或全部。数据集(测序读取数据集)经由网络连接或直接连接从测序装置1802传输到智能模块1804或者反之亦然。数据集可以例如被处理以鉴定某些基因座。鉴定和确定步骤可以通过存储在计算机系统1806的硬件上的软件来实现。数据集可以通过在处理器上运行并存储在智能模块的存储设备上的计算机代码来处理,并且在处理后被转移回到分析模块的存储设备,其中修改后的数据可以显示在显示装置上。在一些实施例中,智能模块也可以在测序装置中实施。
[0241]
图19显示了计算机系统1900可以包括接收装置1910,其可以包括,例如,接收从测序装置获得的测序数据。计算机系统1900还可以包括用于从来自dna分子的多个读取中鉴定第一数据集中的第一组基因座的鉴定装置1920。计算机系统1900还可以包括用于确定第一数据集中的第一组基因座中的第一量的基因座的确定装置1930。计算机系统1900还可以包括用于从多个读取中鉴定第二数据集中的第二组基因座的鉴定装置1940。计算机系统1900也可以包括用于确定第二数据集中的第二组基因座中的第二量的基因座的确定装置1950。计算机系统1900还可以包括用于确定第一量和第二量的归一化参数的确定装置1960。计算机系统1900可以额外地包括用于获得使用已知胎儿dna分数确定的校准点的获得装置1970。计算机系统1900还可以包括用于使用校准点和归一化参数来计算胎儿dna分数的计算装置1980。
[0242]
本文中所描述的任何方法可完全或部分地用包含一个或多个处理器的计算机系统执行,所述处理器可被配置成执行所述步骤。因此,实施例可以涉及被配置成执行本文描述的任何方法的步骤的计算机系统,潜在地利用执行相应步骤或相应步骤组的不同组件。虽然以编号的步骤呈现,但是本文的方法的步骤可以同时或以不同的顺序执行。另外,这些步骤的一部分可以与来自其它方法的其它步骤的一部分一起使用。而且,一个步骤的全部或各部分可以是任选的。另外,可以用模块、单元、电路或用于执行这些步骤的其它手段来执行任何方法的任何步骤。
[0243]
在不脱离本发明的实施例的精神和范围的情况下,特定实施例的具体细节可以以任何合适的方式组合。然而,本发明的其它实施例可以涉及与每个单独方面有关的具体实施例,或者这些单独方面的具体组合的具体实施例。
[0244]
已经出于说明和描述的目的呈现了本发明的实例实施例的以上描述。这并不意味着穷举或将本发明限制于所描述的精确形式,并且鉴于上述教导,许多修改和变化是可能的。
[0245]
在前面的描述中,为了解释的目的,已经阐述了许多细节以便提供对本技术的各种实施例的理解。然而,对于本领域技术人员来说显而易见的是,某些实施例可以在没有这些细节中的一些的情况下或者利用附加细节来实践。
[0246]
已经描述了若干实施例,本领域技术人员将认识到,在不脱离本发明的精神的情况下,可以使用各种修改、替换构造和等同物。另外,为了避免不必要地模糊本发明,没有描述许多公知的工艺和元件。另外,任何具体实施例的细节可能不总是存在于该实施例的变
体中,或者可以被添加到其它实施例中。
[0247]
在提供数值范围的情况下,应理解的是,除非上下文清楚地另外指出,否则也具体公开在该范围的上限与下限之间的每个中间值,至下限单位的十分之一。涵盖在所述范围内的任何设定值或中间值与所述范围内的任何其它设定值或中间值之间的每个更小范围。这些较小范围的上限和下限可以独立地包括在该范围内或排除在外,并且其中任一个,没有一个或两个限值包括在较小范围内的每个范围也涵盖在本发明内,受限于所述范围中任何明确排除的限值。在所述范围包括一个或两个限值的情况下,也包括排除这些限值中的一个或两个的范围。
[0248]
除非特别指出相反,否则对“一个”(a)、“一个”(an)或“所述”的引用旨在意指“一个或多个”。除非特别指出相反,否则“或”的使用旨在意指“包含性的”,而不是“排它性的”。
[0249]
出于所有目的,本文提及的所有专利、专利申请、出版物和说明书通过引用整体并入。其中任何一个没有被承认是现有技术。




上一篇:DNA二代测序进化分析服务公司「上海探普生物供
下一篇:没有了