已知基因名,如何查找该基因对应的转录本,即



1.1 打开NCBI网页,选择"gene",输入所需的基因名称(可简写),如THRA,搜索;

1.2 在右上角选择种属,如homo sapiens,点击进入,再根据结果描述,选择所需基因,一般选择第一个,进入;

1.3 往下拉网页,在"NCBI Reference sequence (Refseq)"下方,NG_023345.1就是该基因的genomic DNA序列号,

NM_001190918.1 就是其异构体3的mRNA序列号,而 NP_001177847.1就是NM_001190918.1 相应的氨基酸序列号,

同理,NM_001190919.1 → NP_001177848.1 分别是异构体2的mRNA和氨基酸序列号,点击进入相应页面就会出现详细的外显子、编码序列等信息。

2. 如何选择常用的mRNA序列

    由于不同的剪切方式,会得到不同的转录本,即mRNA序列;一个基因可能会有多个mRNA序列,那如何选择常用的mRNA序列呢?推荐一个查询网站:mutation@glance,;输入所查找的基因,如THRA,submit,便会出现THRA的相应界面,Reference sequence: NM_001190919.1即常用的mRNA序列号。另外,该网站也提供了目前文献报道的已知突变位点和SNP位点。

3. 如何得到所需mRNA信息

    在得到常用的mRNA序列号后,点击1.3中该序列号,进入该mRNA的相关信息,在FEATURES中以下信息分别所指含义如下:

    3.1 source 中/map="17q11.2"是指该基因位于3号染色体长臂(q)1带1区2亚区;

3.2 gene 1..2547 表示THRA所对应常用mRNA长度2547bp;

3.3 CDS 为该mRNA编码THRA蛋白的氨基酸序列:

                     /translation="MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIP

SYLDKDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKI

TRNQCQLCRFKKCIAVGMAMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEP

TPEEWDLIHIATEAHRSTNAQGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEF

TKIITPAITRVVDFAKKLPMFSELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTL

SGEMAVKREQLKNGGLGVVSDAIFELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLC

VDKIEKSQEAYLLAFEHYVNHRKHNIPHFWPKLLMKEREVQSSILYKGAAAEGRPGGS

LGVHPEGQQLLGMHVVQGPQVRQLEQQLGEAGSLQGPVLQHQSPKSPQQRLLELLHRS

GILHARAVCGEDDSSEADSPSSSEEEPEVCEDLAGNAASP"

557..2029是编码mRNA的起始位置,即THRA基因(homo sapiens)编码序列长度是2029-557+1=1473bp,编码蛋白是由1473/3=491个氨基酸构成。

3.4 exon 是外显子相应的mRNA序列。exon 610..677是指该exon对应的mRNA位置为610到677,以此类推;

3.5 ORIGIN部分就是具体的碱基序列,即转录本序列,可以用来参照设计引物。

以上参考#25270214。

4. 关于大量获取基因集的相关mRNA序列信息

在NCBI上可得到某一基因的相关mRNA序列,如果想要得到某一基因集的相关序列,则可在UCSC上下载。

4.1 登录,选择Table Browser。

4.2 在clade上选择Mammal,genome上选择Human;group上选择Gene and Gene Predictions,track上选择UCSC Genes;在table上选择knownGene;region上选择genome。

    在选择output format时,选择all fields from selected table,即默认输出#bin name chrom strand txStart txEnd cdsStart cdsEnd exonCount exonStarts exonEnds score name2 cdsStartStat cdsEndStat exonFrames;选择selected fields from primary and related tables,可自行选择输出相关信息,如#hg19.knownGene.name hg19.kgXref.mRNA hg19.kgXref.geneSymbol;选择sequence时,可选择genomic、protein、mRNA,在获取某一基因集的mRNA时,选择mRNA,即得到某一基因集的相关mRNA转录本序列;但是所得序列名称为UCSC ID,需转换为mRNA序列号和对应基因名称,则可在选择selected fields from primary and 

related tables时,输出对应信息即可;最后在output file中填入所需下载文本名称,点击get output即可下载。

5. 相关介绍

mRNA(messenger RNA)信使RNA,是由编码区(CDS)、上游的5’非编码区和下游3’非编码区组成,真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI中mRNA序列实际上是cDNA序列,即经过反转录得到的与RNA序列互补的DNA序列,一般不包括3’多腺苷酸尾巴。一个cDNA序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS),cDNA都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS(coding sequence),这段序列也就是一个ORF区,也就是这个cDNA的ORF序列。参与特定基因转录及其调控的TSS上游序列称为启动子(Promoter),如原核生物在转录起始位点上游-10有一段TATAAT的保守序列,有助于局部解链,在-35有一段TTGACA序列提供RNA聚合酶识别信号,真核生物上游-25到-30TATA决定起始位点,-75位置CAAT与RNA聚合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。




上一篇:利用表达序列标签电子克隆cDNA全序列的策略
下一篇:真菌细胞色素P450在大肠杆菌中的表达