CAGE-seq技术介绍
CAGE-seq,即加帽端mRNA测序,主要是鉴定转录起始位点(TSS)。绝大多数基因有两个甚至两个以上的转录起始位点,不同的转录起始位点会导致基因受到不同的上游非翻译区的调控作用(5'UTR)。不同的5'UTR序列中可能包含截然不同的作用元件,不同的起始位点导致了基因的表达所响应的信号也完全不同。同一个基因有可能受不同的启动子调控而导致表达的差异,可能会导致某些疾病的发生。CAGE-seq可以对mRNA中所有的TSS进行鉴定,发现新的启动子,以及差异表达分析,还可以推测可能的转录因子结合位点以及基因表达的网络调控。这是通过加帽位点鉴定实现的。

一、CAGE-seq数据分析方案流程

二、CAGE-seq测序数据质量分析

Clean reads数据质量分析

方法描述:碱基质量值是衡量测序质量的重要指标,碱基质量(Q)与测序错误率(P)密切相关,受测序仪状态,测序试剂质量,样本特性等的影响。质量值计算公式如下:

结果展示

GC含量分析

方法描述:对测序reads中四种碱基的分布比例进行评估,检查是否存在AT、CG分离现象,理论上A与T、C与G的含量在整个测序反应中分别相同,且维持 在稳定水平。

有效长度统计

方法描述:去掉index序列、建库平衡用随机碱基及截取掉后面低质量的碱基后,我们用获得的clean reads进行有效长度分析。

reads冗余度统计

在cDNA文库构建的过程中对捕获的mRNA/ncRNA 进行随机片段化,随后加接头并进行RT-PCR。一个多样性的文库中大多数序列应该只出现一次,低水平的序列冗余度往往表明高水平的靶标序列覆盖度,而高水平的序列冗余度则意味着一定程度上的偏好富集性,如文库构建过程中PCR过度扩增。通常测序深度越高,越容易产生一定程度的重复reads,属于正常的现象。实际操作中,由于数据量较大,为了降低计算中对内存的要求,仅选取了每个文件的前200,000条reads进行分析,认为其可以代表全部序列的冗余度。

PCR duplication level计算方法为:从测序数据中随机挑选20万reads作为Total Reads,按照如下公式进行计算:PCR duplication level=Duplication Reads/Total Reads

三、RNA-seq结果展示

全基因组定位分析

Reads比对到参考基因组结果

方法描述:分析中对真核生物的转录组测序数据采用tophat2,原核生物的转录组测序数据采用bowtie2将reads比对到参考基因组上,比对中根据需要会设定一定的容错率。对于转录组数据,在参考基因组选择合适并且实验不存在污染的情况下,测序序列的定位到参考基因组的百分比通常会高于70%(Total Mapped Reads),uniquely mapped reads(单位置比对)绝大多数来自成熟的mRNA,而多位置比对(Multiple mapped)的reads以rRNA和tRNA为主,其在clean reads中所占比例通常不到10%。下游所有分析仅使用了uniquely mapped reads,以保证分析结果的可信度。

Reads在基因组不同区域的分布情况

方法描述:将在参考基因组上有唯一定位的reads(uniquely mapped Reads)在基因组上各区域的分布情况进行统计,转录组测序中reads通常会在CDS区域富集。定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能为基因组注释不完全以及背景噪音。

Reads在染色体上的分布情况

方法描述:把基因组平均分成100000个bin,根据比在基因组上有唯一定位的(uniquely mapped)reads数,统计落在每个bin中的reads的平均depth,然后取log2,使用circos作图。

基因组的覆盖度和特征分析

方法描述:reads随转录单元长度的覆盖强度分析,以距转录起始位点和转录终止位点为标准,把cDNA平均分成100份,每一份称为一个bin,求落在每个bin中的reads平均数之和,从而得到每个bin上整体的reads覆盖度。

方法描述:把基因平均分成100份,每一份称为一个bin,求落在每个bin中的reads平均数之和,从而得到每个bin上整体的reads覆盖度。

饱和曲线检查

分别对10%,20%,30% … 90%的测序量各自进行基因定量分析,并将以完整测序量分析得到的基因表达水平作为最终表达水平。用各个百分比的数据量得到的基因表达水平和和最终表达水平进行比较,如果差异小于15%,则认为该基因在该数据量条件下被准确定量。

定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量高的基因,容易被准确定量,而表达量低的基因,则需要较大的测序量才能被准确定量。

reads在转录起始位点,转录终止位点,起始密码子和终止密码子附近的分布

方法描述:分别以转录起始位点(TSS)和转录终止位点(TTS)为原点,统计其上下游1kb范围内reads的分布情况,结果如下:

方法描述:分别以起始密码子(start codon)和终止密码子(stop codon)为原点,统计其上下游1kb范围内reads的分布情况,结果如下:

基因表达情况

方法描述:一个基因表达水平的直接体现是其转录本的丰度,转录本丰度程度越高,则基因表达水平越高。在RNA-seq分析中,我们通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度、测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,引入了RPKM的概念,RPKM(reads per kilobase per millionmapped reads)是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法。通过对mRNA长度和测序深度进行均一化(RPKM),使不同测序样本之间的表达丰度具有可比性,消除了因mRNA长度和不同样本之间测序丰度差异带来的偏差。计算公式:

RPKM=exon reads/(unique mapped reads*exon length),在此公式中,unique mapped reads为每个样本中在参考基因组上有唯一定位的reads数目(以百万位单位),exon length为每个基因的外显子长度之和(以kb为单位),而分子为每个基因上的reads数目。此处图为基因的RPKM值累计分布图,横坐标表示RPKM值,纵坐标表示基因百分比,蓝色线上的每个点的横纵坐标分别表示RPKM值小于等于该值的基因所占的百分比。

四、CAGE位点分析

CAGE位点检出

方法描述:TC在基因组上的分布情况统计如下:

CAGE位点在基因组上的分布

方法描述:TC在基因组上的分布情况统计如下:

CAGE位点距离统计

方法描述:每个样本中TC之间的距离统计结果如下:

样本相关性分析

方法描述:我们通过比较同一CAGE位点在不同样本间的TPM,进行任意两个样本之间的相关性分析,检查不同样品之间相关性。

TC差异分析

方法描述:使用CAGE进行样本间比较,根据位置差异计算出CAGE位点的shitf score,并用柯尔莫诺夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)进行显著性分析,获得不同样本间位置和丰度发生显著变化的CAGE位点。

TC发生差异的基因的Gene Ontology富集分析

方法描述:

  • 利用blast将参考基因组的基因序列比对到Gene Ontology数据库,进行GO注释;
  • 提取比对结果,作为背景即background;
  • 根据shifting promoter分析结果,统计每个promoter所属基因所在的GO Term,根据每个Term的基因数目,以及背景中此Term的基因数目,用Fisher Exact Test分析每个Term的显著性;
  • 选取排名前10的GO Term及其校正p-value和百分比作图进行展示。

TC发生差异的基因的KEGG Pathway富集分析

方法描述

  1. 利用blast将参考基因组的基因序列比对到KEGG数据库,进行KEGG注释;
  2. 提取比对结果,作为背景即background;
  3. 根据shifting promoter分析结果,统计每个promoter所属基因所在的KEGG pathway,根据每个pathway的基因数目,以及背景中此pathway的基因数目,用Fisher Exact Test分析每个pathway的显著性;
  4. 选取排名前10的pathway及其校正p-value和百分比作图进行展示。

NAD captureSeq indicates NAD as a bacterial cap for a subset of regulatory RNAs 原核生物RNA的NAD帽子结构

NAD captureSeq indicates NAD as a bacterial cap for a subset of regulatory RNAs 原核生物RNA的NAD帽子结构

海德堡大学的Andres Jaschke研究团队于今年在Nature上报道了第一个原核生物中的 RNA 5’端帽子结构。真核生物mRNA中的5’端帽子结构不存在于原核生物中,长期以来人们认为原核mRNA中不存在5’端帽子结构。Andres Jaschke研究团队利用化学-酶捕获和NGS手段(NAD CaptureSeq)发现了细菌RNA中的5’-NAD帽子结构,并证实这种帽子结构同样具有保护RNA分子的功能。

N6-methyladenosine marks primary microRNAs for processing miRNA甲基化的新功能

N6-methyladenosine marks primary microRNAs for processing miRNA甲基化的新功能

据今年三月的Nature杂志报道,洛克菲勒大学的Sohail F. Tavazoie团队发现m6A(N6-methyladenosine)是促进microRNA生成的关键性转录后修饰。初级microRNA(pri-miRNA)需要经过一系列的加工才能形成成熟的miRNA,这其中的第一步是由DGCR8识别pri-miRNA茎环结构,再招募DROSHA切割双链RNA,生成前体miRNA(pre-miRNA)。在此之前,DGCR8如何在众多转录本二级结构中识别并结合pri-miRNA的结构并不清楚。

A promoter-level mammalian expression atlas.

A promoter-level mammalian expression atlas.

哺乳动物个体包含至少400种细胞类型,这些细胞类型都具有一个相同的基因组,却具有独特的基因表达特征,从而具有不同的形态乃至生物学功能。不同细胞类型的特性是由转录调控决定的。目前为止我们还缺乏对生物体转录调控的全面的了解,直到最近 FANTOM 等几个团队联合发表了题为“A promoter-level mammalian expression atlas”的文章,通过CAGE-seq的方法对人和小鼠的转录起始位点(TSS)和启动子使用、转录因子调控进行了全面的描述。

这个“帽子”的结构如图所示

CAGE-seq建库原理

CAGE-seq技术优势
1. 通过靶向转录起始位点(TSS)而不是整个基因,提供高度准确和详细的基因表达分析。据估计,人类基因组中大约有50,000个基因,但已确定的TSS超过185,000个。CAGE能够恢复大部分TSS。
2. 基于每个TSS而不是每个基因的定量分析提供了一个机会来发现microarray和RNA-seq无法检测到的差异表达基因。
3. 不需要装载探针的DNA芯片,就可以对新基因进行分析。
4. 提供了更广泛的动态范围来分析高表达和低表达的基因。
5. 能够检测通常双向低水平表达的增强子RNA (eRNA)。
6. TSS的精确鉴定使转录因子结合基序的预测比microarray更好
实验步骤
1. 样品预备:
2. RNA提取
3. 加帽端捕获;
4. 文库构建
样本要求

CAGE-seq的应用案例
案例一:首次在运用CAGE-seq技术,在细菌中证实原核类似5‘cap结构的功能。原核生物RNA的5’端NAD修饰除了起到稳定RNA的作用外,还可能与特定蛋白结合,影响RNA功能(Cahova, Winz et al. 2015)。

原核基因表达的一个显著特征是缺乏59帽RNA。在真核生物中,59,59-三磷酸连接的7-甲基鸟苷保护信使RNA免受降解,并调节成熟、定位和翻译。辅因子烟酰胺腺嘌呤二核苷酸(NAD)被报道为细菌RNA2的共价修饰。考虑到NAD在氧化还原生物化学、翻译后蛋白修饰和信号转导中的核心作用,它与RNA的连接表明在这些过程中RNA有未知的功能,在RNA代谢和调控中有未发现的途径。由于(NAD)修饰RNA的身份未知,迄今为止还无法进行功能分析。在这里,研究者通过化学酶捕获和下一代测序(NAD captureSeq)从细菌中识别NAD-linked RNA。其中,特异性调控小RNA (sRNAs)和某些信使RNA的类sRNA - 59端片段尤为丰富。与真核帽类似,59-NAD修饰在体外可以稳定RNA,使其不受RNA焦磷酸水解酶RppH5的59处理和核糖核酸酶(RNase) E6的内核裂解作用。nudix磷酸水解酶nc7去除NAD NA -RNA,从而触发RNAse - e介导的RNA衰变,同时对三磷酸RNA无活性。在体内,在有功能的nnc存在时,13%的丰富sRNA RNAI被nad覆盖,26%在没有功能的nnc时。据我们所知,这是第一次描述细菌的帽状结构和脱壳机制。

案例二:运用CAGE-seq和RNA-seq研究猕猴脑组织中与age相关lncRNA的分析研究(Siling Liu et al., Genome Research. 2017)。

案例三: mRNA的翻译是基因表达的基本过程,对翻译的控制对调节细胞内蛋白质合成至关重要。真核生物mRNA的主要标志是其5 '帽结构,5 '帽与真核翻译起始因子eIF4E的分子接触控制翻译起始。这篇文章作者在这里报道了一种5 '帽类似物的光切割基团(即:FlashCaps),可以阻止5 '帽与eIF4E结合,并抑制脱帽酶的切割机制。(Nils Klöcker et al., Nature chemistry. 2022)

参考文献
1. Cahová H, Winz M L, Höfer K, et al. NAD captureSeq indicates NAD as a bacterial cap for a subset of regulatory RNAs.`{`J`}`. Nature, 2015, 519(7543).

2. Adiconis, X., Haber, A.L., Simmons, S.K. et al. Comprehensive comparative analysis of 5′-end RNA-sequencing methods. Nat Methods 15, 505–511 (2018).

3.Klöcker, N., Weissenboeck, F.P., van Dülmen, M. et al. Photocaged 5′ cap analogues for optical control of mRNA translation in cells. Nat. Chem. 14, 905–913 (2022).

 菊子曰:在烦恼为博客搬家么?