一、ChIP-seq数据分析流程
一、ChIP-seq数据质量分析
Clean reads碱基质量分析
方法描述:碱基质量值是衡量测序质量的重要指标,碱基质量(Q)与测序错误率(P)密切相关,受测序仪状态,测序试剂质量,样本特性等的影响。质量值计算公式如下:
结果展示
GC含量分析
方法描述:对测序reads中四种碱基的分布比例进行评估,检查是否存在AT、CG分离现象,理论上A与T、C与G的含量在整个测序反应中分别相同,且维持 在稳定水平。
有效长度统计
方法描述:去掉index序列、建库平衡用随机碱基及截取掉后面低质量的碱基后,我们用获得的clean reads进行有效长度分析。
cDNA库的代表性分析
方法描述:如果PCR扩增过度,文库中会含有大量序列完全相同的reads。为了保证文库更好代表原始DNA的丰度,本公司在建库中对PCR扩增循环有严格控制。PCR duplication level计算方法为:从测序数据中随机挑选20万reads作为Total Reads,按照如下公式进行计算: PCR duplication level=Duplication reads/ Total reads
结果展示
三、ChIP-seq结果展示
全基因组定位分析
Reads比对到参考基因组结果
方法描述:根据不同的基因组的特征,选取相对合适的软件,动植物用HISAT2 (Kim D, Langmead B et al. 2015)、真菌或者基因密度较高的物种用Bowtie2(Langmead and Salzberg 2012),根据需要会设定一定的容错率,将有效测序数据(clean reads)比对到参考基因组上。
Reads在基因组不同区域的分布情况
方法描述:统计在基因组上有唯一定位的reads在各个区域的分布情况
基因组的覆盖度分析
方法描述:对基因组覆盖度进行统计,下图反映的是不同覆盖度的区域在参考基因组中所占的比例
结果展示
reads在转录起始位点,转录终止位点,起始密码子和终止密码子附近的分布
方法描述:分别以转录起始位点/转录终止位点,翻译起始密码子/终止密码子为原点,统计其上下游1kb范围内reads的分布情况
结果展示
样本相关性分析
方法描述:首先我们将染色体按照每10kb的长度为一个bin进行等分,计算每个bin的RPKM值,然后根据两个样本中每个bin的RPKM值进行样本间的相关性分析。IP项目中,如果样本间相关性系数高,则说明两个样本中大部分reads在染色体上的分布情况类似,暗示实验中IP样本结合的RNA/DNA的富集程度和特异性较低。
样本聚类分析
方法描述:在这部分分析中,根据样本相关性系数进行样本间聚类分析。
结合峰分析
结合峰统计
方法描述:本项目使用上述策略,以Input样本为背景,对IP样本进行Peak Calling,得到IP样本特异的结合峰(peak)并进行统计,结果如下:
结合峰在TSS附近的分布
方法描述:对IP样本特异的结合峰,根据其距转录起始位点(TSS)的距离进行位置分布统计,获得其在TSS附近的分布情况,如下图:
结合峰宽度统计
方法描述:对IP样本特异的结合峰的宽度进行统计,得到结果如下:
结合峰重叠分析
方法描述:维恩图主要展示两次重复实验中重叠的peak的数目。
结合基序分析
方法描述:我们用HOMER (Hypergeometric Optimization of Motif EnRichment)对IP样本特异的结合峰进行motif分析。
结合峰相关基因聚类Gene Ontology 富集分析
方法描述:
1. 利用blast将参考基因组的基因序列比对到Gene Ontology数据库,进行GO注释;
2. 提取比对结果,作为背景即background;
3. 根据结合峰相关基因(peak associated gene)注释信息,统计每个基因所在的GO Term,根据每个Term的基因数目,以及背景中此Term的基因数目,用Fisher Exact Test分析每个Term的显著性。
4. 选取排名前10的GO Term及其校正p-value和百分比作图进行展示。