ChIP-seq技术简介
染色质免疫共沉淀结合高通量测序(ChIP-seq),是一种用于分析蛋白质与DNA交互作用的研究方法。该技术将染色质免疫沉淀(ChIP)与大规模并行DNA测序结合起来以鉴定DNA与相关蛋白结合的部位,可用于精确定位感兴趣的蛋白在全基因组上的结合位点。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。ChIP-seq通常用来确定转录因子、组蛋白和其他染色质相关蛋白是如何影响基因表达和表型的作用机制。
产品优势
1、针对不同研究领域提供个性化方案;
2、分析流程全备,数据解读详细,后期数据挖掘可提供个性化分析;
3、研究思路丰富:与RNA-seq连用,可探索DNA与蛋白互作会影响基因转录,从而使表达发生改变;与ChIP-PCR连用,可验证DNA与蛋白的结合;可对DNA与蛋白的结合位点进行敲除,再对二者的结合情况进行检测,深入验证DNA与蛋白的结合特征和功能。
产品应用
1.ChIP-seq可以研究组蛋白的修饰情况,以剖析表观遗传特征和生物学功能;
2.ChIP-seq可用来研究转录因子结合位点,解析该转录因子作用的通路信息;
3.ChIP-seq技术可得到核小体的定位图谱,核小体定位在转录调控,DNA复制和修复等多种细胞过程中并起着重要作用;
4.ChIP-seq技术可研究DNA的甲基化情况,DNA甲基化会引起染色体结构、DNA构象、DNA稳定性以及DNA与蛋白质相互作用方式的改变,从而控制基因表达。
数据联用
1.ChIP-seq与RNA-seq连用,可探索DNA与蛋白互作会影响基因转录,从而使表达发生改变。
2.ChIP-seq与ChIP-PCR连用,可验证DNA与蛋白的结合。
3.可对DNA与蛋白的结合位点进行敲除,再对二者的结合情况进行检测,深入验证DNA与蛋白的结合。
案例解析
MACF1通过在细胞质中隔离抑制因子来促进成骨细胞的分化(Cell Death Differ.IF=12.067)

在这项研究中,作者揭示了细胞骨架蛋白MACF1调控成骨细胞分化的机制。当细胞内MACF1水平较高时,MACF1会与细胞骨架及微管蛋白结合,从而有效的隔离了细胞质中成骨分化相关的抑制因子,确保了成骨细胞的动态分化过程。当细胞内MACF1降低时,成骨分化相关抑制因子会核易位进入细胞核中,从而抑制成骨分化相关基因的转录。该研究首次发现细胞骨架蛋白MACF1通过影响成骨分化相关的转录因子在细胞中的定位,影响成骨细胞的分化。

参考文献:

Hu, L., C. Yin, D. Chen, Z. Wu, S. Liang, Y. Zhang, Z. Huang, S. Liu, X. Xu, Z. Chen, Y. Zhang and A. Qian (2021). “MACF1 promotes osteoblast differentiation by sequestering repressors in cytoplasm.” Cell Death Differ.

一、ChIP-seq数据分析流程

一、ChIP-seq数据质量分析

Clean reads碱基质量分析

方法描述:碱基质量值是衡量测序质量的重要指标,碱基质量(Q)与测序错误率(P)密切相关,受测序仪状态,测序试剂质量,样本特性等的影响。质量值计算公式如下:

结果展示

GC含量分析

方法描述:对测序reads中四种碱基的分布比例进行评估,检查是否存在AT、CG分离现象,理论上A与T、C与G的含量在整个测序反应中分别相同,且维持 在稳定水平。

有效长度统计

方法描述:去掉index序列、建库平衡用随机碱基及截取掉后面低质量的碱基后,我们用获得的clean reads进行有效长度分析。

cDNA库的代表性分析

方法描述:如果PCR扩增过度,文库中会含有大量序列完全相同的reads。为了保证文库更好代表原始DNA的丰度,本公司在建库中对PCR扩增循环有严格控制。PCR duplication level计算方法为:从测序数据中随机挑选20万reads作为Total Reads,按照如下公式进行计算: PCR duplication level=Duplication reads/ Total reads

结果展示

三、ChIP-seq结果展示

全基因组定位分析

Reads比对到参考基因组结果

方法描述:根据不同的基因组的特征,选取相对合适的软件,动植物用HISAT2 (Kim D, Langmead B et al. 2015)、真菌或者基因密度较高的物种用Bowtie2(Langmead and Salzberg 2012),根据需要会设定一定的容错率,将有效测序数据(clean reads)比对到参考基因组上。

Reads在基因组不同区域的分布情况

方法描述:统计在基因组上有唯一定位的reads在各个区域的分布情况

基因组的覆盖度分析

方法描述:对基因组覆盖度进行统计,下图反映的是不同覆盖度的区域在参考基因组中所占的比例

结果展示

reads在转录起始位点,转录终止位点,起始密码子和终止密码子附近的分布

方法描述:分别以转录起始位点/转录终止位点,翻译起始密码子/终止密码子为原点,统计其上下游1kb范围内reads的分布情况

结果展示

样本相关性分析

方法描述:首先我们将染色体按照每10kb的长度为一个bin进行等分,计算每个bin的RPKM值,然后根据两个样本中每个bin的RPKM值进行样本间的相关性分析。IP项目中,如果样本间相关性系数高,则说明两个样本中大部分reads在染色体上的分布情况类似,暗示实验中IP样本结合的RNA/DNA的富集程度和特异性较低。

样本聚类分析

方法描述:在这部分分析中,根据样本相关性系数进行样本间聚类分析。

结合峰分析

结合峰统计

方法描述:本项目使用上述策略,以Input样本为背景,对IP样本进行Peak Calling,得到IP样本特异的结合峰(peak)并进行统计,结果如下:

结合峰在TSS附近的分布

方法描述:对IP样本特异的结合峰,根据其距转录起始位点(TSS)的距离进行位置分布统计,获得其在TSS附近的分布情况,如下图:

结合峰宽度统计

方法描述:对IP样本特异的结合峰的宽度进行统计,得到结果如下:

结合峰重叠分析

方法描述:维恩图主要展示两次重复实验中重叠的peak的数目。

结合基序分析

方法描述:我们用HOMER (Hypergeometric Optimization of Motif EnRichment)对IP样本特异的结合峰进行motif分析。

结合峰相关基因聚类Gene Ontology 富集分析

方法描述

1. 利用blast将参考基因组的基因序列比对到Gene Ontology数据库,进行GO注释;

2. 提取比对结果,作为背景即background;

3. 根据结合峰相关基因(peak associated gene)注释信息,统计每个基因所在的GO Term,根据每个Term的基因数目,以及背景中此Term的基因数目,用Fisher Exact Test分析每个Term的显著性。

4. 选取排名前10的GO Term及其校正p-value和百分比作图进行展示。

结合峰相关基因KEGG Pathway富集分析