项目报告 | 百泰派克生物科技CUT&Tag结果展示

CUT&Tag（Cleavage Under Targets and Tagmentation）主要用于研究特定蛋白质与基因组DNA的相互作用。与传统的ChIP-Seq技术相比，CUT&Tag具有更高的信噪比、更少的样本需求和更简单的操作流程，使其在基因调控机制、细胞分化研究以及疾病标志物发现等领域具有广泛的应用前景。CUT&Tag技术的优势在于其高效的文库构建和精准的片段化过程。在样本制备阶段，百泰派克生物科技通过严格的DNA样品检测和文库质检，确保每一步操作的准确性和数据的高质量。在生物信息学分析中，数据清洗、比对、富集峰分析以及基因功能注释等流程有助于全面解析目标蛋白的基因组结合模式，并揭示其在细胞功能调控中的重要角色。依托先进的Protein A/G-Tn5融合蛋白体系和高通量测序平台，百泰派克生物科技为广大科研工作者提供CUT&Tag技术分析服务。百泰派克生物科技采用ISO9001质量控制体系，获国家CNAS实验室认可，丰富的项目经验与专业的技术团队为您的研究保驾护航！

一、文库构建和测序流程

从DNA样品到最终数据获得，样品检测、建库、测序每一个环节都可能会对数据质量和数量产生影响，而数据质量又会直接影响后续信息分析的结果。因此，获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性，我们对样品检测、建库、测序每一个实验环节都严格把关，从根本上确保高质量数据的产出。

1、DNA样品检测

对DNA样品的检测主要包括2种方法：

(1) 琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA污染

(2) Qubit对DNA浓度进行精确定量

2、文库构建

CUT&Tag技术的核心是pAG-Tn5融合蛋白（ChiTag），其中Protein AG能够结合抗体。在进行CUT&Tag实验时，首先将细胞与磁珠混合，然后进行靶蛋白特异性抗体（一抗）孵育，使抗体进入细胞与靶蛋白结合。为了放大信号，接着进行二抗孵育。最后孵育pAG-Tn5转座体，使得转座体进入细胞并与抗体结合，这样就把转座体间接的固定在靶蛋白上，随后加入Mg²⁺，激活Tn5酶的切割活性，打断靶蛋白结合的DNA区域。由于Tn5酶连有测序接头，在打断的同时直接在片段化的DNA上加接头，接着提取DNA，进行PCR扩增构建文库。PCR产物经过1.3X磁珠进行纯化，再经Agilent 2100分析仪(Agilent Technologies)用Quant-iTTM dsDNA HS分析试剂盒(Invitrogen，MA，USA)和qPCR对文库进行片段范围及有效浓度检测。

3、文库质检

我们对文库的质检主要包括2种方法：

(1) Agilent 2100对文库的插入片段长度进行检测，检测是否有接头二聚体污染等

(2) Qubit或者QPCR对测序文库浓度进行定量

4、上机测序

库检合格后，加入适当比例的平衡文库，进行Illumina HiSeq测序。测序的基本原理是边合成边测序（Sequencing by Synthesis)。在测序的flow cell中加入四种荧光标记的dNTP 、DNA聚合酶以及接头引物进行扩增，在每一个测序簇延伸互补链时，每加入一个被荧光标记的dNTP就能释放出其相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为测序峰，从而获得待测片段的序列信息。具体过程如下图所示：

图1

二、生物信息分析流程

cut-tag-analysis-service-gx2-2

图2

三、结果展示及说明

1、项目基本信息

（1）项目名称

8个细胞(ref: hg19) CUT&Tag测序建库及数据分析

（2）样本信息

物种信息：hsa

基因组信息：hg19 (NCBI-Assembly)

No.	Sample	Group
1	A_1	A
2	A_2	A
3	A_3	A
4	A_4	A
5	B_1	B
6	B_2	B
7	B_3	B
8	B_4	B

表1. 样本信息

（3）样本差异比较方案

ID	Information
PLAN-01	A-vs-B

表2. 差异比较

2、测序数据质量评估

高通量测序(如Illumina HiSeq PE150)得到的原始数据(Raw Data or Raw Reads)，结果以 FASTQ (简称为fq)文件格式存储。FASTQ是一种存储生物序列及相应质量评价的文本格式，每条read的信息由下述四行组成：

图3

第一行存储序列标识信息：以“@”开头，随后为Illumina 测序标识别符(Sequence dentifiers)和描述信息( 下附详述 )；第二行存储碱基序列；第三行以“+”开头，存储与第一行相同的信息或缺省；第四行存储对应碱基的测序质量，该行中字符为第二行中对应碱基的质量值加上33后转换为的ASCII码，逆向转化即可直观得到每个碱基的质量信息。

测序过程本身存在发生机器错误的可能性，测序错误率分布检查可以反映测序数据的质量,序列信息中每个碱基的质量值保存在FASTQ文件中，若reads的碱基质量值用QPhred表示，则可计算测序错误率 e=10(-QPhred/10) 或表示为 QPhred=-10log10(e)。Illunima Casava 1.8版本碱基识别与Phred分值之间的简明对应关系见下表：

Phred分值	FASTQ中对应的质量字符	错误碱基识别	碱基正确识别率	Q-sorcel
10	+(10+33)	1/10	90%	Q10
20	5(20+33)	1/100	99%	Q20
30	?(30+33)	1/1000	99.90%	Q30
40	I(40+33)	1/10000	99.99%	Q40

表3

① 由于测序过程中试剂逐渐消耗，测序错误率会随 Reads 长度增加而升高，此为illumina高通量测序平台的共有特征。

② 对于常规甲基化文库，在测序read1和read2会呈现一种方向性的特点：read1 T碱基含量较高，read2 A碱基含量较高。

测序完成后，过滤测序接头和低质量数据，将过滤后的数据与参考基因组比对。数据过滤标准为：含有adapter序列，序列中N碱基的比例超过序列总长度的5%，序列中质量值小于20的碱基比例超过序列总长度的50%，如果一条序列符合以上三个条件中的任何一个，则去除这条序列。以下是数据产量和质控后clean data的质量统计。

（1）原始数据产量

合格的数据是信息分析的基础，因此对下机数据进行质量控制（QC）是数据分析的首项内容。对下机后的数据（raw reads）产量进行基本的统计，结果如下：

Sample	Total_reads	Toal_base	Q20_base	Q20_rate	Q30_base	Q30_rate
A_1	84367884	12739550484	12217968963	95.91%	11498468735	90.26%
A_2	102558658	15486357358	14695063756	94.89%	13754381120	88.82%
A_3	77803992	11748402792	11303126127	96.21%	10680118885	90.91%
A_4	51549628	7783993828	7419204495	95.31%	6951446851	89.30%
B_1	47745092	7209508892	6931875570	96.15%	6551076633	90.87%
B_2	49459370	7468364870	7149183560	95.73%	6728721883	90.10%
B_3	61108528	9227387728	8835270383	95.75%	8317380782	90.14%
B_4	94124082	14212736382	13551174822	95.35%	12729844150	89.57%

表4. 原始数据质量统计

（2）原始数据质控过滤

数据过滤的主要目的是去除低质量的数据，保证clean data的质量。我们采用Trimming的方式截去测序数据的测序接头和低质量数据，得到的clean data用于后续分析。在进行原始数据 Trimming 时我们使用Trimmomatic软件，其数据处理的步骤具体如下：

① 截去低质量reads，使用滑动窗口的方式，4个碱基为一个窗口，若该窗口的平均碱基质量值低于15，则从该处截去reads，参数选择：SLIDINGWINDOW:4:15；

② 截去 reads 首尾质量低于3或者含N（N 表示无法确定碱基信息）的 reads，参数选择: LEADING:3，TRAILING:3；

③ 截去接头污染的 reads，使用两种模式去除接头：1.simple alignment mode：seed 与接头序列比对分值达到7（约12bp）； 2.palindrome mode：当read1 和 read2 的重叠

区碱基评分大于 30 时，截去seed部分序列。参数选择：ILLUMINACLIP:adapter.fa:2:30:7:1:true；

④ 舍弃修剪后短于 36nt 的 reads；

⑤ 舍弃不能形成 paired 的 reads。

Sample	Raw_base	Clean_reads	Clean_base	Clean_rate	Q20_base	Q20_rate	Q30_base	Q30_rate
A_1	12739550484	84348292	12736592092	99.98%	12215685799	95.91%	11496580729	90.26%
A_2	15486357358	102533576	15482569976	99.98%	14692167524	94.89%	13752006188	88.82%
A_3	11748402792	77785672	11745636472	99.98%	11300968745	96.21%	10678315794	90.91%
A_4	7783993828	51537512	7782164312	99.98%	7417796947	95.31%	6950286956	89.30%
B_1	7209508892	47732494	7207606594	99.97%	6930395016	96.15%	6549853047	90.87%
B_2	7468364870	49447690	7466601190	99.98%	7147820036	95.73%	6727597768	90.10%
B_3	9227387728	61092814	9225014914	99.97%	8833444581	95.76%	8315886293	90.14%
B_4	14212736382	94101834	14209376934	99.98%	13548586712	95.35%	12727701686	89.57%

表5. 数据过滤后的产量和质量统计表

3、数据比对分析

目前，常用比较软件有Bowtie,BWA,MAQ,TOPhat等。根据不同的基因组的特征，我们选取相对合适的软件，合适的参数设置，将过滤后的测序序列进行基因组定位分析。这里，我们使用BWA(Burrows Wheeler Aligner)软件将clean reads比对到参考基因组上。

（1）参考基因组比对情况统计

SampleID	total_reads	mapped_reads	mapped_rate	uniq_mapped_reads	uniq_mapped_rate
A_1	42174146	42055768	99.72	41856510	99.25
A_2	51266788	51169126	99.81	49671155	96.89
A_3	38892836	38809193	99.78	38639838	99.35
A_4	25768756	25687661	99.69	25323534	98.23
B_1	25768756	23793308	99.69	23680761	99.22
B_2	23866247	24649594	99.7	24524970	99.2
B_3	24723845	30472522	99.76	30306656	99.22
B_4	30546407	46953934	99.79	46265167	98.33

表6. Reads与参考基因组比对情况

① Sample：样品名称

② total_reads: 参与比对的reads数目

③ mapped_reads：比对上的reads数目

④ mapped_rate：对上的reads百分比

⑤ uniq_mapped_reads：唯一比对上的reads数目

⑥ uniq_mapped_rate：唯一比对上的reads百分比

（2）reads信号值在基因上的分布

转录因子、组蛋白等对基因的调控机制与其结合位置相关，故分析读段相对基因位置分布有助于我们预测蛋白的功能。将每个基因以及该基因上下游2K的情况统计并画图，结果如下图：

图4. 读段（测序reads）相对基因TSS位置的分布

（3）Reads在样本间的相关性分析

生物学重复是任何生物学实验所必须的，高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途：一个是证明所涉及的生物学实验操作是可以重复的且变异不大，另一个是为了确保后续的差异基因分析得到更可靠的结果。样品间相关性分析是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1，表明样品之间表达模式的相似度越高。(PCC和PCA图)

图5. 样本间相关性分析

图6. PCA分析

（4）Reads比对结果可视化(IGV)

IGV (Integrative Genomics Viewer) 浏览器具有以下特点：(1)能在不同尺度下显示单个或多个读段在基因组上的位置，包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等；(2)能在不同尺度下显示不同区域的读段丰度，以反映不同区域的转录水平；(3)能显示基因及其剪接异构体的注释信息；(4)能显示其他注释信息；(5)既可以从远程服务器端下载各种注释信息，又可以从本地加载注释信息。

图7. 数据IGV基因组数据浏览器可视化展示（示例）

4、frag分析

对于一个特异性结合位点而言，reads在其结合位点处会有显著的富集。我们采用MACS软件预测IP实验的fragments sizes。MACS以某个window size扫描基因组，统计每个window中read的富集程度，然后抽取（比如1000个）合适的window作样本构建富集模型，预测frag_sizes的长度。

Sample	fragment_size
A	205
B	156

表7. Frag结果

5、富集峰分析

（1）富集峰分析统计

利用MACS2软件（Yong Zhang,Tao Liu et al., 2008）(阈值为qvalue<=0.05)完成两样本间峰检分析（peak calling），并对峰的个数、宽度、分布等进行统计,筛选出峰的相关基因等。结果示例如下：

Sample	total_peaks	total_length	mean_length	median_length	Coverage
A	57345	55527162	968.2999738	724	206
B	75444	45009719	596.5977281	432	130

表8. 富集峰(peak)数量统计

（2）富集峰的宽度分布

富集峰的宽度分布如下图所示：

图8. 差异Peak富集分布

（3）富集峰的富集倍数

富集倍数亦可称为signal Value，表示在进行peak calling的过程中，对peak信号的数字化展示。该值越大，表示富集到该peak中的reads数越多。峰的富集倍数分布如下图所示：

图9. 富集峰的富集倍数

（4）富集峰的显著性水平分布

峰的显著程度是峰的可信程度的指征。计算每个peak的显著性（q value）值。峰的显著程度分布如下图所示：

图10. 富集峰的显著性水平分布

（5）富集相关基因GO分析

Gene Ontology（简称 GO, http://www.geneontology.org/）是基因功能国际标准分类体系。作为基因本体联合会(Gene Onotology Consortium)所建立的数据库，它旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO分为分子功能（Molecular Function）、生物过程（Biological Process）、和细胞组成（Cellular Component）三个部分。基因或蛋白质可以通过ID对应或者序列注释的方法找到与之对应的GO编号，而GO编号可用于对应到Term，即功能类别或者细胞定位。

任何位置与峰有重叠的基因，都算作是有峰基因。GO富集结果如下：

Peak 重叠基因GO富集图，直观的反映出在生物过程(biological process)、细胞组分(cellular component)和分子功能(molecular function)富集的GO项目上Peak 重叠基因的个数分布情况。

图11. Peak 重叠基因GO富集图

（6）富集相关基因KEGG通路分析

在生物体内，不同基因相互协调行使其生物学功能，通过Pathway显著性富集能确定差异表达基因参与的最主要生化代谢途径和信号转导途径。KEGG（Kyoto Encyclopedia of Genes and Genomes）是系统分析基因功能、基因组信息数据库，它有助于研究者把基因及表达信息作为一个整体网络进行研究。作为Pathway相关的主要公共数据库(Kanehisa,2008）)，KEGG提供的整合代谢途径 (pathway)查询十分出色，包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解，不仅提供了所有可能的代谢途径，而且对催化各步反应的酶进行了全面的注解，包含有氨基酸序列、PDB库的链接等等，是进行生物体内代谢分析、代谢网络研究的强有力工具。Pathway显著性富集分析以KEGG 数据库中Pathway为单位，应用超几何检验，找出与整个基因组背景相比，在差异表达基因中显著性富集的Pathway。

Peak 重叠基因KEGG富集散点图是KEGG富集分析结果的图形化展示方式。在此图中，KEGG富集程度通过Rich factor、qvalue和富集到此通路上的基因个数来衡量。其中Rich factor指Peak 重叠基因中位于该pathway条目的基因数目与所有有注释基因中位于该pathway条目的基因总数的比值。qvalue是做过多重假设检验校正之后的Pvalue，qvalue的取值范围为[0，1]，越接近于零，表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示，若富集的pathway条目不足20条，则全部展示。

图12. KEGG功能富集图

（7）富集peak注释到的功能元件分布

图13. 功能元件分布

（8）转录起始位置附近的信号分布情况

图14. 转录起始位置附近的信号分布情况

6、富集峰序列内含motif分析

转录因子、组蛋白等蛋白质与DNA序列的结合并不是随机的，而具有一定的序列偏好性。模体(Motif)分析不仅可以检测到蛋白质特异性结合位点的DNA序列的偏好性，同时通过模体注释可以获得已知Motif的注释以及蛋白结合位点、Motif序列信息等。

我们采用Homer(homer.v4.9)软件检测peak序列中显著富集的Motif序列，输入显著性水平最为显著的前500个peak的DNA序列，在和已知motif比较的同时，从头发现新的motif (de novo motif)，并将其与已知Motif数据库进行比对，利用已知Motif对其进行相应注释。

以序列表示图（sequence logo）的方式展示Motif序列中不同位置的碱基倾向性。结果如下：

(注：由于结合位点的特异性，会出现Motif序列只出现在一个区段（<=8或者>=9）,则下图会有一部分没有结果)

（1）峰内known motif的富集结果

图15. motif识别结果(样本1为例)

logo按照先后顺序排列，右边为反向互补序列的图。以上，最多只展示top5的motif。

（2）峰内de novo motif检测结果

图16. motif识别结果(样本1为例)

logo按照先后顺序排列，右边为反向互补序列的图。以上，最多只展示top5的motif。

7、富集差异比较分析

（1）组间差异富集区域检测

利用不同实验组reads在基因组比对信息进行差异分析。对于每个实验组有重复样本设计的研究，我们使用PePr软件(PePr v1.1.10)进行区间差异富集区域检测。PePr利用滑动窗口的方法，使用负二项分布(NBD)对每个窗口中不同重复和组别之间的reads数目进行建模，统计学检验；同时评估最佳的富集片段和滑动窗口大小。

Sample	tota_peaks	total_length	mean_length	median_length	min_length	max_length	Coverage
A-vs-B	59619	128140379	549.32117278049	1204	0	27919	4.75%

表9. 组间差异富集区域检测结果统计

chr	start	end	id	*10LOG10(pvalue)**	fold_enrichment	promoter
chr1	105253250	105253568	pos_1787	50	6.45	--
chr1	108743512	108743830	pos_1825	50	5.73	SLC25A24
chr1	163840791	163841109	pos_2920	50	7.16	--
chr1	167026961	167027279	pos_2990	50	8.6	--
chr1	184722682	184723000	pos_3408	50	7.16	--
chr1	210636977	210637295	pos_3817	50	5.73	--
chr1	231617379	231617697	pos_4216	50	7.16	--
chr1	24292229	24292547	pos_295	50	6.45	--
chr1	243713989	243714307	pos_4451	50	8.6	--
chr1	48300841	48301338	pos_619	50	7.77	--
chr1	67231140	67231458	pos_1002	50	6.45	--
chr1	76778112	76778430	pos_1222	50	8.6	--
chr1	87395604	87395922	pos_1414	50	5.73	--
chr10	113431605	113431923	pos_6620	50	7.16	--
chr10	118339001	118339319	pos_6815	50	7.88	--
chr11	112137431	112137749	pos_1.965	50	5.73	--
chr11	26352845	26353163	pos_7742	50	7.16	ANO3

表10. 组间差异富集区域检测结果示例

① chr：差异peak染色体

② start：差异peak起始位置

③ end：差异peak终止位置

④ diff_peak_ID: 差异peak的ID

⑤ -10*LOG10(pvalue)：负二项分布统计检验p值的对数变换

⑥ fold_enrichment : 差异倍数

（2）组间差异富集区域可视化(IGV查看)

将组间差异Peak富集区域的bed格式的文件，连同“2.4 IGV“的数据导入基因组数据浏览器（IGV）中，即可查看差异富集区域的具体分布。

图17. 差异富集区域的IGV展示

（3）组间差异富集区域宽度分布

对于差异富集区域的长度分布进行作图展示:

图18. 差异富集区域的长度分布

（4）组间差异富集区域富集倍数分布

对差异富集区域两样本间的差异倍数（foldchange）分布进行作图展示：

图19. 差异富集区域的信号差异倍数分布直方图

（5）组间差异富集区域显著性水平分布

对差异富集区域统计检验的显著性分布进行作图展示：

图20. 差异富集区域的显著性水平分布直方图

（6）组间差异富集区域基因组元件分布

统计差异富集区域在各个基因组元件上的分布情况，结果展示如下：

图21. 差异富集区域在基因组元件中的分布。分别统计差异富集区域在启动子区（TSS上游2k到TSS下游500bp）、TSS上游2k，基因体、外显子、内含子，TES下游2k以及CpG岛区域内的分布数量比例作图。

（7）组间差异富集区域GO分析

对差异富集区域进行基因注释，并提取差异基因列表，进行GO富集分析。Gene Ontology（简称 GO,http://www.geneontology.org/）是基因功能国际标准分类体系。对差异区域相关基因，以及锚定启动子区的基因，分别做GO富集分析，以期挖掘出所研究的生物学问题相关的生物学过程。

chr	start	end	...	promoter	upstream2k	...
chrY	58818500	58918500	...	--	--	...
chrY	13685000	13749000	...	--	--	...
chrY	28802000	28820000	...	--	--	...
chr22	18717000	18719500	...	LINC01662	LINC01662	...
chrY	28790000	28798500	...	--	--	...
chrY	13481000	13493000	...	DUX4L19	DUX4L19	...
chr1	565000	571000	...	LOC101928626, MIR6723	LOC101928626, MIR6723	...
chr22	18877500	18885000	...	LINC01663	LINC01663	...

表11. 差异富集区域基因注释结果

(1-6) 差异富集区域信息，包括位置信息和信号强度及显著性水平

(7-16)注释信息，即差异富集区域与不同元件的交叠信息，若存在交叠，给给出该元件的ID，比如geneID等；若不存在交叠，则使用’—‘表示。

差异富集区域相关基因的GO功能富集分析，基于差异富集区域的基因注释结果，对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行GO功能富集分析：

Term	Category	Observed	Expected	FoldChange	rawP	Class	Name
GO:0005515	8249	4129	3588.083917	1.150753	1.07E-11	molecular_function	protein binding
GO:0005737	4810	2423	2092.215255	1.158103	2.22E-08	cellular_component	cytoplasm
GO:0005524	1458	813	634.189156	1.281952	3.22E-08	molecular_function	ATP binding
GO:0005886	3729	1906	1622.010538	1.175085	4.03E-08	cellular_component	plasma membrane
GO:0005654	2526	1295	1098.739238	1.178624	3.19E-06	cellular_component	nucleoplasm
GO:0030054	415	260	180.513374	1.440336	6.55E-06	cellular_component	cell junction
GO:0007264	454	280	197.477282	1.417885	7.28E-06	biological_process	small GTPase mediated signal transduction
GO:0016021	3896	1920	1694.65086	1.132977	1.79E-05	cellular_component	integral component of membrane
GO:0005829	3007	1505	1307.960764	1.150646	1.81E-05	cellular_component	cytosol

表12. 差异富集区域相关基因的GO功能富集结果

① Term：GO数据库中唯一的标号信息

② Category：与该GO accession相关的所有基因

③ Ovserved：与该GO accession相关的DMR基因的数目

④ Expected: 与该GO accession相关的DMR基因数目的期望值

⑤ FoldChange: 富集倍数

⑥ rawP：超几何检验p值

⑦ adjP: 校正p值

⑧ Term_Name：该GO accession的具体描述

⑨ GeneList: 与该GO accession相关的基因的列表，使用NCBI geneID

根据以上GO富集结果，过滤出 Ovserved>2， FoldChange>=2 并且adjP<0.05的条目，进行作图（若没有满足条件的条目，则选取最为显著的前15个条目展示）。

图22. 富集的GO的柱状图富集的GO相关的基因的分类统计图（横向柱形图）:纵坐标为富集的GO term，横坐标为该-log10(adjP),柱子越长，表示该GO term统计检验的差异越显著。柱子右边的数字表示富集的基因数目和富集倍数。

（8）组间差异富集区域KEGG分析

KEGG（Kyoto Encyclopedia of Genes and Genomes）是有关Pathway的主要公共数据库。对差异区域相关基因，以及锚定启动子区的基因，分别做KEGG pathway富集分析，以期挖掘出所研究的生物学问题相关的信号和代谢通路。

差异富集区域相关基因的KEGG pathway富集分析，基于差异富集区域的基因注释结果，对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行pathway富集分析：

Term	Category	Observed	Expected	FoldChange	rawP	Class	Name
hsa04724	133	79	49.151834	1.607265	0.001595173	0.337941067	Organismal_Systems\| Nervous_system\| Glutamatergic_synapse
hsa03010	133	33	57.851274	0.570428	0.002992172	0.337941067	Genetic_Information_Processing\| Translation\| Ribosome
hsa04010	255	150	110.917857	1.352352	0.00403299	0.337941067	Environmental_Information_Processing\| Signal_transduction\| MAPK_signaling_pathway
hsa05032	90	62	39.147479	1.583755	0.006090503	0.337941067	Human_Diseases\| Substance_dependence\| Morphine_addiction
hsa04510	205	122	89.169257	1.368185	0.006676792	0.337941067	Cellular_Processes\| Cellular_community\| Focal_adhesion
hsa04020	180	109	78.294958	1.392171	0.007074785	0.337941067	Environmental_Information_Processing\| Signal_transduction\| Calcium_signaling_pathway
hsa05203	206	122	89.604229	1.361543	0.008018941	0.337941067	Human_Diseases\| Cancers_Overview\| Viral_carcinogenesis
hsa04810	213	123	92.649033	1.327591	0.014634079	0.357780437	Cellular_Processes\| Cell_motility\| Regulation_of_actin_cytoskeleton
hsa05200	395	212	171.813935	1.233893	0.014791174	0.357780437	Human_Diseases\| Cancers_Overview\| Pathways_in_cancer

表13. 差异富集区域相关基因的pathway富集结果

① Term：KEGG数据库中的pathway标号信息

② Category：与该pathway相关的所有基因

③ Ovserved：与该pathway相关的DMR基因的数目

④ Expected: 与该pathway相关的DMR基因数目的期望值

⑤ FoldChange: 富集倍数

⑥ rawP：超几何检验p值

⑦ adjP: 校正p值

⑧ Term_Name：该pathway的具体描述

⑨ GeneList: 与该pathway相关的DMR基因的列表，使用NCBI geneID

根据以上GO富集结果，过滤出 Ovserved>2， FoldChange>=2 并且adjP<0.05的条目，进行作图（若没有满足条件的条目，则选取最为显著的前15个条目展示）。散点图是KEGG富集分析结果的图形化展示方式。在此图中，KEGG富集程度通过fold change(富集倍数)、Qvalue和富集到此通路上的基因个数来衡量。其中fold change指该pathway中富集到的DMR相关基因个数与注释基因个数的比值。Fold change越大，表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue，Qvalue的取值范围为[0,1]，越接近于零，表示富集越显著。

图23. 富集的KEGG代谢通路的散点图纵轴表示pathway名称，横轴表示fold change，点的大小表示此pathway中DMR相关基因个数多少，而点的颜色对应于不同的q-value范围，染色越红表示越显著

百泰派克生物科技CUT&Tag服务

百泰派克生物科技致力于为科研人员提供全面的CUT&Tag技术服务，我们的CUT&Tag服务涵盖样本前处理、文库构建、高通量测序以及生物信息学分析等全流程，确保为客户提供高质量的数据和精准的科学见解。欢迎随时与我们技术支持沟通~

百泰派克生物科技--生物制品表征，多组学生物质谱检测优质服务商

相关服务：

CUT&Tag分析服务

提交需求

How to order?