项目报告 | 百泰派克生物科技CUT&Tag结果展示

    CUT&Tag(Cleavage Under Targets and Tagmentation)主要用于研究特定蛋白质与基因组DNA的相互作用。与传统的ChIP-Seq技术相比,CUT&Tag具有更高的信噪比、更少的样本需求和更简单的操作流程,使其在基因调控机制、细胞分化研究以及疾病标志物发现等领域具有广泛的应用前景。CUT&Tag技术的优势在于其高效的文库构建和精准的片段化过程。在样本制备阶段,百泰派克生物科技通过严格的DNA样品检测和文库质检,确保每一步操作的准确性和数据的高质量。在生物信息学分析中,数据清洗、比对、富集峰分析以及基因功能注释等流程有助于全面解析目标蛋白的基因组结合模式,并揭示其在细胞功能调控中的重要角色。依托先进的Protein A/G-Tn5融合蛋白体系和高通量测序平台,百泰派克生物科技为广大科研工作者提供CUT&Tag技术分析服务。百泰派克生物科技采用ISO9001质量控制体系,获国家CNAS实验室认可,丰富的项目经验与专业的技术团队为您的研究保驾护航!

     

    一、文库构建和测序流程

    从DNA样品到最终数据获得,样品检测、建库、测序每一个环节都可能会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,我们对样品检测、建库、测序每一个实验环节都严格把关,从根本上确保高质量数据的产出。

     

    1、DNA样品检测

    对DNA样品的检测主要包括2种方法:

    (1) 琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA污染

    (2) Qubit对DNA浓度进行精确定量

     

    2、文库构建

    CUT&Tag技术的核心是pAG-Tn5融合蛋白(ChiTag),其中Protein AG能够结合抗体。在进行CUT&Tag实验时,首先将细胞与磁珠混合,然后进行靶蛋白特异性抗体(一抗)孵育,使抗体进入细胞与靶蛋白结合。为了放大信号,接着进行二抗孵育。最后孵育pAG-Tn5转座体,使得转座体进入细胞并与抗体结合,这样就把转座体间接的固定在靶蛋白上,随后加入Mg²⁺,激活Tn5酶的切割活性,打断靶蛋白结合的DNA区域。由于Tn5酶连有测序接头,在打断的同时直接在片段化的DNA上加接头,接着提取DNA,进行PCR扩增构建文库。PCR产物经过1.3X磁珠进行纯化,再经Agilent 2100分析仪(Agilent Technologies)用Quant-iTTM dsDNA HS分析试剂盒(Invitrogen,MA,USA)和qPCR对文库进行片段范围及有效浓度检测。

     

    3、文库质检

    我们对文库的质检主要包括2种方法:

    (1) Agilent 2100对文库的插入片段长度进行检测,检测是否有接头二聚体污染等

    (2) Qubit或者QPCR对测序文库浓度进行定量

     

    4、上机测序

    库检合格后,加入适当比例的平衡文库,进行Illumina HiSeq测序。测序的基本原理是边合成边测序(Sequencing by Synthesis)。在测序的flow cell中加入四种荧光标记的dNTP 、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出其相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。具体过程如下图所示:

     

    1873908370223255552-1.png

    图1

     

    二、生物信息分析流程

     

    cut-tag-analysis-service-gx2-2

    图2

     

    三、结果展示及说明

    1、项目基本信息

    (1)项目名称

    8个细胞(ref: hg19) CUT&Tag测序建库及数据分析

     

    (2)样本信息

    物种信息:hsa

    基因组信息:hg19 (NCBI-Assembly)

     

    No. Sample Group
    1 A_1 A
    2 A_2 A
    3 A_3 A
    4 A_4 A
    5 B_1 B
    6 B_2 B
    7 B_3 B
    8 B_4 B

    表1. 样本信息

     

    (3)样本差异比较方案

     

    ID Information
    PLAN-01 A-vs-B

    表2. 差异比较

     

    2、测序数据质量评估

    高通量测序(如Illumina HiSeq PE150)得到的原始数据(Raw Data or Raw Reads),结果以 FASTQ (简称为fq)文件格式存储。FASTQ是一种存储生物序列及相应质量评价的文本格式,每条read的信息由下述四行组成:

     

    1873909665076203520-5.png

    图3

     

    第一行存储序列标识信息:以“@”开头,随后为Illumina 测序标识别符(Sequence dentifiers)和描述信息( 下附详述 ); 第二行存储碱基序列;第三行以“+”开头,存储与第一行相同的信息或缺省;第四行存储对应碱基的测序质量,该行中字符为第二行中对应碱基的质量值加上33后转换为的ASCII码,逆向转化即可直观得到每个碱基的质量信息。

     

    测序过程本身存在发生机器错误的可能性,测序错误率分布检查可以反映测序数据的质量,序列信息中每个碱基的质量值保存在FASTQ文件中,若reads的碱基质量值用QPhred表示,则可计算测序错误率 e=10(-QPhred/10) 或表示为 QPhred=-10log10(e)。Illunima Casava 1.8版本碱基识别与Phred分值之间的简明对应关系见下表:

     

    Phred分值 FASTQ中对应的质量字符 错误碱基识别 碱基正确识别率 Q-sorcel
    10 +(10+33) 1/10 90% Q10
    20 5(20+33) 1/100 99% Q20
    30 ?(30+33) 1/1000 99.90% Q30
    40 I(40+33) 1/10000 99.99% Q40

    表3

     

    ① 由于测序过程中试剂逐渐消耗,测序错误率会随 Reads 长度增加而升高,此为illumina高通量测序平台的共有特征。

    ② 对于常规甲基化文库,在测序read1和read2会呈现一种方向性的特点:read1 T碱基含量较高,read2 A碱基含量较高。

     

    测序完成后,过滤测序接头和低质量数据,将过滤后的数据与参考基因组比对。数据过滤标准为:含有adapter序列,序列中N碱基的比例超过序列总长度的5%,序列中质量值小于20的碱基比例超过序列总长度的50%,如果一条序列符合以上三个条件中的任何一个,则去除这条序列。以下是数据产量和质控后clean data的质量统计。

     

    (1)原始数据产量

    合格的数据是信息分析的基础,因此对下机数据进行质量控制(QC)是数据分析的首项内容。对下机后的数据(raw reads)产量进行基本的统计,结果如下:

    Sample Total_reads Toal_base Q20_base Q20_rate Q30_base Q30_rate
    A_1 84367884 12739550484 12217968963 95.91% 11498468735 90.26%
    A_2 102558658 15486357358 14695063756 94.89% 13754381120 88.82%
    A_3 77803992 11748402792 11303126127 96.21% 10680118885 90.91%
    A_4 51549628 7783993828 7419204495 95.31% 6951446851 89.30%
    B_1 47745092 7209508892 6931875570 96.15% 6551076633 90.87%
    B_2 49459370 7468364870 7149183560 95.73% 6728721883 90.10%
    B_3 61108528 9227387728 8835270383 95.75% 8317380782 90.14%
    B_4 94124082 14212736382 13551174822 95.35% 12729844150 89.57%

    表4. 原始数据质量统计

     

    (2)原始数据质控过滤

    数据过滤的主要目的是去除低质量的数据,保证clean data的质量。我们采用Trimming的方式截去测序数据的测序接头和低质量数据,得到的clean data用于后续分析。在进行原始数据 Trimming 时我们使用Trimmomatic软件,其数据处理的步骤具体如下:

    ① 截去低质量reads,使用滑动窗口的方式,4个碱基为一个窗口,若该窗口的平均碱基质量值低于15,则从该处截去reads, 参数选择:SLIDINGWINDOW:4:15;

    ② 截去 reads 首尾质量低于3或者含N(N 表示无法确定碱基信息)的 reads,参数选择: LEADING:3,TRAILING:3;

    ③ 截去接头污染的 reads,使用两种模式去除接头:1.simple alignment mode:seed 与接头序列比对分值达到7(约12bp); 2.palindrome mode:当read1 和 read2 的重叠

    区碱基评分大于 30 时,截去seed部分序列。参数选择:ILLUMINACLIP:adapter.fa:2:30:7:1:true;

    ④ 舍弃修剪后短于 36nt 的 reads;

    ⑤ 舍弃不能形成 paired 的 reads。

    Sample Raw_base Clean_reads Clean_base Clean_rate Q20_base Q20_rate Q30_base Q30_rate
    A_1 12739550484 84348292 12736592092 99.98% 12215685799 95.91% 11496580729 90.26%
    A_2 15486357358 102533576 15482569976 99.98% 14692167524 94.89% 13752006188 88.82%
    A_3 11748402792 77785672 11745636472 99.98% 11300968745 96.21% 10678315794 90.91%
    A_4 7783993828 51537512 7782164312 99.98% 7417796947 95.31% 6950286956 89.30%
    B_1 7209508892 47732494 7207606594 99.97% 6930395016 96.15% 6549853047 90.87%
    B_2 7468364870 49447690 7466601190 99.98% 7147820036 95.73% 6727597768 90.10%
    B_3 9227387728 61092814 9225014914 99.97% 8833444581 95.76% 8315886293 90.14%
    B_4 14212736382  94101834 14209376934 99.98% 13548586712 95.35% 12727701686 89.57%

    表5. 数据过滤后的产量和质量统计表

     

    3、数据比对分析

    目前,常用比较软件有Bowtie,BWA,MAQ,TOPhat等。根据不同的基因组的特征,我们选取相对合适的软件,合适的参数设置,将过滤后的测序序列进行基因组定位分析。这里,我们使用BWA(Burrows Wheeler Aligner)软件将clean reads比对到参考基因组上。

     

    (1)参考基因组比对情况统计

    SampleID total_reads mapped_reads mapped_rate uniq_mapped_reads uniq_mapped_rate 
    A_1 42174146 42055768 99.72 41856510 99.25
    A_2 51266788 51169126 99.81 49671155 96.89
    A_3 38892836 38809193 99.78 38639838 99.35
    A_4 25768756 25687661 99.69 25323534 98.23
    B_1 25768756 23793308 99.69 23680761 99.22
    B_2 23866247 24649594 99.7 24524970 99.2
    B_3 24723845 30472522 99.76 30306656 99.22
    B_4 30546407 46953934 99.79 46265167 98.33

    表6. Reads与参考基因组比对情况

     

    ① Sample:样品名称

    ② total_reads: 参与比对的reads数目

    ③ mapped_reads:比对上的reads数目

    ④ mapped_rate:对上的reads百分比

    ⑤ uniq_mapped_reads:唯一比对上的reads数目

    ⑥ uniq_mapped_rate:唯一比对上的reads百分比

     

    (2)reads信号值在基因上的分布

    转录因子、组蛋白等对基因的调控机制与其结合位置相关,故分析读段相对基因位置分布有助于我们预测蛋白的功能。将每个基因以及该基因上下游2K的情况统计并画图,结果如下图:

     

    1873912178596761600-10.png

    图4. 读段(测序reads)相对基因TSS位置的分布

     

    (3)Reads在样本间的相关性分析

    生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个是为了确保后续的差异基因分析得到更可靠的结果。样品间相关性分析是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。(PCC和PCA图)

     

    1873912513260277760-11.png

    图5. 样本间相关性分析

     

    1873912711759908864-12.png

    图6. PCA分析

     

    (4)Reads比对结果可视化(IGV)

    IGV (Integrative Genomics Viewer) 浏览器具有以下特点:(1)能在不同尺度下显示单个或多个读段在基因组上的位置,包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平;(3)能显示基因及其剪接异构体的注释信息;(4)能显示其他注释信息;(5)既可以从远程服务器端下载各种注释信息,又可以从本地加载注释信息。

     

    1873912987434733568-13.png

    图7. 数据IGV基因组数据浏览器可视化展示(示例)

     

    4、frag分析

    对于一个特异性结合位点而言,reads在其结合位点处会有显著的富集。我们采用MACS软件预测IP实验的fragments sizes。MACS以某个window size扫描基因组,统计每个window中read的富集程度,然后抽取(比如1000个)合适的window作样本构建富集模型,预测frag_sizes的长度。

     

    Sample fragment_size
    A 205
    B 156

    表7. Frag结果

     

    5、富集峰分析

    (1)富集峰分析统计

    利用MACS2软件(Yong Zhang,Tao Liu et al., 2008)(阈值为qvalue<=0.05)完成两样本间峰检分析(peak calling),并对峰的个数、宽度、分布等进行统计,筛选出峰的相关基因等。结果示例如下:

    Sample total_peaks total_length mean_length median_length Coverage
    A 57345 55527162 968.2999738 724 206
    B 75444 45009719 596.5977281 432 130

    表8. 富集峰(peak)数量统计

     

    (2)富集峰的宽度分布

    富集峰的宽度分布如下图所示:

     

    1873914357151813632-17.png

    图8. 差异Peak富集分布

     

    (3)富集峰的富集倍数

    富集倍数亦可称为signal Value,表示在进行peak calling的过程中,对peak信号的数字化展示。该值越大,表示富集到该peak中的reads数越多。峰的富集倍数分布如下图所示:

     

    1873914752544657408-18.png

    图9. 富集峰的富集倍数

     

    (4)富集峰的显著性水平分布

    峰的显著程度是峰的可信程度的指征。计算每个peak的显著性(q value)值。峰的显著程度分布如下图所示:

     

    1873915237909516288-19.png

    图10. 富集峰的显著性水平分布

     

    (5)富集相关基因GO分析

    Gene Ontology(简称 GO, http://www.geneontology.org/)是基因功能国际标准分类体系。作为基因本体联合会(Gene Onotology Consortium)所建立的数据库,它旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标 准。GO分为分子功能(Molecular Function)、生物过程(Biological Process)、和细胞组成(Cellular Component)三个部分。基因或蛋白质可以通过ID对应或者序列注释的方法找到与之对应的GO编号,而GO编号可用于对应到Term,即功能类别或者细胞定位。

     

    任何位置与峰有重叠的基因,都算作是有峰基因。GO富集结果如下:

    Peak 重叠基因GO富集图,直观的反映出在生物过程(biological process)、 细胞组分(cellular component)和分子功能(molecular function)富集的GO项目上Peak 重叠基因的个数分布情况。

     

    1873915588003876864-20.png

    图11. Peak 重叠基因GO富集图

     

    (6)富集相关基因KEGG通路分析

    在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定差异表达基因参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。作为Pathway相关的主要公共数据库(Kanehisa,2008)),KEGG提供的整合代谢途径 (pathway)查询十分出色,包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行 了全面的注解,包含有氨基酸序列、PDB库的链接等等,是进行生物体内代谢分析、代谢网络研究的强有力工具。Pathway显著性富集分析以KEGG 数据库中Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。

     

    Peak 重叠基因KEGG富集散点图是KEGG富集分析结果的图形化展示方式。在此图中,KEGG富集程度通过Rich factor、qvalue和富集到此通路上的基因个数来衡量。其中Rich factor指Peak 重叠基因中位于该pathway条目的基因数目与所有有注释基因中位于该pathway条目的基因总数的比值。qvalue是做过多重假设检验校正之后的Pvalue,qvalue的取值范围为[0,1],越接近于零,表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示,若富集的pathway条目不足20条,则全部展示。

     

    1873915795579981824-21.png

    图12. KEGG功能富集图

     

    (7)富集peak注释到的功能元件分布

     

    1873916005576200192-22.png

    图13. 功能元件分布

     

    (8)转录起始位置附近的信号分布情况

     

    1873916212783206400-23.png

    图14. 转录起始位置附近的信号分布情况

     

    6、富集峰序列内含motif分析

    转录因子、组蛋白等蛋白质与DNA序列的结合并不是随机的,而具有一定的序列偏好性。模体(Motif)分析不仅可以检测到蛋白质特异性结合位点的DNA序列的偏好性,同时通过模体注释可以获得已知Motif的注释以及蛋白结合位点、Motif序列信息等。

     

    我们采用Homer(homer.v4.9)软件检测peak序列中显著富集的Motif序列,输入显著性水平最为显著的前500个peak的DNA序列,在和已知motif比较的同时,从头发现新的motif (de novo motif),并将其与已知Motif数据库进行比对,利用已知Motif对其进行相应注释。

     

    以序列表示图(sequence logo)的方式展示Motif序列中不同位置的碱基倾向性。结果如下:

    (注:由于结合位点的特异性,会出现Motif序列只出现在一个区段(<=8或者>=9),则下图会有一部分没有结果)

     

    (1)峰内known motif的富集结果

     

    1873916544921751552-24.png

    图15. motif识别结果(样本1为例)

     

    logo按照先后顺序排列,右边为反向互补序列的图。以上,最多只展示top5的motif。

     

    (2)峰内de novo motif检测结果

     

    1873916766875930624-25.png

    图16. motif识别结果(样本1为例)

     

    logo按照先后顺序排列,右边为反向互补序列的图。以上,最多只展示top5的motif。

     

    7、富集差异比较分析

    (1)组间差异富集区域检测

    利用不同实验组reads在基因组比对信息进行差异分析。对于每个实验组有重复样本设计的研究,我们使用PePr软件(PePr v1.1.10)进行区间差异富集区域检测。PePr利用滑动窗口的方法,使用负二项分布(NBD)对每个窗口中不同重复和组别之间的reads数目进行建模,统计学检验;同时评估最佳的富集片段和滑动窗口大小。

    Sample tota_peaks  total_length mean_length median_length min_length max_length Coverage
    A-vs-B 59619 128140379 549.32117278049 1204 0 27919 4.75%

    表9. 组间差异富集区域检测结果统计

     

    chr start end id 10*LOG10(pvalue)  fold_enrichment promoter
    chr1 105253250 105253568 pos_1787 50 6.45 --
    chr1 108743512 108743830 pos_1825 50 5.73 SLC25A24
    chr1 163840791 163841109 pos_2920 50 7.16 --
    chr1 167026961 167027279 pos_2990 50 8.6 --
    chr1 184722682 184723000 pos_3408 50 7.16 --
    chr1 210636977 210637295 pos_3817 50 5.73 --
    chr1 231617379 231617697 pos_4216 50 7.16 --
    chr1 24292229 24292547 pos_295 50 6.45 --
    chr1 243713989 243714307 pos_4451 50 8.6 --
    chr1 48300841 48301338 pos_619 50 7.77 --
    chr1 67231140 67231458 pos_1002 50 6.45 --
    chr1 76778112 76778430 pos_1222 50 8.6 --
    chr1 87395604 87395922 pos_1414 50 5.73 --
    chr10 113431605 113431923 pos_6620 50 7.16 --
    chr10 118339001 118339319 pos_6815 50 7.88 --
    chr11 112137431 112137749 pos_1.965 50 5.73 --
    chr11 26352845 26353163 pos_7742 50 7.16 ANO3

    表10. 组间差异富集区域检测结果示例

     

    ① chr:差异peak染色体

    ② start:差异peak起始位置

    ③ end:差异peak终止位置

    ④ diff_peak_ID: 差异peak的ID

    ⑤ -10*LOG10(pvalue):负二项分布统计检验p值的对数变换

    ⑥ fold_enrichment : 差异倍数

     

    (2)组间差异富集区域可视化(IGV查看)

    将组间差异Peak富集区域的bed格式的文件,连同“2.4 IGV“的数据导入基因组数据浏览器(IGV)中,即可查看差异富集区域的具体分布。

     

    1873918094092128256-28.png

    图17. 差异富集区域的IGV展示

     

    (3)组间差异富集区域宽度分布

    对于差异富集区域的长度分布进行作图展示:

     

    1873918416575385600-29.png

    图18. 差异富集区域的长度分布

     

    (4)组间差异富集区域富集倍数分布

    对差异富集区域两样本间的差异倍数(foldchange)分布进行作图展示:

     

    1873918814480617472-30.png

    图19. 差异富集区域的信号差异倍数分布直方图

     

    (5)组间差异富集区域显著性水平分布

    对差异富集区域统计检验的显著性分布进行作图展示:

     

    1873919173215244288-31.png

    图20. 差异富集区域的显著性水平分布直方图

     

    (6)组间差异富集区域基因组元件分布

    统计差异富集区域在各个基因组元件上的分布情况,结果展示如下:

     

    1873919498034728960-32.png

    图21. 差异富集区域在基因组元件中的分布。分别统计差异富集区域在启动子区(TSS上游2k到TSS下游500bp)、TSS上游2k,基因体、外显子、内含子,TES下游2k以及CpG岛区域内的分布数量比例作图。

     

    (7)组间差异富集区域GO分析

    对差异富集区域进行基因注释,并提取差异基因列表,进行GO富集分析。Gene Ontology(简称 GO,http://www.geneontology.org/)是基因功能国际标准分类体系。对差异区域相关基因,以及锚定启动子区的基因,分别做GO富集分析,以期挖掘出所研究的生物学问题相关的生物学过程。

    chr start end ... promoter upstream2k ...
    chrY 58818500 58918500 ... -- -- ...
    chrY 13685000 13749000 ... -- -- ...
    chrY 28802000 28820000 ... -- -- ...
    chr22 18717000 18719500 ... LINC01662 LINC01662 ...
    chrY 28790000 28798500 ... -- -- ...
    chrY 13481000 13493000 ... DUX4L19 DUX4L19 ...
    chr1 565000 571000 ... LOC101928626, MIR6723 LOC101928626, MIR6723 ...
    chr22 18877500 18885000 ... LINC01663 LINC01663 ...

    表11. 差异富集区域基因注释结果

     

    (1-6) 差异富集区域信息,包括位置信息和信号强度及显著性水平

    (7-16)注释信息,即差异富集区域与不同元件的交叠信息,若存在交叠,给给出该元件的ID,比如geneID等;若不存在交叠,则使用’—‘表示。

     

    差异富集区域相关基因的GO功能富集分析,基于差异富集区域的基因注释结果,对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行GO功能富集分析:

    Term Category Observed Expected  FoldChange rawP Class Name 
    GO:0005515 8249 4129 3588.083917 1.150753 1.07E-11 molecular_function protein binding
    GO:0005737 4810 2423 2092.215255 1.158103 2.22E-08 cellular_component cytoplasm
    GO:0005524 1458 813 634.189156 1.281952 3.22E-08 molecular_function ATP binding
    GO:0005886 3729 1906 1622.010538 1.175085 4.03E-08 cellular_component plasma membrane
    GO:0005654 2526 1295 1098.739238 1.178624 3.19E-06 cellular_component nucleoplasm
    GO:0030054 415 260 180.513374 1.440336 6.55E-06 cellular_component cell junction
    GO:0007264 454 280 197.477282 1.417885 7.28E-06 biological_process small GTPase mediated signal transduction
    GO:0016021 3896 1920 1694.65086 1.132977 1.79E-05 cellular_component integral component of membrane
    GO:0005829 3007 1505 1307.960764 1.150646 1.81E-05 cellular_component cytosol

    表12. 差异富集区域相关基因的GO功能富集结果

     

    ① Term:GO数据库中唯一的标号信息

    ② Category:与该GO accession相关的所有基因

    ③ Ovserved:与该GO accession相关的DMR基因的数目

    ④ Expected: 与该GO accession相关的DMR基因数目的期望值

    ⑤ FoldChange: 富集倍数

    ⑥ rawP:超几何检验p值

    ⑦ adjP: 校正p值

    ⑧ Term_Name:该GO accession的具体描述

    ⑨ GeneList: 与该GO accession相关的基因的列表,使用NCBI geneID

     

    根据以上GO富集结果,过滤出 Ovserved>2, FoldChange>=2 并且adjP<0.05的条目,进行作图(若没有满足条件的条目,则选取最为显著的前15个条目展示)。

     

    1873920621235785728-35.png

    图22. 富集的GO的柱状图富集的GO相关的基因的分类统计图(横向柱形图):纵坐标为富集的GO term,横坐标为该-log10(adjP),柱子越长,表示该GO term统计检验的差异越显著。柱子右边的数字表示富集的基因数目和富集倍数。

     

    (8) 组间差异富集区域KEGG分析

    KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库。对差异区域相关基因,以及锚定启动子区的基因,分别做KEGG pathway富集分析,以期挖掘出所研究的生物学问题相关的信号和代谢通路。

     

    差异富集区域相关基因的KEGG pathway富集分析,基于差异富集区域的基因注释结果,对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行pathway富集分析:

    Term Category Observed Expected FoldChange rawP Class Name
    hsa04724 133 79 49.151834 1.607265 0.001595173 0.337941067 Organismal_Systems|
    Nervous_system|
    Glutamatergic_synapse
    hsa03010 133 33 57.851274 0.570428 0.002992172 0.337941067

    Genetic_Information_Processing|

    Translation|

    Ribosome

    hsa04010 255 150 110.917857 1.352352 0.00403299 0.337941067

    Environmental_Information_Processing|

    Signal_transduction|

    MAPK_signaling_pathway

    hsa05032 90 62 39.147479 1.583755 0.006090503 0.337941067 Human_Diseases|
    Substance_dependence|
    Morphine_addiction
    hsa04510 205 122 89.169257 1.368185 0.006676792 0.337941067 Cellular_Processes|
    Cellular_community|
    Focal_adhesion
    hsa04020 180 109 78.294958 1.392171 0.007074785 0.337941067

    Environmental_Information_Processing|

    Signal_transduction|

    Calcium_signaling_pathway

    hsa05203 206 122 89.604229 1.361543 0.008018941 0.337941067 Human_Diseases|
    Cancers_Overview|
    Viral_carcinogenesis
    hsa04810 213 123 92.649033 1.327591 0.014634079 0.357780437 Cellular_Processes|
    Cell_motility|
    Regulation_of_actin_cytoskeleton
    hsa05200 395 212 171.813935 1.233893 0.014791174 0.357780437 Human_Diseases|
    Cancers_Overview|
    Pathways_in_cancer

    表13. 差异富集区域相关基因的pathway富集结果

     

    ① Term:KEGG数据库中的pathway标号信息

    ② Category:与该pathway相关的所有基因

    ③ Ovserved:与该pathway相关的DMR基因的数目

    ④ Expected: 与该pathway相关的DMR基因数目的期望值

    ⑤ FoldChange: 富集倍数

    ⑥ rawP:超几何检验p值

    ⑦ adjP: 校正p值

    ⑧ Term_Name:该pathway的具体描述

    ⑨ GeneList: 与该pathway相关的DMR基因的列表,使用NCBI geneID

     

    根据以上GO富集结果,过滤出 Ovserved>2, FoldChange>=2 并且adjP<0.05的条目,进行作图(若没有满足条件的条目,则选取最为显著的前15个条目展示)。散点图是KEGG富集分析结果的图形化展示方式。在此图中,KEGG富集程度通过fold change(富集倍数)、Qvalue和富集到此通路上的基因个数来衡量。其中fold change指该pathway中富集到的DMR相关基因个数与注释基因个数的比值。Fold change越大,表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue,Qvalue的取值范围为[0,1],越接近于零,表示富集越显著。

     

    1873920997313859584-37.png

    图23. 富集的KEGG代谢通路的散点图纵轴表示pathway名称,横轴表示fold change,点的大小表示此pathway中DMR相关基因个数多少,而点的颜色对应于不同的q-value范围,染色越红表示越显著

     

    百泰派克生物科技CUT&Tag服务

    百泰派克生物科技致力于为科研人员提供全面的CUT&Tag技术服务,我们的CUT&Tag服务涵盖样本前处理、文库构建、高通量测序以及生物信息学分析等全流程,确保为客户提供高质量的数据和精准的科学见解。欢迎随时与我们技术支持沟通~

     

    百泰派克生物科技--生物制品表征,多组学生物质谱检测优质服务商

     

    相关服务:

    CUT&Tag分析服务

提交需求
姓名 *
联系类型 *
联系方式 *
项目描述
咨询项目 *

 

How to order?


/assets/images/icon/icon-rc2.png

客服咨询

/assets/images/icon/icon-message.png

提交需求

https://file.biotech-pack.com/static/btpk/assets/images/icon/icon-wx-2.png

https://file.biotech-pack.com/pro//bt-btpk/20241231/config/1874015350579343360-WX-20241231.jpg

联系销售人员

/assets/images/icon/icon-tag-sale.png

促销活动

/assets/images/icon/icon-return.png