二级分类是统计出所有基因的GO号然后去重,去重后再重新对应每个分类的基因数量吗
在处理基因功能注释数据时,Gene Ontology(GO)分析是一种常见的方法。GO分析为基因提供了一种标准化的方式来描述其功能特性。你的问题涉及到二级分类中的GO号处理,下面我将逐步解释这个过程。
您提到的是在GO二级分类(如 Biological Process、Molecular Function、Cellular Component 下的二级大类)中,统计基因分布数量的问题。这里通常涉及两步:
第一步:为每个基因注释GO terms(GO号),一个基因往往对应多个GO号。
第二步:将GO号映射到其对应的二级分类条目,统计每个分类中有多少个基因。
一、是否需要去重?——区分两种情况
简要总结:
每个基因保留所有GO号;
在统计到每个二级分类时,要按基因去重,避免同一基因在同分类下被重复计数。
二、标准统计流程
1、对所有基因完成GO注释,得到基因–GO号列表;
2、将所有GO号映射到GO官方定义的二级分类;
3、每个二级分类中,按基因去重计数;即一个基因若属于同一分类下多个GO号,只计一次;
4、生成最终的二级分类–基因数目统计表。
三、注意常见错误
不能直接对GO号去重:因为GO是多对多的,一个基因–多个GO;一个GO–多个分类。
不能每个GO号单独计数再简单相加:这样会使基因数膨胀,导致统计失真。
百泰派克生物科技--生物制品表征,多组学生物质谱检测优质服务商
相关服务:
How to order?