如何计算假阳性率 (FDR)?
随着蛋白质组学分离技术的进步和质量分析仪的改进,基于质谱的蛋白质组学在实验研究中产生的数据呈指数增长趋势。如此庞大的数据集需要自动化计算工具来进行高通量数据分析和方法统计控制。通常使用几种流行的数据库搜索算法中的一种或多种搜索方式。这些检索工具的匹配数据可能会有假阳性,在做出任何生物学解释之前,需要对这些错误匹配的数据进行统计验证。如果没有这样的程序,生物学推论就不成立,并且完全可能具有误导性。同时,真假阳性之间有相当大的重叠,为了控制匹配过程中的误报数据,需要进行统计估计,以反映处理数据中存在的误报数量。假阳性率 (FDR) 是大规模蛋白质组学数据集全局置信度评估的指标。在FDR评估的目标-诱饵策略的常见应用中,针对复合目标蛋白质和诱饵蛋白质序列数据库搜索来自整个实验的所有MS/MS谱图。为了计算 FDR,使用相同的搜索参数搜索记录的MS/MS谱图——无论是在真实(目标)数据库中还是针对所有序列都已反转或随机化的诱饵数据库。选择每个光谱的最佳肽匹配进行进一步分析。对诱饵肽的匹配数进行计数,并用于估计使用各种分数阈值过滤数据而产生的假阳性率 (FDR)。更详细地说,应用FDR评估的节点Percolator使用半监督机器学习来区分正确和不正确的肽谱匹配,并额外计算准确的肽谱统计数据,例如q值 (FDR) 和后验错误概率。
How to order?