Denovo肽段测序后的数据,肽段序列非常多,请问怎么筛选能够减少数量?
-
建议阈值:ALC ≥ 70 或 Confidence ≥ 80(视软件而定)
-
作用:去除大量低可信度的序列,避免假阳性
-
策略:合并完全重复的肽段序列;可选地合并“高度相似”的序列(如 edit distance ≤ 1),保留得分更高者
-
工具建议:CD-HIT 或自定义脚本(Python + Levenshtein distance)
-
建议阈值:保留长度 ≥ 6 或 7 aa 的肽段
-
含特定氨基酸(如Cys、Phospho-Ser/Thr)
-
匹配特定模式(motif)或位点(如酶切位点附近)
-
MS/MS 总离子强度 > 阈值
-
碎片离子覆盖率 > X%
-
b/y 离子比例较高的谱图优先保留
Denovo肽段测序结果中肽段数量通常较多,包含大量冗余或低可信度序列。为实现高效筛选、减少无效序列数量,建议从以下几个维度系统性筛选:
一、根据可信度评分筛选(Primary filter)
大多数De novo算法(如 PEAKS、Novor、pNovo 等)都会给出每条肽段的 Average Local Confidence (ALC) 或类似的 confidence score:
二、删除冗余序列(Redundancy reduction)
同一肽段可能在多个谱图中反复识别,或出现轻微修饰变体:
三、按肽段长度筛选
极短的肽段(<6 aa)通常特异性和识别价值较低:
四、仅保留含特定特征的肽段(Feature-based filtering)
根据实验目的进行定向筛选:
五、结合数据库搜索结果(Hybrid filtering)
若同时做了 database search(如Byonic、Mascot、MaxQuant):
将 De novo 序列与数据库鉴定结果匹配,保留与已知蛋白部分匹配的序列(partial match),也可反向地保留未匹配的“新肽段”做后续分析(如新翻译本、突变等)
六、根据谱图质量进一步筛选
可用以下标准限制输入谱图:
百泰派克生物科技--生物制品表征,多组学生物质谱检测优质服务商
相关服务:
How to order?

