请问SMART工具中,提交的序列格式有什么要求吗?比如id后面带的正负号,又或者序列后面的*号?
-
例如:>ProteinX+ 或 >ProteinX-
-
SMART工具不识别这些符号的生物学含义,它们将原样作为序列ID处理。
-
因此,这些符号不会影响结构域识别,但建议避免使用以免混淆,尤其是自动批量解析时。
-
在某些数据库(如UniProt)中,*表示翻译终止(stop codon)。
-
在SMART中,*不是合法氨基酸字符,可能导致分析失败或忽略该序列。
-
建议在提交前移除“*”号。
SMART(Simple Modular Architecture Research Tool)数据库用于识别蛋白质序列中的结构域(domain)和功能模块,其在线提交工具对输入序列格式有如下要求与注意事项:
一、格式要求
1、输入格式必须为FASTA格式
2、支持的序列类型为蛋白质序列(非核酸序列)
输入序列必须是标准的一字母氨基酸代码(A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V 等)。
二、特殊字符处理
1、FASTA标题行中的 "+" 或 "-"
2、序列末尾的“*”号
三、推荐做法
1、保持FASTA格式整洁、仅含合法氨基酸字符;
2、删除所有非标准字符(如*, X, 空格等);
3、避免使用带有“+”“-”等符号的ID,或仅保留核心标识信息;
4、若批量提交,建议每条序列不超过1000个氨基酸,避免一次性提交过多条长序列以减少服务器拒绝风险。
百泰派克生物科技--生物制品表征,多组学生物质谱检测优质服务商
相关服务:
How to order?

