国际标准期刊号: 2157-7064
萨米尔·V·德什潘德 (Samir V. Deshpande)、拉比·E·贾布尔 (Rabih E. Jabbour)、彼得·A·斯奈德 (Peter A. Snyder)、迈克尔·斯坦福 (Michael Stanley)、查尔斯·H·威克 (Charles H. Wick) 和艾伦·W·祖利奇 (Alan W. Zulich)
我们开发了一套生物信息学算法,用于基于蛋白质序列的比较分析来自动识别和分类微生物。该应用程序使用基于质谱的蛋白质组学揭示的微生物蛋白质的序列信息进行识别和系统蛋白质组学分类。该算法将由市售软件(例如 SEQUEST)执行的针对蛋白质数据库搜索肽离子产物离子谱的结果转换为具有分类学意义且易于解释的输出。为了实现这一目标,我们构建了一个定制蛋白质数据库,该数据库由来自所有完全测序的细菌基因组(截至 2010 年 8 月 25 日的 1204 种微生物)的理论蛋白质组组成,采用 FASTA 格式。数据库中的每个蛋白质序列都补充有有关来源生物体的信息,并且每个蛋白质编码开放阅读框(ORF)的染色体位置都嵌入到蛋白质序列标题中。此外,该信息与每个数据库细菌的分类位置相关。ABOid 分析 SEQUEST 搜索结果文件,提供产物离子质谱 (MS/MS) 的肽序列分配正确的概率,并使用接受的谱图与序列匹配来生成序列与生物体 (STO) 矩阵的作业。由于肽序列在所比较的各种菌株中存在或不存在差异,因此可以以高通量方式对细菌物种进行分类。为此,STO 分配矩阵(被视为分配位图)接下来由 ABOid 模块进行分析,该模块使用细菌物种之间的系统发育关系作为决策树过程的一部分,并通过应用多元统计技术(主成分和聚类分析)来揭示分析的未知样本与数据库微生物的关系。我们的细菌分类和识别算法根据有组织的方案将分析的生物体分配给分类群,该方案从门级别开始,一直到纲、目、科和属,直至菌株级别。揭示分析的未知样品与数据库微生物的关系。我们的细菌分类和识别算法根据有组织的方案将分析的生物体分配给分类群,该方案从门级别开始,一直到纲、目、科和属,直至菌株级别。揭示分析的未知样品与数据库微生物的关系。我们的细菌分类和识别算法根据有组织的方案将分析的生物体分配给分类群,该方案从门级别开始,一直到纲、目、科和属,直至菌株级别。