国际标准期刊号: 2161-0398
大卫·霍恩*、乌里·温加特
特定肽 (SP) 的方法学已在酶的背景下引入。它基于用于主题提取的无监督机器学习 (ML) 工具,然后对主题进行监督注释。对于酶,分类器是酶分类 (EC) 号。在这里,我们重新研究这个问题,并证明我们在目前可用的蛋白质序列上达到了 0.965 的精确度和 0.891 的召回率。此外,应用我们的方法来查询蛋白质比用于相同目的的深度学习方法要快得多。
我们还将这种方法应用于其他两个蛋白质组,即 G 蛋白偶联受体 (GPCR) 和锌指蛋白,找到它们相应的 SP,并提供搜索任何蛋白质序列以将其分类在任何此类家族下的代码。正在讨论一些具有属于三个系统中的两个的注释的蛋白质。我们的方法可以应用于任何蛋白质组,以便找到其相应的 SP,并提供搜索任何蛋白质序列以将其分类在任何此类家族下的代码。