国际标准期刊号: 1745-7580
约翰内斯·索尔纳、雷纳·格罗曼、罗纳德·拉普伯格、保罗·珀科、阿诺·卢卡斯和贝恩德·梅尔
背景:模拟部分蛋白质抗原的基于肽的诊断和治疗的应用正在重新引起人们的兴趣。到目前为止,此类肽的选择和设计原理通常由 T 细胞表位预测、可用的实验和建模 3D 结构、B 细胞表位预测(例如亲水性图或经验)驱动。如果没有可用的结构,则合理选择用于产生功能改变或中和抗体的肽实际上是不可能的。具体来说,如果有许多替代抗原可用,则减少所需的合成肽直到找到一种成功的候选抗原是核心技术利益。我们研究了 B 细胞表位预测与抗原变异性的整合以及翻译后修饰 (PTM) 预测模式的保存,以改进该领域的最新技术。特别是机器学习方法的应用显示出有希望的结果。结果:我们发现导致功能改变抗体产生的蛋白质区域通常以三个呈现参数的累积总和的明显增加为特征。此外,为了识别相关位点而最大化抗原性、最小化变异性和最小化翻译后修饰的可能性的概念导致了生物学上有趣的观察。首先,对于大约 50% 的抗原,该方法在 ROC 曲线下面积 (AROC) 值至少为 0.65 的情况下效果良好。另一方面,很大一部分显示出相当低的 AROC 值 < = 0.35,表明总体非高斯分布。虽然通过我们的方法,57 种抗原中约有三分之一似乎是无形的,但我们的结果表明,至少存在两类不同的生物信息学可检测表位,应分别预测它们。作为我们研究的副作用,我们提供了一个手工策划的数据集来验证防护性分类。基于该数据集,机器学习方法进一步将平衡数据集中的类分离预测能力提高了 83%。结论:我们提出了一种计算方法来自动选择和排序肽,以刺激潜在的保护性或其他功能改变抗体。可以证明,变异性、翻译后修饰模式保守性和 B 细胞抗原性的整合改善了理性选择而不是随机猜测。也许更重要的是,我们发现对于大约 50% 的抗原,该方法比 57 种蛋白质的整体数据集效果要好得多。本质上,作为副作用,我们的方法优化了可能是最适用的肽,因为它们往往是未修饰的并且尽可能不变,这满足了病原体感染的诊断和治疗的需求。此外,我们还展示了通过应用机器学习方法(特别是随机森林)进一步改进的潜力。