生物医学数据挖掘国际期刊

生物医学数据挖掘国际期刊
开放获取

国际标准期刊号: 2090-4924

抽象的

相互作用组学:新药机会的计算分析

拉姆·萨穆德拉拉

抽象的

我们开发了新药机会计算分析 (CANDO) 阶段,该阶段获得了 2010 年 NIH 院长先锋奖的资助,该阶段通过研究化合物-蛋白质组连接标记来决定用药行为,而不是传统的单一目标方法。该阶段利用所有蛋白质上的协作标记的相似性作为可比较的实际行为的证明,而不可比较的标记(或标记区域)作为脱靶和反靶点的特征(症状,从而推导出蛋白质组上化合物/镇定行为的同源性)我们已经在 3,733 种人类可摄入混合物之间建立了一个预期的联系网络,其中包括 FDA 认可的药物和补充剂×48,278 个蛋白质利用我们先进的化学和生物信息学部分与元素惯例对接(来自超过 10 亿个预期合作绝对)。我们应用我们的化合物-蛋白质组特征相关性和定位方法来处理 2030 个含有一种已确认化合物的特征,并对 1439 个含有超过认可化合物的特征产生了 12-25% 的基准正确性。我们正在初步批准对四十多种症状进行体外、体内和临床研究的“高价值”预测,包括龋齿、登革热、结核病、卵巢疾病、胆管癌等。58/163 (36%) 期望超过 12 项针对 10 种迹象的调查显示与细胞水平上的现有治疗或微摩尔抑制具有同等或更好的作用,并作为新型可重复利用的治疗。我们的方法适用于 FDA 确认的任何化合物,并且可以迅速考虑蛋白质结构的转变,以实现依赖于基因型的个性化,预示着另一个更快、更安全、更好和更便宜的药物开发时代。

药物再利用是对抗新奇有用信息披露速度放缓的重要手段。新药机会计算分析 (CANDO) 阶段利用 3733 种药物/混合物对 2030 年的症状/疾病进行鸟枪式重新调整,以预测与 46,784 种蛋白质的合作,并通过蛋白质组连接标记将它们关联起来。准确性是通过查看针对相似症状确认的药物之间的相似性来确定的。我们通过将完整的蛋白质库分成更小的子集,然后将表现最好的子集重新组合成更大的超集,进行了特殊的子集检查。对超集进行基准测试后,准确度提高了 14%,这意味着与完整文库相比,蛋白质数量减少了 100-1000 重叠。进一步的研究发现,涉及具有更均匀分类配体合作的蛋白质的文库对于描述化合物行为具有重要意义。与利用完整蛋白质库提出的药物相比,利用这些库之一来生产针对丛林热、结核病和大细胞癌的假定药物后起之秀,可以带来更多可以在生物医学著作中获得批准的药物。我们的工作解释了特定蛋白质子集的作用以及在镇静再利用中发挥作用的相关配体合作,并提供了镇静结构和 AI 方法的建议来改善 CANDO 阶段。与利用完整蛋白质库提出的药物相比,利用这些库之一来生产针对丛林热、结核病和大细胞癌的假定药物后起之秀,可以带来更多可以在生物医学著作中获得批准的药物。我们的工作解释了特定蛋白质子集的作用以及在镇静再利用中发挥作用的相关配体合作,并提供了镇静结构和 AI 方法的建议来改善 CANDO 阶段。与利用完整蛋白质库提出的药物相比,利用这些库之一来生产针对丛林热、结核病和大细胞癌的假定药物后起之秀,可以带来更多可以在生物医学著作中获得批准的药物。我们的工作解释了特定蛋白质子集的作用以及在镇静再利用中发挥作用的相关配体合作,并提供了镇静结构和 AI 方法的建议来改善 CANDO 阶段。

介绍

平静披露的常规系统包含先进的药理学和冷静的药物结构。在此之前,定期以高水平的方式筛选混合物库,以确定体外的某些表型影响。在最后提到的,混合是为了所有意图和目的根据预定的自然目标进行筛选,然后测量高确定性命中以进行理想的调整。在这两种情况下,然后对获得的命中进行体内充分性调查,并继续进行临床预试验,如果每个阶段都取得成果,则可能获得 FDA 的认可。这种反复的过程可能花费数十亿美元,每种药物需要长达 15 年的时间。这些方法没有考虑到所确认的药物对生命系统内的症状/疾病的不加区分(通过所有小颗粒治疗的反应来证实),导致许多新疗法失败。由于假定药物减少的第二个驱动原因是拮抗反应[9],因此为有效确认的药物寻找新用途具有令人难以置信的效用,这被正式称为药物重新利用或重新定位。

我们建立了新药机会计算分析 (CANDO) 阶段来解决这些药物披露挑战。CANDO 的一个核心原则是药物与各种蛋白质和途径进行通讯以纠正疾病状态,而这种肆意的性质被滥用来根据其蛋白质组标记来关联药物。这些标记通常是通过虚拟亚原子对接重演来决定的,这些重演用于预测蛋白质组规模上的化合物-蛋白质合作。利用已知药物标志认可/隶属关系的信息库,我们可以根据其蛋白质组连接标记与针对该标志确认(或与之相关)的所有其他药物的相似性来识别特定标志的推定药物重新利用的可能性。当特定信号没有任何认可的镇定作用时,CANDO 中存在的人类使用混合物库会根据通过 X 束衍射或从特定生物蛋白质组显示的同源性获得的所有适用和可管理蛋白质的三级结构进行筛选推荐新药,扩大对致病蛋白质的研究并限制不良影响。CANDO 利用这两种方法产生的高确定性推定药物申请人已在临床前初步批准用于各种症状,包括登革热、龋齿、糖尿病、乙型肝炎、疱疹、狼疮、肠道疾病和结核病,其中 58/163 上升- 与标准药物相比,后起之秀产生等同或首选的治疗方法。CANDO 中存在的人类使用混合物库根据 X 束衍射获得的所有适用且可管理的蛋白质的三级结构进行筛选,或从特定有机体蛋白质组显示同源性,以推荐新药物,将官方范围扩大到引起疾病的蛋白质并限制偏差影响。CANDO 利用这两种方法产生的高确定性推定药物申请人已在临床前初步批准用于各种症状,包括登革热、龋齿、糖尿病、乙型肝炎、疱疹、狼疮、肠道疾病和结核病,其中 58/163 上升- 与标准药物相比,后起之秀产生等同或首选的治疗方法。CANDO 中存在的人类使用混合物库根据 X 束衍射获得的所有适用且可管理的蛋白质的三级结构进行筛选,或从特定有机体蛋白质组显示同源性,以推荐新药物,将官方范围扩大到引起疾病的蛋白质并限制偏差影响。CANDO 利用这两种方法产生的高确定性推定药物申请人已在临床前初步批准用于各种症状,包括登革热、龋齿、糖尿病、乙型肝炎、疱疹、狼疮、肠道疾病和结核病,其中 58/163 上升- 与标准药物相比,后起之秀产生等同或首选的治疗方法。

讨论

拆分和排名惯例最初计划发现一个蛋白质子集,其基准至少与整个集合一样。基准测试执行的改进是稍后将人工智能加入 CANDO 阶段的有力标志,并发现日益复杂的蛋白质加权和关联如何增加稳定的重新利用准确性,而这很难用简单的 RMSD 数字来实现。作为这项研究的一个主要方面,所产生的估计蛋白质库较小,即大小减少了 100-1000 个折痕,这将越来越有利于人工智能。通过 PCA 以外的方法(例如基于神经系统的自动编码器)来减少亮点,将为我们提出的技术带来显着的差异。

自主化合物库测试表明,依赖于特定库的增强蛋白质集能够恢复性地描述完全不同寻常的蛋白质集,证明这些超集是可推广的。最终,如果将另一种药物/化合物添加到 CANDO 假定药物库中,这些尺寸减小的超集很可能准备好在任何情况下描绘其行为,就像利用每种可用的蛋白质一样。尽管鼓励人工智能,但我们的发现提出,产生新的蛋白质组关联向量所需的时间会大大减少,如果用于创建合作的决策程序/惯例的计算成本很高,这一点尤其重要。通过使用超级组推荐的任何重新利用的后起之秀都处于正常状态,这在临床上更加重要,

结论

我们开发了一个集成的管道,可以阐明蛋白质及其特征,这对于 CANDO 平台中的基准测试非常重要,因此对于药物的重新利用和设计也很重要。我们能够用数量级更少的蛋白质重现完整 CANDO 蛋白质结构库的性能,从而在评估新的假定药物库或平台的任何其他更改时能够更快速地生成候选药物。我们发现,就预测与之相互作用的配体结构而言,适度混杂的蛋白质对于描述药物在生物系统中的行为非常重要,这一主张得到了文献证据的验证,支持由由以下组成的库生成的假定候选药物:这些蛋白质的子集用于治疗疟疾,结核病和大细胞癌。对药物设计的影响是,认识小分子疗法的多靶点性质并优化它们在吸收、分散、代谢和排泄过程中与环境中暴露的一系列大分子靶点的相互作用可能比传统的理性治疗更富有成效。使用单一靶点的药物设计。

Top