国际标准期刊号: 0974-276X
努曼·拉苏尔、瓦卡尔·侯赛因和萨吉德·马哈茂德
这是使用体外获得足够浓度的可溶性蛋白质的反复出现的限制因素方法论。溶解度是蛋白质的独立特征,可以在特定实验条件下使用氨基酸组成来确定。本研究旨在通过使用一级结构信息采用基于机器学习的方法来预测蛋白质溶解度。这些特征涉及氨基酸组成特征以及氨基酸的理化性质,即规范值、疏水性、溶解度指数和溶解度得分。对于 6372 个蛋白质序列(4850 个可溶性蛋白质序列和 1522 个不溶性蛋白质序列)的数据集,计算了所有四个特征。使用计算值,基于多层感知器 (MLP)、随机森林 (RF)、决策树 (DT) 和朴素贝叶斯分类器 (NBC) 开发了四种不同的预测模型。对于性能评估,确定 MCC、F-measure、准确度、精确度和召回率。在这四种预测模型中,MLP 被认为是预测蛋白质溶解度最准确的模型,准确率为 95.92%,其次是 RF 和 NBC。所提出的基于 MLP 的模型可用于预测蛋白质溶解度,作为实验预测的预处理。该方法资源和时间高效,可以帮助预测蛋白质的溶解度,而不是费力而忙碌的实验工作。可用于预测蛋白质溶解度,作为实验预测的预处理。该方法资源和时间高效,可以帮助预测蛋白质的溶解度,而不是费力而忙碌的实验工作。可用于预测蛋白质溶解度,作为实验预测的预处理。该方法资源和时间高效,可以帮助预测蛋白质的溶解度,而不是费力而忙碌的实验工作。