国际标准期刊号: 0974-276X
王璞与萧轩
动机:核受体(NR)在所有发育和生理过程中发挥作用,并且是多种疾病和健康状态下的重要药物靶点。在过去的几年中,为了以高通量和低成本识别NR及其亚家族,已经引入了许多机器学习方法。然而,这些预测器都是基于NucleaRDB中的旧数据集开发的,而且没有采用特征选择技术,因此性能非常有限。
结果:在本研究中,开发了一种基于特征选择的两级预测器,称为 NRPred-FS,可用于仅根据其序列信息来识别查询蛋白是否为核受体,如果是,则预测将自动继续在以下八个亚家族中进一步识别:(1)甲状腺激素样(NR1),(2)HNF4样(NR2),(3)雌激素样,(4)神经生长因子IB样( NR4)、(5) Fushi tarazu-F1 样 (NR5)、(6) 生殖细胞核因子样 (NR6)、(7) knirps 样 (NR0A) 和 (8) DAX 样 (NR0B)。核受体序列被编码为通过合并各种物理化学和统计特征而形成的序列衍生特征向量。此外,通过前向特征选择算法对特征集进行优化,以减少特征维度并获得更高的分类精度。作为演示,该方法在源自最新版本 NucleaRDB 和 UniProt 的基准数据集上经过了严格的测试。留一法交叉验证的总体预测准确率在第一和第二级别分别约为97%和93%。为了方便用户,强大的预测器 NRPred-FS 可在 http://www.jci-bioinfo.cn/NRPred-FS 上免费访问。希望它将成为识别 NR 及其亚科的有用工具。留一法交叉验证的总体预测准确率在第一和第二级别分别约为97%和93%。为了方便用户,强大的预测器 NRPred-FS 可在 http://www.jci-bioinfo.cn/NRPred-FS 上免费访问。希望它将成为识别 NR 及其亚科的有用工具。留一法交叉验证的总体预测准确率在第一和第二级别分别约为97%和93%。为了方便用户,强大的预测器 NRPred-FS 可在 http://www.jci-bioinfo.cn/NRPred-FS 上免费访问。希望它将成为识别 NR 及其亚科的有用工具。