国际标准期刊号: 0974-276X
Hyunsu Ju、Allan R Brasier、Alexander Kurosky、Bo Xu、Victor E Reyes 和 David Y Graham
背景:准确分类模型的开发取决于用于识别最相关变量的方法。本文的目的是评估变量选择方法,以识别使用非线性统计模型预测二元响应的重要变量。我们在模型选择方面的目标包括生成可解释的非过度拟合稳定模型,生成准确的预测并具有最小的偏差。这项工作的动机是从参加一项前瞻性观察研究的 60 名个体获得的幽门螺杆菌感染的临床和实验室特征数据。结果:我们在幽门螺杆菌数据集上对几种非线性分类模型进行了综合性能比较。我们比较了多元自适应回归样条 (MARS)、正则化 Logistic 回归、广义加性模型 (GAM) 和 GAM 中的贝叶斯变量选择的变量选择结果。我们发现 MARS 模型方法具有最高的预测能力,因为候选预测变量的非线性假设得到了强烈满足,这一发现通过 GAM 中的偏差卡方检验程序得到了证明。结论:我们的结果表明,生理游离氨基酸瓜氨酸、组氨酸、赖氨酸和精氨酸是基于氨基酸谱预测幽门螺杆菌消化性溃疡病的主要特征。我们发现 MARS 模型方法具有最高的预测能力,因为候选预测变量的非线性假设得到了强烈满足,这一发现通过 GAM 中的偏差卡方检验程序得到了证实。结论:我们的结果表明,生理游离氨基酸瓜氨酸、组氨酸、赖氨酸和精氨酸是基于氨基酸谱预测幽门螺杆菌消化性溃疡病的主要特征。我们发现 MARS 模型方法具有最高的预测能力,因为候选预测变量的非线性假设得到了强烈满足,这一发现通过 GAM 中的偏差卡方检验程序得到了证实。结论:我们的结果表明,生理游离氨基酸瓜氨酸、组氨酸、赖氨酸和精氨酸是基于氨基酸谱预测幽门螺杆菌消化性溃疡病的主要特征。