国际标准期刊号: 0976-4860
Samy Goneimy、Hossam M. Faheem、Noha Gamal
我们今天在抗击冠状病毒 (COVID-19) 的斗争中所拥有的优势之一是大数据分析以及机器智能和人工智能技术的重大进步,而 2003 年 SARS 爆发时并没有那么先进。美国的统计监测已将肺炎/流感列为第七大死因。严重的流感季节可导致超过 60,000 人死亡和超过 200,000 人住院治疗。2018 年流感爆发期间,美国共有 90 万人(90 万人)死亡,其中 5.5 万人(55,000 人)死于肺炎/流感(%6.0)。 65 岁或以上的患者处于死亡状态死于病毒性肺炎以及未并发肺炎的流感的风险尤其大。这些患者的死亡占所有肺炎和/或流感死亡的 89%。医疗保健行业需要有兴趣将机器学习应用于疾病监测、预测和诊断的研究人员。许多与医疗保健相关的研究表明,机器学习 (ML) 是一种拯救生命的技术,将革新医疗保健服务。这项技术挑战了传统的反应式医疗保健方法。正是预测性、主动性和预防性的救生能力使其成为每个卫生系统中至关重要的能力。为了帮助预测肺炎/流感爆发,回归和分类技术,例如 Ridge、决策树回归/分类、多元线性回归、Logistic 回归分类,K 最近邻和支持向量机回归可用于基于值得信赖的训练和验证数据集来预测即将出现的实例。准确的预测将帮助医疗保健利益相关者和政府满足疫情爆发季节的医疗和身体需求。在本文中,我们利用不同的机器监督学习算法来预测美国城市中流感和肺炎造成的死亡人数。每个算法均已实现,适合训练数据集,由验证数据集进行验证,并通过均方根误差 (RMSE) 和 R2 指标进行评估。KNN 是最适合数据集的,准确率高达 92.6%。最不适合的算法是 Logistic 回归,准确度为 51%。其余经过测试的算法的准确度为 80% 到 92%。评估指标、R2 和 RMSE 是使用基于 Python 的模拟通过分析和编程方式获得的。两种方法的结果非常匹配。这一有希望的结果鼓励了提高预测器性能的想法。一种新的预测器(KMR-Stack)是通过将最好的三种拟合算法(KNN、多重线性回归、Ridge)集成在一个堆栈中来实现的。KMR-Stack 的准确率达到 94.9%,超过了 KNN 的准确率。在KMR Stack中,与文献中介绍的其他堆叠模型相比,又做出了改进。选择基本模型回归量的动态性得到了改善,因此,与使用每个单独的算法相比,不同机器学习算法的堆叠集成使用显示出更高的预测精度,