国际标准期刊号: 2161-0932
阿比德·萨瓦尔、乔茨纳·苏里、维诺德·夏尔马和梅博布·阿里
客观的:这项研究工作的主要目标是开发一个新的基准数据库,其中包含从巴氏涂片检查玻片中获得的数字化和校准的宫颈细胞,用于筛查宫颈癌。该数据库可以作为设计、开发、培训、测试和验证各种基于人工智能的系统的潜在工具,通过巴氏涂片图像的表征和分类来预测宫颈癌。该数据库还可以被其他研究人员用来比较分析各种机器学习和图像处理算法的工作效率。可以通过向相应作者发送请求来获取该数据库。
方法:宫颈癌的正确、及时诊断是医学界面临的重大问题之一。从文献中发现,不同的模式识别技术可以帮助他们在这个领域取得进步。巴氏涂片(也称为巴氏涂片)是对从子宫下部狭窄部分(称为子宫颈)刮取的人体细胞样本进行的显微镜检查。使用巴氏法染色后的细胞样本在显微镜下分析是否存在任何异常发育,表明任何癌前病变和潜在癌前病变。如果观察到异常结果,则进行进一步精确的诊断子程序。检查宫颈细胞图像是否存在异常,为及时采取行动提供了依据,从而减少宫颈癌的发病率和死亡。它是用于筛查宫颈癌的最流行的技术。如果定期进行子宫颈抹片检查并进行适当的随访,可以将宫颈癌死亡率降低高达 80%。本文的贡献在于,我们创建了一个丰富的机器学习数据库,其中包含从宫颈涂片测试载玻片中获得的定量分析和校准的宫颈细胞。这样创建的数据库由约200个临床病例(8091个宫颈细胞)的数据组成,这些数据是从多个医疗保健中心获得的,以确保数据的多样性。使用多头数字显微镜处理载玻片并获得宫颈细胞的图像,它们通过了各种数据预处理子程序。预处理后,对细胞进行形态学分析和缩放,以获得细胞质和细胞核的各种特征的单独定量测量。技术人员根据最新的 2001-Bethesda 分类系统将数据库中的细胞仔细分类为不同的相应类别。除此之外,我们还率先将一种新型混合集成系统应用于该数据库,以评估新型数据库和新型混合集成技术通过子宫颈抹片数据分类筛查宫颈癌的有效性。该论文还对多种基于人工智能的宫颈癌预后分类算法进行了比较分析。
结果:为了评估本工作中准备的数字数据库的有效性和正确性,作者实施了该数据库来训练、测试和验证十五种不同的基于人工智能的机器学习算法。使用该数据库训练的所有算法在宫颈癌筛查方面都表现出了值得称赞的效率。对于两类问题,所有用数字数据库训练的算法都显示出大约 93-95% 范围内的效率,而对于多类问题算法,则表现出大约 69-78% 范围内的效率。结果表明,这项工作中准备的新型数字数据库可以有效地用于开发基于机器学习的新技术,用于宫颈癌的自动筛查。结果还表明,混合集成技术是一种有效的子宫颈抹片图像分类方法,因此可以有效地用于宫颈癌的诊断。在所有实现的算法中,混合集成方法表现出色,对于 2 类问题的效率约为 98%,对于 7 类问题的效率约为 86%。与所有独立分类器相比,对于双类和多类问题,结果明显更好。