蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

使用 Bootstrap 的 ROC 曲线进行特征选择

徐平、刘翔、David Hadley、黄帅、Jeffrey Krischer 和 Craig Beam

背景:在对N×m数据矩阵(即m维空间上的N个样本)进行建模时,当m大于N时就会出现问题。由于患病受试者的数量有限,样本量无法增加,尤其是在医学研究中。特征选择通常用于选择相关 m 个变量的子集(通常低于 N),用于模型构建。

方法:提出了一种多步引导方法,根据引导重采样的接收者操作特征曲线(ROCAUC)下的面积来量化候选预测变量与结果的相关性,然后仅选择满足预先指定标准的显着变量作为特征选择过程。

结果:使用数千个预测变量和真实预测变量与结果之间的 5 个预测能力级别进行了广泛的模拟。模拟数据的结果表明,bootstrap 样本的 ROCAUC 均值接近真实的 ROCAUC。即使只有 30 个病例和 30 个对照,25 个列出的预测变量中有 25 个通过使用自举 ROCAUC 平均值提供了正确的分类能力级别。所提出的引导 ROCAUC 方法优于单一 ROCAUC。自举 ROCAUC 平均值的标准误差比原始样本的单个 ROCAUC 估计值的标准误差小 20% 到 50%。提供了一个说明性示例,以应用所提出的方法来识别可以预测乳腺癌患者临床生存的基因表达,

结论:我们得出的结论是,当研究的目标是识别重要的预测变量并提供有关单个预测变量的判别或预测能力的见解时,自举 ROCAUC 方法对于特征选择问题来说是直观且有吸引力的。这些目标在微阵列研究和新生物标志物发现中很常见。

免责声明: 此摘要通过人工智能工具翻译,尚未经过审核或验证.
Top