蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

使用具有最大 AUC 的基因线性组合识别差异基因集

王占峰、蔡振安、张元钦

基因集富集分析 (GSEA) 利用基因本体 (GO) 类别或先前定义的生物类别中功能相关基因集的基因表达谱来评估与临床结果或表型相关的基因集的重要性,是最广泛使用的方法基因分析。然而,分类前景却很少受到关注。在本文中,我们利用基因表达数据和先验生物学知识来识别与表型类别区分能力密切相关的差异基因集。我们提出了两种非参数方法来使用基因集线性风险评分的受试者工作特征(ROC)曲线(AUC)下的面积来识别差异基因集,它们是通过基因集中的简约阈值独立基因选择方法获得的。计算基于 AUC 的统计数据和从线性风险评分交叉验证获得的 AUC 值,并将其用作识别差异基因集的指标。总结基因集的区分能力,并通过规定的AUC统计阈值或预定义的交叉验证AUC阈值来选择具有区分能力的基因集。此外,我们根据线性组合系数的绝对值进一步区分各个基因集在区分能力方面的影响。所提出的方法使研究人员能够识别具有高辨别能力的富集基因集,并通过相应的线性组合系数发现基因集中基因的贡献。使用合成数据和一系列基因表达数据集进行数值研究,以评估所提出方法的性能,并将结果与​​随机森林分类方法和其他基于假设检验的方法进行比较。结果表明,我们提出的方法在检测富集方面是可靠且令人满意的,并且可以为基因集测试提供富有洞察力的替代方案。R 脚本和补充信息可在 http://idv.sinica.edu.tw/ycchang/software.html 上获取。使用合成数据和一系列基因表达数据集进行数值研究,以评估所提出方法的性能,并将结果与​​随机森林分类方法和其他基于假设检验的方法进行比较。结果表明,我们提出的方法在检测富集方面是可靠且令人满意的,并且可以为基因集测试提供富有洞察力的替代方案。R 脚本和补充信息可在 http://idv.sinica.edu.tw/ycchang/software.html 上获取。使用合成数据和一系列基因表达数据集进行数值研究,以评估所提出方法的性能,并将结果与​​随机森林分类方法和其他基于假设检验的方法进行比较。结果表明,我们提出的方法在检测富集方面是可靠且令人满意的,并且可以为基因集测试提供富有洞察力的替代方案。R 脚本和补充信息可在 http://idv.sinica.edu.tw/ycchang/software.html 上获取。结果表明,我们提出的方法在检测富集方面是可靠且令人满意的,并且可以为基因集测试提供富有洞察力的替代方案。R 脚本和补充信息可在 http://idv.sinica.edu.tw/ycchang/software.html 上获取。结果表明,我们提出的方法在检测富集方面是可靠且令人满意的,并且可以为基因集测试提供富有洞察力的替代方案。R 脚本和补充信息可在 http://idv.sinica.edu.tw/ycchang/software.html 上获取。

Top