国际标准期刊号: 0974-276X
洛艾·阿卜杜拉、瓦利德·哈利法、路易丝·C·肖和马利克·优素福
背景:技术的进步促进了从大量样本中生成基因表达数据,并促进了在基础和生物医学系统中分析基因表达的“大数据”方法的发展。话虽如此,数据仍然包括相对少量的样本和数以万计的变量/基因表达。已经开发了多种不同的方法来搜索这些基因空间,以便选择能够准确地区分一类受试者/样本与另一类受试者/样本的信息最丰富的变量。然而,仍然需要新的方法来准确区分具有相似基因表达谱的生物学上不同类别的受试者。我们描述了一种新的、有前途的方法来选择信息最丰富的差异表达基因来解决这个问题。我们描述了一种使用基于集成聚类方法的递归聚类消除(RCE)过程来识别显着差异表达的基因簇的方法。我们将这种方法称为 SVM-RCE-EC(集成聚类)。我们表明,与包括传统 SVM-RCE 方法在内的其他方法相比,SVM-RCE-EC 提高了基因选择和分类准确性,并且当应用于其他方法难以解决的困难数据集时,这一点尤其明显。
方法:为了实现 SVM-RCE-EC,我们首先应用集成聚类方法来识别稳健的基因簇。然后,我们应用支持向量机 (SVM),通过交叉验证,根据这些基因簇对分类准确性的贡献对它们进行评分(排名)。最不重要的基因簇通过 RCE 程序逐渐去除,最重要的基因簇被保留,直到识别出两类之间最稳健、表达显着差异的基因。我们将 SVM-RCE-EC 的分类性能与各种已发布的分类算法进行比较。
结果与结论: Utilization of gene clusters selected using the ensemble method enhances classification performance as compared to other methods and identifies sets of significant genes that appear to be more biologically meaningful to the system being analyzed. We show that SVM-RCE-EC outperforms several other methods on data that represent highly similar sample classes that are difficult to distinguish and is comparable to other methods when applied to data where the classes are more easily separated. The improved performance of SVM-RCE-EC on difficult data sets is likely due to the fact that the significant clusters, as determined by the ensemble approach, capture the native structure of the data while SVM-RCE leaves that determination to the user. This hypothesis is supported by the observations that the performance of the clusters generated by SVM-RCE-EC is more robust.
可用性: SVM-RCE-EC 的 Matlab 版本可根据第一作者的要求在 GitHub (https://github.com/malikyousef/svm-rce-ec) 上获取。