蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

表达数据集中异常样本和基因的稳健检测

艾哈迈德·巴尔加什、塔纳·阿尔斯兰和福克哈德·赫尔姆斯

表达和甲基化数据集是标准的基因组技术,并且越来越多的计算方法被实施以帮助分析大量且复杂的生成数据。此类生成的数据集通常包含相当大一部分异常值,这些异常值会在下游分析中导致误导性结果。在这里,我们提出了一种综合方法来检测表达或甲基化数据集中的样本和基因异常值。核心算法检测到了我们人为引入的大多数异常值。通过分层聚类检测到的样本异常值由 Silhouette 系数进行验证。在基因水平上,GESD、Boxplot 和 MAD 算法通过 f 测量检测到非相交分布中至少 83% 的模拟异常基因。这种组合方法在 TCGA 和 GEO 门户的公开数据集中检测到了许多异常值。通常,一些标记为异常值的功能相似的基因在常见样本中具有异常观察结果。由于此类案件可能特别令人感兴趣,因此它们被标记为需要进一步调查。在进行任何进一步分析之前,应明确检查表达和 DNA 甲基化数据集是否存在异常点。我们建议,2 个异常值观察结果足以标记异常值基因,因为它们足以破坏完美的共表达。此外,异常值也可能携带有用的信息,因此功能相似的异常值应该被标记以供进一步调查。所提供的软件可通过 github 免费获取 一些标记为异常值的功能相似的基因在普通样本中被证明具有异常值。由于此类案件可能特别令人感兴趣,因此它们被标记为需要进一步调查。在进行任何进一步分析之前,应明确检查表达和 DNA 甲基化数据集是否有异常点。我们建议,2 个异常值观察结果足以标记异常值基因,因为它们足以破坏完美的共表达。此外,异常值也可能携带有用的信息,因此功能相似的异常值应该被标记以供进一步调查。所提供的软件可通过 github 免费获取 一些标记为异常值的功能相似的基因在普通样本中被证明具有异常值。由于此类案件可能特别令人感兴趣,因此它们被标记为需要进一步调查。在进行任何进一步分析之前,应明确检查表达和 DNA 甲基化数据集是否有异常点。我们建议,2 个异常值观察结果足以标记异常值基因,因为它们足以破坏完美的共表达。此外,异常值也可能携带有用的信息,因此功能相似的异常值应该被标记以供进一步调查。所提供的软件可通过 github 免费获取 在进行任何进一步分析之前,应明确检查表达和 DNA 甲基化数据集是否有异常点。我们建议,2 个异常值观察结果足以标记异常值基因,因为它们足以破坏完美的共表达。此外,异常值也可能携带有用的信息,因此功能相似的异常值应该被标记以供进一步调查。所提供的软件可通过 github 免费获取 在进行任何进一步分析之前,应明确检查表达和 DNA 甲基化数据集是否有异常点。我们建议,2 个异常值观察结果足以标记异常值基因,因为它们足以破坏完美的共表达。此外,异常值也可能携带有用的信息,因此功能相似的异常值应该被标记以供进一步调查。所提供的软件可通过 github 免费获取

Top