国际标准期刊号: 0974-276X
埃莉萨·罗伯蒂、马塞洛·曼弗雷迪和埃米利奥·马伦戈
生物标志物发现是一门日益重要的学科,因为它提供了诊断/预后标志物,并可能允许研究和理解病理学的发展机制,可能提出新的生物分子治疗靶点。高通量技术的使用阻碍了蛋白质组学中生物标志物的发现,因为高通量技术提供了大量候选物,必须在其中寻找真正的生物标志物。此外,通常可获得少量样品。当必须在此类数据集中搜索生物标志物时,会出现两个主要问题:1)识别可靠的标志物,避免由于机会相关性而导致误报;2) 详尽识别所有候选标记,以获得所调查效果的完整快照。
生物标志物可以通过两种方法识别:经典的单变量方法,其中每个生物标志物被认为是独立的(学生 t 检验、Mann-Whitney 检验等);或多变量方法,能够考虑数据的相关结构(即相互作用) )。最后这些当然是首选,并且应该在最佳预测能力之间实现最佳折衷(通过使用变量选择程序和详尽性来实现)。在这里,我们回顾了多变量方法在蛋白质组学中识别生物标志物的最新应用特别关注所采用的统计方法。