国际标准期刊号: 2167-0587
格雷戈里·B·格洛尔
问题陈述:分析微生物组或 RNA-seq 数据集的常用方法可能会产生误导,并且未以一致的方式使用所有可用信息。这些结果导致许多分析由最丰富或最稀有的特征主导:事实上,通常的情况是,在同一数据集中,最丰富的类群主导多变量输出,而最稀有的类群主导单变量输出。此外,这些数据集具有非凡的特性,使得相关性和网络分析的使用存在问题。方法和理论方向:使用高通量测序 (HTS) 方法收集的数据是映射到基因组间隔的序列读数,通常作为标准化计数数据或相对丰度数据进行分析。这些标准化的一个原因是试图补偿测序仪器对序列读取数量施加上限的问题。具有任意界限的正数据是成分数据,并且会受到虚假相关问题的影响。因此,排序、聚类和网络分析变得不可靠。第二个问题是数据稀疏:即包含许多 0 值。第三个问题是,最大的测量误差出现在这些数据集中的低计数裕度处。结论和意义:我们使用微生物组数据集来展示贝叶斯估计与检查分类单元之间比率的组成数据方法如何结合,从而提供对微生物群落结构和功能的深入了解。