国际标准期刊号: 2090-4924
李瑞琳
基因预测是提高宏基因组质量评价的重要方法。已经执行了依赖于不同标准的各种质量期望模型,重点是可测量模型、马尔可夫或改进的马尔可夫模型、深度学习模型等。当前的质量预测计算,例如FragGeneScan、Prodigal、MetaGeneAnnotator、Orphelia、Glimmer3 、GeneMarkS-2,专门用于短切片或整个基因组;尽管如此,前者会导致公认的品质支离破碎,而后者对于不知名的物种来说是不合理的。
在此期间,根据我们过去对这些计算的基准影响,预期错误率相当高(27.10%~54.70%),特别是对于包含度较低的数据集(交错数据集)。在这项研究中,我们提出了一种依赖于ORFs的突出选择的计算方法,称为Consensus,它整合了从已知模型创建的ORFs,提取了ORFs的组成格和比较标记网络。最终,通过元素和标记网格的最不方形的答案获得了理想的排列。通过共识进行质量预测的总体指标优于单一编程(在震惊数据集上 F 得分为 82.94%)。