蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

基因组结构变异检测的分类方法

Eman A Alzaid、Achraf El Allali 和 Hatim Aboalsamh

背景:寻找准确的基因组结构变异(SV)对于理解表型多样性和复杂疾病非常重要。使用分类从下一代测序中寻找 SV 的研究有限。此外,现有算法主要依赖于对双端读段的比对特征的分析来预测不同类型的变异。这里,候选 SV 区域及其特征仅使用单次读取来计算。分类用于预测这些区域的变异类型。
结果:我们的方法利用多部分比对的读取来定义一组可能的 SV 区域。为了注释这些区域,我们根据断点处的读数提取新特征。然后,我们构建三个随机森林分类器来识别具有删除、倒置或串联重复的区域。
结论:本文提出了一种基于随机森林的分类方法 MPRClassify,它解决了仅使用单次读取查找 SV 的问题。这些单读用于定义候选区域并提取其特征。实验结果表明,单次读取足以找到 SV,而不需要双端读取签名。我们提出的方法优于现有方法,并作为未来研究使用单次读取寻找 SV 的基础。

Top