蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

GMSECT:针对结构和拷贝数变异的全基因组大规模序列详尽比较工具

阿布舍克·纳拉因·辛格

GMSECT 是一个并行的、强大的“应用程序接口”,可以有效地处理大型基因组序列,以实现快速、高效的处理。它是一个基于“消息传递接口”的并行计算“工具”,可以在集群上操作以进行“大规模序列穷举比较”,以识别结构变体等匹配。GMSECT 算法也可以使用其他并行应用程序编程接口(例如 Posix 线程)来实现,甚至可以以串行提交方式来实现。可以部署的比较工具的选择具有完全的灵活性,并且具有可选参数作为比较工具的选择,以适应成对比对的速度、灵敏度和特异性。该算法简单、稳健,可用于比较多个基因组,不同个体的染色体或大序列,用于个性化基因组比较,并且适用于同源和远缘物种。该工具甚至可以应用于较小的基因组,例如大肠杆菌等微生物基因组或莱氏衣藻或酿酒酵母等藻类基因组,以快速进行比较,从而应用于制药和微生物产品公司的研发。该应用程序接口可以高效、快速地比较大量序列,以检测基因组中是否存在多种类型的 DNA 变异,范围从单核苷酸多态性 (SNP) 到更大的结构改变,例如拷贝数变异 (CNV) 和倒位。新算法已经过测试,用于将 Celera R27c 编译的 21 号染色体与 Celera R27c 编译的所有 48 条染色体以及人类 Build 35 参考序列的所有 48 条染色体进行比较,使用成对算法仅花费了 2 小时 10 分钟BLAST 算法选择,配备 110 个处理器,每个处理器具有 2.2 GHz 容量和 2 GB 内存。GMSECT 有助于个性化测序项目中的快速扫描和解释。具有上述资源和比对选择的应用程序界面预计可在短短 2.35 天内对人类基因组与其自身进行详尽的比较。个体基因组与参考基因组的详尽比较将包括两个“自身基因组”比较和一个“非自身基因组”比较,使用上述资源估计需要大约 9.4 天。随着个性化基因组测序项目的出现,人们希望将数百个个体的基因组与参考基因组进行比较。这将涉及每个基因组的“非自身基因组”和“自身基因组”比较,并且使用 GMSECT 和上述资源对每个个体的基因组进行大约 7 天的时间。

Top