国际标准期刊号: 2165- 7866
阿舒托什·古普塔
脱氧核糖核酸 (DNA) 构成了编码生物体所有特性的物理介质。对其序列的理解是分子生物学的首要关注点。世界各地开发了一些重要的分子生物学数据库(ERIBL、GenBank、DDJB)来积累蛋白质的核苷酸序列(DNA、RNA)和氨基酸序列。众所周知,它们的尺寸如今呈指数级快速增长。不像其他一些科学数据库那么大,它们的大小为数百 GB [1]。对于完整的基因组,这些文本可能会非常长。例如,人类基因组包含二十三对染色体上的三十亿个字符。它包含了人类所有的遗传物质。随着基因组序列数量的不断增加,必须解决存储和使用数据库的困难。因此,遗传信息的压缩构成了一项非常重要的工作。另一个需要考虑的因素是通过在压缩域中应用搜索模式来预测某种疾病。