国际标准期刊号: 2090-4924
穆罕默德·H·易卜拉欣和艾哈迈德·M·赫德尔
基因序列分类是一个众所周知的问题,影响生物信息学的多个子学科,包括功能基因组学和基因表达数据分析。在基因分类任务中,基因家族经常使用大型广义隐马尔可夫模型(GHMM)来制定,这代表了任何解码方法的瓶颈并削弱了其效率。因此,此类 GHMM 的有效解码仍然是一个关键挑战。在本文中,我们引入了一种新的基于剪枝的策略,使用剪枝技术来改进 GHMM 的解码。我们关注维特比解码算法,但该策略一般适用于 GHMM 解码。与标准解码方法不同,首先执行从筛选到识别的范式转变,以将所有考虑的模型集成到组合状态空间中。然后,解码过程仅限于最优解周围波束内的激活状态,以显着减少计算量,从而大大加快模型解码速度。我们对真核基因的实验证明了我们的方法在加速基因分类任务方面的有效性。