蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

DMWAS:通过聚类、单变量关联、深度和机器学习组学进行特征集优化,用于生物标志物发现的广泛关联研究,并在 GTEx 试点数据集上测试因心脏病发作而死亡的情况

阿布舍克·纳拉因·辛格

将基因组变异与末端或内表型关联的单变量和多变量方法已广泛用于全基因组关联研究。除了编码 SNP 之外,我们提倡使用聚类作为一种新方法来编码基因组中的结构变异 SV,例如删除和插入多态性 (DIP)、拷贝数变异 (CNV)、易位、倒位等,可以作为独立的特征变量值用于人工智能方法的下游计算,以预测内或末端表型。我们引入了一种基于聚类的编码方案,用于结构变异和基于组学的分析。我们使用深度学习和其他机器学习技术进行了完整的所有基因组变异与表型的关联,但也可以应用其他方法,例如遗传算法。在 GTEx V7 飞行员 DNA 变异数据集上应用这种 SV 编码和 SNP 单一热编码,我们能够使用 DMWAS 的各种方法获得高精度,特别是发现逻辑回归对于因心脏病而死亡的情况最有效( MHHRTATT)表型。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。在 GTEx V7 飞行员 DNA 变异数据集上应用这种 SV 编码和 SNP 单一热编码,我们能够使用 DMWAS 的各种方法获得高精度,特别是发现逻辑回归对于因心脏病而死亡的情况最有效( MHHRTATT)表型。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。在 GTEx V7 飞行员 DNA 变异数据集上应用这种 SV 编码和 SNP 单一热编码,我们能够使用 DMWAS 的各种方法获得高精度,特别是发现逻辑回归对于心脏病引起的死亡最有效( MHHRTATT)表型。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。我们能够使用 DMWAS 的各种方法获得高精度,特别是发现逻辑回归对于心脏病死亡 (MHHRTATT) 表型最有效。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。我们能够使用 DMWAS 的各种方法获得高精度,特别是发现逻辑回归对于心脏病死亡 (MHHRTATT) 表型最有效。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。然后,作为特征集的基因组变体按照对疾病或性状表型的影响力的降序排列,我们称之为优化,并且也考虑了顶级单变量关联。发现位于 3 号染色体和位置 192063195 的变体 Id P1_M_061510_3_402_P 与 MHHRTATT 关联性最高。我们在此介绍 MHHRTATT 表型死因的十大优化基因组变异特征集。

Top