蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

从蛋白质组数据预测频繁得分最高的肽的排序方法

卡斯滕·亨内格斯、格奥尔格·辛塞尔曼、斯蒂芬·荣格、约翰内斯·马德隆、沃尔夫冈·舒茨、阿尔弗雷德·诺德海姆和安德烈亚斯·泽尔

蛋白质组学设施积累了大量的蛋白质组学数据,这些数据被存档用于文档目的。由于蛋白质组学搜索引擎(例如 Mascot 或 Sequest)用于肽测序,从而产生按分数排名的肽命中,因此我们应用排名算法将存档的搜索结果合并到预测模型中。通过这种方式,可以鉴定经常获得高分的肽序列。使用我们的方法,可以直接从分子结构预测它们,然后用于支持蛋白质鉴定或进行需要可靠肽鉴定的实验。我们准备了图宾根蛋白质组中心智人为期四年的蛋白质组学实验中的所有肽序列和 Mascot 评分,以供训练。为了对肽进行编码,MacroModel 和 DragonX 用于分子描述符计算。所有特征均使用贪婪搜索算法通过特定于排名的特征选择进行排名,以显着提高 RankNet 和 FRank 的性能。对保留测试数据的模型评估导致平均精度高达 0.59,归一化贴现累积增益高达 0.81。因此,我们证明排序算法可用于分析长期蛋白质组学数据,以识别经常得分最高的肽。59,标准化贴现累积增益高达 0.81。因此,我们证明排序算法可用于分析长期蛋白质组学数据,以识别经常得分最高的肽。59,标准化贴现累积增益高达 0.81。因此,我们证明排序算法可用于分析长期蛋白质组学数据,以识别经常得分最高的肽。

Top