国际标准期刊号: 2153-0637
迈克尔·伯姆
Glycosciences.DB 是 Glycosciences.de 门户网站的聚糖结构数据库,收集有关聚糖结构的各种数据,包括来自全球蛋白质数据库结构的碳水化合物部分。这样,它就在糖组学和蛋白质组学资源之间架起了一座桥梁。该数据库的重大更新结合了重新设计的网络界面和一系列新功能。其中不仅包括聚糖结构的单独条目页面,还包括文献参考和条目、改进的子结构搜索选项、涵盖一个查询中所有类型条目的新可用关键字搜索,以及添加到聚糖结构的新信息类型。本文详细描述了这些新功能,并讨论了用户如何向数据库提供信息的选项。Glycosciences.DB 碳水化合物,通常被称为聚糖,是四大类生物分子之一,仅次于核酸、蛋白质和脂质。其中,碳水化合物是最丰富也是最复杂的分子。除了众所周知的能量储存或结构成分的功能外,它们还是糖蛋白或糖脂的一部分,并覆盖糖萼中的细胞表面。在这里,它们充当细胞-细胞和细胞-基质相互作用的识别位点,同时也是病毒等病原体的识别位点,这些病原体经常与细胞表面的聚糖相互作用以进入宿主细胞。聚糖还参与免疫反应、炎症和癌症等疾病。碳水化合物通常是被明确识别的。例如,人类和禽流感病毒通过特定的聚糖基序识别其宿主。所以,糖组学相关项目的研究人员需要能够找到他们感兴趣的特定聚糖的信息。Glycosciences.DB(以前称为 SweetDB)是收集碳水化合物结构信息并将其在线提供的首批努力之一。最初使用已停产的复杂碳水化合物结构数据库 (CCSD,通常称为 CarbBank) 的数据作为种子,多年来添加了更多信息,例如 Sweet-II 生成的 3D 结构模型、从SugaBase 或从文献中手动输入,或链接到以碳水化合物为特征的全球蛋白质数据库 ( ) 条目。目前,这是 Glycosciences.DB 新数据的主要来源。在撰写本文时,糖科学。DB 包含约 25 000 个聚糖结构条目和 12 500 个 3D 结构模型、20 000 个文献参考文献、3400 个 1H 或 13C NMR 谱以及超过 10 000 个含碳水化合物条目的参考文献。2018年,Glycosciences.de门户网站发布了重大更新,不仅为门户网站带来了更现代的设计,还为Glycosciences.DB添加了一系列新功能,包括搜索功能和信息显示方面的改进。在 2018 年更新之前,只有聚糖被视为 Glycosciences.DB 中的条目。所有其他项目(例如文献参考或结构)仅显示为聚糖条目或搜索结果列表的一部分。现在,结构和出版物还接收单独的条目页面,该页面显示比以前版本更多的数据三种类型的条目,即 聚糖、出版物和结构彼此交联。对于每个条目类型,使用单独的符号,该符号显示在条目标题中,也用于交叉链接和搜索结果列表中,以便用户可以直接看到链接中将打开哪种条目。Glycosciences.DB 聚糖结构条目(正面,在虚线处截断)、文献条目(中)和条目(背面)的屏幕截图。所有三个条目都相互链接:该条目包含显示的 N-聚糖核心结构条目和文献参考。文献条目中尚未注册聚糖结构;N-聚糖核心结构条目的链接是通过该条目分配的。每周都会通过下载新发布的结构并在其中搜索碳水化合物部分来添加新条目。这个过程大部分是自动的。仅在出现潜在问题时才需要人工干预,例如残基名称与 3D 结构中实际存在的残基不匹配,或者新引入的残基名称未存储在 pdb2linucs 和 pdb-care 工具中用于检测和验证结构中的聚糖。条目的主要引文也从 Glycosciences.DB 导入并存储在 Glycosciences.DB 中。通过这种方式,条目可以自动与聚糖和文献条目链接。后两种类型条目之间的交叉链接无法以可靠的方式自动添加,因为没有可用的工具可以可靠地从出版物中提取有关碳水化合物的信息。尽管如此,条目的主要参考文献通常还涉及该条目中的碳水化合物,特别是在蛋白质-碳水化合物复合物的情况下,其中碳水化合物部分是故意添加的,因此通常(但不一定)也是该条目的重要主题出版物。糖蛋白的情况不一定如此,其中聚糖也可能是出版物的主要主题,但通常(特别是在短的、截短的聚糖的情况下)只是被表述为“也检测到”,甚至根本没有提及。因此,通过条目分配的聚糖和文献条目之间的交联不会与手动分配的交联一起列出,而是在单独的部分中列出,以便用户可以轻松识别它们。聚糖结构条目仍然构成 Glycosciences.DB 内容的主要部分。这些条目收集有关碳水化合物结构的信息,例如 3D 结构模型、NMR 谱、文献参考、条目参考以及有关残基组成、子结构基序、琐碎名称和分类数据的信息。2018 年更新还附带了一些其他项目。到目前为止,聚糖结构信息(单糖序列和连接位置)仅以 CarbBank 格式的 2D 注释给出。现在,我们还以 LInear 符号用于碳水化合物序列的独特描述 (LINUCS) 符号提供结构,该符号在数据库内部用于存储和识别聚糖结构,并在可能的情况下以 GlycoCT_condensed 和 GlycoCT_xml 格式提供。有关聚糖结构格式的更多信息,请参阅 。除了这些文本格式之外,许多聚糖条目中还添加了聚糖符号命名法 (SNFG) 图。然而,在撰写本文时,当前 SNFG 版本的所有新定义功能尚未合并。现在还提供了与 Glycosciences.de 门户的其他数据库(GlycoMapsDB 和 GlycoCD)的相应条目的交叉链接(如果适用)。许多基因组学、蛋白质组学或文献数据库使用但据我们所知糖组学数据库尚未使用的一个功能是向数据库条目添加关键字的选项,该选项可用于在数据库搜索中识别该条目。此选项现已在 Glycosciences.DB 中实施。与文献条目和条目类似,现在可以将标题添加到 Glycosciences.DB 中的聚糖结构条目中。为所有条目添加有意义的标题几乎是不可能的。尽管如此,有多种聚糖被广泛使用平凡的名称(例如路易斯型血型抗原、人乳寡糖、神经节系列的鞘糖脂等),并且对于许多其他聚糖,有一个简短的描述,例如“核心岩藻糖基化N” “聚糖核心结构”对于尚不熟悉聚糖结构的用户可能会有所帮助。这些标题也可以用于数据库查询,并且它们与聚糖结构一起显示在结构查询结果和结构列表中,例如在文献条目中,以帮助用户识别所显示的聚糖。提供许多条目的 3D 结构模型可以让研究人员了解聚糖的外观。然而,读取聚糖的 3D 结构并找到结构内的特定残基可能很困难,因为形成聚糖的单糖结构单元彼此非常相似。因此,我们添加了一个选项,可以使用 SNFG 符号的颜色对残基进行颜色突出显示,这样可以更轻松地在聚糖 3D 结构中定位自己。可以使用 3D 结构旁边的显示选项中的复选框来切换光环或键颜色。到目前为止,颜色是通过 PDB 3 字母代码为经常出现的残基设置的。支持的三字母代码列表将进一步扩展,以涵盖未来更多的残基。具有核心岩藻糖基化和木糖的植物 N-聚糖中的残基突出显示 (LinucsID 13934)。如果不突出显示,则很难识别残基(上)。当光环(左下)或键色(右下)与 SNFG 符号的颜色相匹配时,这会变得更容易,