生物医学数据挖掘国际期刊

生物医学数据挖掘国际期刊
开放获取

国际标准期刊号: 2090-4924

抽象的

重要豆科植物 Vicia sativa L. (SRR403901) 的从头 RNA seq 组装和注释

赫塔库马尔·J·潘查尔

抽象的

Vicia sativa L.,也称为普通野豌豆;是豆科植物中的固氮豆科植物。最近,称为 RNA-seq 的尖端测序创新提供了一种令人难以置信的方法来处理转录组的分解。这项研究以野豌豆 (Vicia sativa L)的 RNA-seq 为中心。从 NCBI 数据库中提取 SRR403901 进行重新转录组检查。N50 为 588 bp,单次阅读总数达到 1240 万次。连续群共包含 22748 个重叠群,进一步对已知蛋白质进行分析,共识别出 7652 个特征。其中,通过对照京都基因和基因组百科全书通路数据库(KEGG),通过 18761 个优质宇宙学(GO)实践课程和计划对 122 个通路进行分组,解释了 500 个 unigenes。这些信息将有助于质量披露和有用的调查,当前检查中披露的大量记录将作为蚕豆的重要遗传资产。

介绍

高通量 RNA 测序(转录组)的尖端测序技术正逐渐被用作识别和评估植物中已知和新记录的决策创新。这种转录组研究技术快速而简单,因为它不需要克隆 cDNA。对这些 cDNA 进行直接测序可以产生非常深入的简短阅读。测序后,后续的读取可以收集到基因组规模的记录概况中。这是一种日益深远且有效的方法来衡量转录组合成、获取 RNA 关节示例并发现新的外显子和质量;使用不同的聚合设备收集转录组的测序信息,用不同的生物信息学设备传达的质量和路径研究的功利主义解释。此次考试公布的大量记录,将成为重要的世袭资产。蚕豆_

高通量短读长测序是基因组学网络的最新测序进展之一。例如,正常情况下,对 Illumina 基因组分析仪的需求突然激增可能会导致超过 30 至 4000 万个单端(~35 nt)分组。尽管如此,随后的产量可以在没有太多延伸的情况下压倒用于传统桑格测序长度的基因组研究框架,甚至由于 454(罗氏)测序技术而产生的更少量的信息。通常,短读长测序的基本用途是协调来自与参考基因组几乎无法区分的基因组的信息。全球质量水平的转录组检查是短读长测序的完美运用。通常,此类检查包括整合 DNA (cDNA) 文库开发、EST 的桑格测序和微阵列研究。与传统的桑格策略相比,尖端测序已成为一种扩大测序深度和包容性的可能技术,同时减少时间和成本。

方法

1. 序列检索:

本次调查围绕NCBI数据库中SRR403901的Vicia sativa L.的再次聚集和继承解释展开。从 NCBI SRA 下载的粗数据(来自 Illumina HiSeq 2000 阶段,该示例是单一完成的,具有 12.4 M 点和 42.4% GC 含量。粗分组已更改为 fastq 记录设计,以便使用 SRA 工具添加文档来自 NCBI 的套件。

2.NGS QC 工具包

NGS QC Toolkit,它是一个用于质量检查和筛选一流信息的应用程序。该工具箱包括易于理解的设备,用于对使用 Roche 454 和 Illumina 平台产生的测序信息进行 QC,以及帮助 QC(连续组转换器和切割设备)和检查(测量设备)的额外仪器。我们提供了多种选择来鼓励质量控制在客户指定的范围内进行。该工具箱需要对 NGS 信息的质量控制有价值,以鼓励更好的下游分析。

3. CLC GENOMICS WORKBENCH 7 进行从头序列组装

影响深远且易于使用的调查包,用于检查、对比和描绘前沿测序信息。该捆绑包用于与重新聚合设备的自然边界进行分组的重新连续聚合。

4.BLASTX

收集到的记录还被考虑用于解释,其中第一步是从重叠群中识别破译的蛋白质分组。NCBI 的 BLASTX 几乎不改变任何边界,例如选择非过量蛋白质数据库 (nr) 作为数据库;真双子叶植物在生物替代和算法边界中选择最大目标序列设置为 10,期望限制设置为 6。

5.Blast2GO

Blast2GO 是一款多合一设备,用于对(新颖)分组进行有用解释和评论信息调查。根据蛋白质数据库注释的结果,利用 Blast2GO 来获取依赖于 GO 术语的 unigenes 的实际表征。记录的重叠群按三个GO术语排列,例如原子容量、细胞过程和自然程序。利用WEGO仪器对整个unigenes进行GO功能表征,并了解该物种的质量元素的分散性在大规模层面上。利用KEGG数据库来解释这些unigenes的通路。

6.SSR挖矿

我们利用 MIcroSAtellite (MISA) 进行微卫星挖掘,它可以提供不同的实际记录产量和有用的数据。

7. 植物转录因子

PlantTFcat:一种在线植物转录因子和转录调节因子分类和分析工具,用于区分分组中的植物记录因子。

结果与讨论

1.NGS QC 工具包

通过清除连接器和其他污染材料,使用该设备将排列分开,然后使用该设备进一步检查分组的性质,最后考虑重新分组的大通道连续文件。

2. 从头序列组装

CLC GENOMICS WORKBENCH 7 考虑了重新分组与自然边界的结合,例如错配成本 = 2、插入成本 = 3、删除成本 = 3、长度分数 = 0.5、相似性分数 = 0.8、字大小 = 21 最后生成 22748 个重叠群该产品对 503 的正常估计会出现不同的微妙之处。

3. 使用BLASTX和blast2GO进行功能注释

3.1 BLASTX

执行 BLASTX 以利用 10-6 的 E 值边缘根据非过量连续数据库调整重叠群。在 22748 个记录重叠群中,13482 个与具有高度巨大紧密度的已知​​蛋白质有 BLAST 命中,1114 个没有 BLAST 命中。在所有记录的重叠群中,显示了物种传播,其中 9819 个群体与蒺藜苜蓿表现出显着的相似性,而与梅花的亲缘性最差。

3.2 酶代码(EC)分类

化学物质共有 2336 组,另外分为六类:氧化还原酶、转移酶、水解酶、裂解酶、异构酶和连接酶。

3.3 基因本体(GO)分类

为了对蚕豆记录重叠群进行实际分类,基因本体论 (GO) 术语被分配给每个积累的记录重叠群。在 22748 个记录重叠群中,18761 个 unigene 被组装成 GO 实用分类,这些分类在分子功能、生物过程和细胞成分(即 WEGO 装置的产量)三个主要分类下进行表达;它表明,在分子功能分类中,编码限制性蛋白质和通过反应物作用识别的蛋白质的质量是最先进的。通过代谢过程和细胞形式鉴定的蛋白质在生物过程课程中得到了改进。就细胞成分分类而言,细胞和细胞部分是最受关注的分类。

KEGG数据库中总共用122条通路解释了500个unigenes。许多记录包含不同的途径,如代谢途径、植物-微生物协作途径、不饱和脂肪消化途径和不饱和脂肪生物合成。

4.SSR挖矿 

微卫星标记(SSR 标记)绝对是蚕豆 遗传指南开发和各种品种调查中最好的亚原子标记。为了获得 SSR 的可识别证明,所有记录均使用 Perl 内容 MISA 进行查看。我们在 1055 条记录中总共区分了 1150 个 SSR。单核苷酸 SSR 代表了 SSR 中最大的部分,其次是三核苷酸和二核苷酸 SSR。尽管记录中只区分了四、五和六核苷酸 SSR 的一小部分,但数量非常值得注意。 

5. 植物转录因子

此外,记录因子编码记录通过与已实现的记录因子质量族的连续相关性来识别。结果显示,至少有 82 个家庭的记录因子质量得到了区分。记录因子编码记录在不同已知蛋白质家族之间的一般循环与之前预期的不同蔬菜的一般循环基本相同。

结论

这项研究以 NCBI 数据库中的 Vicia sativa L. 物种 (SRR403901) 为中心,利用尖端 Illumina 测序通过 RNA-seq 再次进行转录组检查。转录组测序为生物体提供了不同的实用基因组学读数。尽管在转录组的快速测序和描述方面已经取得了一些高通量的进步,但某些生命形式(包括许多高产植物)仍无法获得所传达的分组信息。在本次调查中,我们在没有考虑任何参考物种的情况下,对蚕豆转录组进行了重新的实际评论,具有34678条记录的巨大非超额排列。对信息索引的详细检查给出了一些重要的亮点:蚕豆转录组,例如,GC 含量、豆科植物和其他植物物种的保守基因、通过 GO 术语分配功能类别以及通过 MISA 工具识别 SSR。值得注意的是,这项对 蚕豆 的研究将有助于进一步的功能基因组学研究,因为它包含每个转录本的有用信息。

致谢

我们衷心感谢瓦拉巴维迪亚纳加尔萨达尔帕特尔大学 GDCST 主任 PV Virparia 教授(博士)为我们的研究工作提供设施。

Top