蛋白质组学与生物信息学杂志

蛋白质组学与生物信息学杂志
开放获取

国际标准期刊号: 0974-276X

抽象的

SasCsvToolkit:异构和同构平台上的多功能并行“任务包”作业提交应用程序,用于大数据分析(例如生物医学信息学)

阿布舍克·纳拉因·辛格*

背景:对大数据分析的需求要求能够处理经过微调以供企业使用的大数据。直到最近,对大数据的需求才引起了低预算企业集团和学术界的关注,他们通常没有资金和资源来购买 SAS 等大数据分析平台的昂贵许可证。这些公司继续使用 SAS 数据格式主要是因为系统性的组织历史以及之前的代码是建立在它们之上的。因此,数据提供商继续提供 SAS 格式的数据。由于 SAS 格式的数据存在差距,而编码员没有 SAS 专业知识或培训背景,因为塑造这两类人的经济和惯性力量不同,因此突然出现了紧急需求。

方法:我们分析差异,从而分析对 SasCsvToolkit 的需求,该工具有助于为 SAS 格式数据生成 CSV 文件,以便数据科学家可以在其他可以处理 CSV 的工具(例如 R、SPSS 或甚至微软Excel。同时,它还提供CSV文件到SAS格式的转换。除此之外,SAS 数据库程序员总是努力寻找正确的方法来进行数据库搜索、精确匹配、子字符串匹配,但条件、过滤器、唯一值、表连接和数据挖掘除外,工具箱还为其提供了模板脚本从命令行修改和使用。

结果:该工具包已在 SLURM 调度程序平台上实现为并行和分布式工作流程的“任务包”算法,尽管也包含了串行版本。

结论:在大数据时代,有太多的文件格式、软件和分析环境,每种格式都有自己的语义来处理特定的文件类型,SasCsvToolkit 会发现它的功能对于数据工程师来说非常方便。

Top