国际标准期刊号: 2165- 7866
阿卜杜拉·巴拉和阿兰·阿布兰
多组织存储库,特别是那些基于自愿数据贡献的存储库,例如国际软件基准标准组 (ISBSG) 的存储库,可能会丢失许多数据字段的大量值,并包含一些异常值。本文提出了与 ISBSG 存储库相关的许多数据质量问题,这些问题可能会影响用户利用它进行基准测试或构建估计模型的结果。我们提出了一些用于预处理数据的标准和技术,以提高为详细统计分析而确定的样本的质量,并提出了处理缺失值数据集的多重插补(MI)策略。