国际标准期刊号: 0976-4860
玛姆塔·米塔尔、RKSharma、VPSingh
数据挖掘是从大型数据库中提取感兴趣的隐藏信息的过程。它可以应用于许多数据库,但要找到的模式类型是由各种数据挖掘技术指定的。聚类是数据挖掘技术之一,它将数据库划分为簇,使得同一簇中的数据对象相似,而属于不同簇的数据对象不同。研究人员已经开发了许多聚类算法,但本文重点关注众所周知的基于分区的技术,即带有基于阈值的聚类技术的 k 均值。k-means 算法将数据库划分为 k 个簇,其中 k 是用户定义的参数,除此之外它对异常值和初始种子选择很敏感。基于阈值的聚类是另一种根据阈值自动生成聚类的方法。为了评估从这两种技术获得的聚类质量,已对合成数据应用了几种有效性度量和有效性指数。通过实验和聚类结果的比较,可以看出基于阈值的技术获得的聚类更加分离和紧凑,这表明聚类效果良好。