k 均值和基于阈值的聚类方法的验证

玛姆塔·米塔尔、RKSharma、VPSingh

抽象的

k 均值和基于阈值的聚类方法的验证

玛姆塔·米塔尔、RKSharma、VPSingh

数据挖掘是从大型数据库中提取感兴趣的隐藏信息的过程。它可以应用于许多数据库，但要找到的模式类型是由各种数据挖掘技术指定的。聚类是数据挖掘技术之一，它将数据库划分为簇，使得同一簇中的数据对象相似，而属于不同簇的数据对象不同。研究人员已经开发了许多聚类算法，但本文重点关注众所周知的基于分区的技术，即带有基于阈值的聚类技术的 k 均值。k-means 算法将数据库划分为 k 个簇，其中 k 是用户定义的参数，除此之外它对异常值和初始种子选择很敏感。基于阈值的聚类是另一种根据阈值自动生成聚类的方法。为了评估从这两种技术获得的聚类质量，已对合成数据应用了几种有效性度量和有效性指数。通过实验和聚类结果的比较，可以看出基于阈值的技术获得的聚类更加分离和紧凑，这表明聚类效果良好。

免责声明: 此摘要通过人工智能工具翻译，尚未经过审核或验证.

技术进展国际期刊开放获取

抽象的

k 均值和基于阈值的聚类方法的验证

技术进展国际期刊
开放获取