基于K-means算法的最佳聚类数确定方法

k-means聚类算法是聚类分析中使用最为广泛的算法之一,对大型数据集的处理效率较高。k-means算法是以确定的类数 k 和选定的初始聚类中心为前提,使各样本到其分配的聚类中心距离之和最小的最佳聚类。在实际中,k 值是难以确定的,目前已经提出了一些检验聚类有效性的函数指标,用于评价同一聚类算法在不同聚类数条件下聚类结果的优良程度,从而可以确定数据集的最佳聚类数。 指标主要有 Calinski-Harabasz( CH)指标、Davies-Bouldin ( DB )指 标、Krzanowski-Lai ( KL ) 指 标、 Weighted inter-intra( Wint)指标、In-Group Proportion( IGP)指标等。
CH指标通过类内平方和描述紧密度,类间平方和描述分离度,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。基于K-means算法的最佳聚类数的一般确定过程:给定K 的范围[Kmin,Kmax],对数据集使用不同的K运行K-means算法,得到一系列聚类结果,对每个结果计算其CH指标的值,最后比较各个指标值,最佳指标值对应的聚类数就是最佳聚类数k_best。
在我的论文中的应用:对于每一个数值属性,通过k-means算法和CH指标,找到最佳聚类,从而将数值属性的所有样本值转化为k_best个值,从而可以当成类别属性来统一处理(基于信息熵加权的相似性度量方法)。这样做的优点:对数据集中的每个数值属性,根据CH指标找到最佳变换,自动将高维输入数据转换为分类值;适用于所有数据类型;提高了聚类精度。

与会人员:
教师:李廉、安宁、杨矫云、吴玺、阙夏、沈娟、徐梅
学生:丁会通、段优、韩朋、金柳颀、景波、江思源、刘杰、明鉷、唐晨、滕越、肖永博、殷越、及本科生
请假人员:陈绪、严金戈、景波、王雨婷

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论