论文:Simplex based Vector Mapping for Categorical Attributes Clustering

报告人:江思源
参加人员:
教师:瑞典于默奥大学Lili Jiang老师、安宁老师、吴玺老师。
学生:王雨婷、刘杰、唐晨、殷越、滕越、张永、姚小慧、陈绪、陈光洋、高思、哈山、Irfan。
请假人员:景波、严金戈、贵芳、段优、刘超。

报告内容:
这篇论文提出了一种用来对包含两种属性类型的数据集进行聚类的算法。目前,专门处理数值型属性的数据集聚类的算法有k-meams算法,专门处理类别型属性的数据集聚类的算法有k-modes算法,处理包含两种类型属性的数据集算法有Traditional Vector Mapping算法。
这篇论文对Traditional Vector Mapping进行改进,可以将类型属性的数据映射成数值数据,再应用k-means算法实现数据集的聚类。具体转化过程:将字符串类型的类型数据映射成数值数据(0,1,2…),再将每个数值数据映射到正则单纯形对应的向量上,保证各向量间的距离相等。
对于某一有n个取值的属性,构造一个n-1维边长为1的正则单纯形,属性的每个取值分别对应原点到正则单纯形顶点构成的向量。规定所有向量相加之和为0,这保证了单纯形的唯一性和个向量间距离相等,与k-means算法的核心思想一致。
在评价标准上,引入了精度的概念,表示每个样本被正确分配到所属类别的总数在样本总数中所占的比例。
在结果上,我们测试了UCI Machine Learning Repository中的Soybean、Car、Mushroom、Nursery四个数据集的聚类精度,Simplex Based Vector Mapping算法的聚类精度要比Ng’s Similarity、Cao’s Similarity、Traditional Vector Mapping这三种算法的精度要高一点。

心得:
这篇论文解决了对同时包含数据型属性和类别型属性的数据集实现聚类的问题,而且在结果上,精度要比其他三种算法要高。我们学习的过程中,遇到问题要想办法解决问题。基于单纯形的向量映射算法还可能应用到分类中去,这也值得我们探索。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

One Response to 论文:Simplex based Vector Mapping for Categorical Attributes Clustering

  1. 滕越 says:

    这篇论文介绍了一种能处理包含数值属性和类型属性这两种类型的数据集聚类的算法,解决了k-means算法只能对数值属性数据集聚类的局限性,但是这种基于单纯形的向量映射算法,要考虑到数据集属性映射到向量的最大维数,保证程序的时间复杂度不会太大。

发表评论