OCIL聚类算法

报告人:江思源 报告时间:2017.3.29

与会人员:

教师:安宁、杨矫云、阙夏

学生:陈烨、丁会通、段优、景波、刘杰、刘硕、滕越、王雨婷、姚小慧、殷越、严金戈

请假人员:唐晨、陈绪

本次例会报告主要介绍了OCIL聚类算法。

OCIL算法针对的是混合类型属性(类别型属性和数值型属性)的数据集,对其进行聚类。OCIL算法在计算对象与聚类间的相似性时,从类别型属性和数值型属性分别计算相似性。在计算类别型属性的相似性时,采用的是对象在该类别属性上的属性值在聚类中所占的频率,并对所有类别型属性相似度进行加权求和。加权时引入了信息熵的概念,信息熵是描述系统有序化程度的一个度量,当系统越复杂,信息熵越高,但是对于聚类的作用越小,经过调整信息熵原始公式,达到加权的效果。在计算数值型属性的相似性时,距离采用的是欧式距离,并引入了指数函数,达到了相似性归一化的效果。最后,通过计算对比对象与聚类间的相似性,分配对象到相似性最大的聚类中。
实验的数据集选自UCI Machine Learning Data Repository,与k-means算法和k-prototype算法进行对比,聚类的错误率相对较低,并且收敛速度比k-prototype算法快。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论