面向混合数据集聚类的相似性度量方法研究(大论文框架)

摘要

同时具有数值型和分类型属性的混合数据集在各个领域中普遍存在。

相似性度量在对混合类型数据进行聚类的过程中起重要作用。

简单描述本文提出的两种改进算法的步骤及实验结果。

1 绪论

1.1 课题的研究背景及意义

随着计算机性能的提高,数据库、Internet等信息技术的发展,人工智能、机器学习和统计学等方法在商业领域和数据分析中的研究与应用,人类社会进入了信息时代。

目前,数据库技术是存储和管理数据最有效的方法,但是面对日益增长的数据,数据库查询技术也已不能满足新的需求,数据挖掘技术应运而生。介绍数据挖掘技术的概念、应用、意义。

聚类分析是数据挖掘最主要的功能之一,也是数据挖掘研究中的一个热点问题。介绍聚类分析的概念和应用,简单描述混合数据聚类算法研究现状,表明混合数据聚类算法中相似性度量的重要意义。

1.2 混合数据聚类技术的研究现状

聚类分析的概念。

传统的聚类算法局限于数值型数据,后来出现了针对分类型数据集和混合型数据集的聚类算法。

聚类算法中相似性度量的重要性,数值型数据和分类型数据在相似性度量上的差异。

描述混合数据集聚类算法的改进方向,各改进算法的缺陷,重点在相似性度量上的改进算法。

指出属性加权的重要性。

聚类算法研究仍处于探索阶段,聚类理论和算法的探讨是一项艰巨的任务。

1.3 课题的主要工作及研究内容

提出两种针对数值型属性和分类型属性设计的统一的相似性度量方法,提出基于信息熵的属性加权方法,进行实验证明提出算法的优越性等。

1.4 论文的组织结构

概述每一章的的主要内容。

2 聚类分析概述

本章介绍聚类分析,包括:聚类的定义、针对不同类型属性的相似性度量方法、聚类的分类和评价方法。

2.1 聚类的定义

数据集的表示,属性的表示,聚类问题的定义,代价函数,聚类分析的一般步骤等。

2.2 聚类分析中的相似性度量

2.2.1 数据预处理

在采用聚类分析算法前,必须对数据进行预处理。数据预处理方法包括:数据清理,数据集成和变换。规范化和标准化。

2.2.2 相似度计算

混合型数据主要包括两大类:数值型数据和分类属性数据。

(1)区间标度变量:也称数值型,如大气温度,距离和重量,需要经过标准化才能进行聚类分析

(2)二元变量:只有两个状态,如性别,是否患有某种疾病。

(3)标称变量:又称名义型,是二元变量的推广,如颜色。

(4)序数型变量

(5)比例标度型变量

(6)混合类型的变量

描述各类型属性的特点及相应的相似性度量方法。

2.3 混合数据聚类的分类

描述各类算法对于混合数据聚类的思想,经典算法,优缺点。重点描述基于划分的聚类算法。算法分析对比。

(1)基于密度的聚类算法

介绍基于密度的聚类算法的基本思想、算法步骤、代表算法及优缺点。

(2)基于网格的聚类算法

介绍基于网格的聚类算法的基本思想、算法步骤、代表算法及优缺点。

(3)基于模型的聚类算法

介绍基于模型的聚类算法的基本思想、算法步骤、代表算法及优缺点。

(4)基于层次的聚类算法

介绍基于层次的聚类算法的基本思想、算法步骤、代表算法及优缺点。

(5)基于划分的聚类算法

介绍基于划分的聚类算法的基本思想、算法步骤、代表算法及优缺点。

算法分析对比:从时间复杂度、能处理的数据类型及数据集大小等方面比较各类聚类算法。

2.4 聚类评价

主要分为两大类:对聚类算法的评估和对聚类结果的评估。

时间空间复杂度、处理不同类型属性的能力、处理噪声数据的能力、对输入样本顺序的敏感性、并行性、高维性等。

2.5 小结

3基于单纯形向量映射的相似性度量的聚类算法

3.1 相关定义

描述基于单纯形向量映射的相似性度量方法的思想,定义相似性度量公式。

3.2 相似性度量

(1)分类型属性上的相似性度量

描述基于单纯形向量映射的思想、步骤和算法框架。

定义分类型属性上的相似性度量计算公式。

(2)数值型属性上的相似性度量

定义数值型属性上的相似性度量计算公式。

(3)混合数据集的相似性度量

将两种类型属性的相似性度量公式统一起来。

3.3 基于向量映射相似性度量的迭代算法

将3.2.2提出的基于熵加权的相似性度量应用于k-means算法,描述该迭代算法的算法框架。

3.4 性能分析

分析3.2.3迭代算法的时间复杂度。

3.5 实验结果与分析

在UCI数据集中选取纯分类型数据集、纯数值型数据集和混合数据集,将改进相似性度量方法的迭代聚类算法与其他算法对比实验的准确度。分析改进相似性度量迭代算法优越性可能的原因。

3.6 小结

4基于熵加权的相似性度量的聚类算法

4.1 相关定义

描述基于熵加权的相似性度量方法的思想,定义相似性度量公式。

4.2 相似性度量

(1)分类型属性上的相似性度量

定义基于信息熵的分类型属性的加权公式,定义分类型属性的相似性计算公式。

(2)数值型属性上的相似性度量

描述数值型数据离散化过程,定义加权相似性公式。

(3)混合型数据的相似性度量

将两种类型属性的相似性度量公式统一起来。

4.3 基于熵加权相似性度量的迭代聚类算法

将3.3.2提出的基于熵加权的相似性度量应用于k-means算法,描述该迭代算法的算法框架。

4.4 性能分析

分析3.3.3中提出的迭代算法的时间复杂度。

4.5 实验结果与分析

在UCI数据集中选取纯分类型数据集、纯数值型数据集和混合数据集,将改进相似性度量方法的迭代聚类算法与其他算法对比实验的准确度。分析改进相似性度量迭代算法优越性可能的原因。

4.6 小结

5 结论

混合数据集聚类的意义,相似性度量在聚类分析中的重要性。

本文主要工作,改进方向,实验结果。

未来的工作。

参考文献

anyShare分享到:
This entry was posted in 例会, 新闻动态. Bookmark the permalink.

发表评论