【例会】A Dirichlet Multinomial Mixture Model-based Approach forShort Text Clustering

主持人:明鉷

参会老师:杨矫云,阙夏

参会学生:,明鉷,肖勇博,韩朋,刘硕,李雨龙,赵春阳,程坤

请假学生:贵芳

时间:2018年10月10日

本次例会学习讨论了以下文章:

Yin, Jianhua, and Jianyong Wang. “A dirichlet multinomial mixture model-based approach for short text clustering.” Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014.

这篇文章提出了短文本聚类新方法。当前在百度学术的被引量为114(谷歌学术).

一、背景(background)

目前文本聚类依然面临着许多挑战,包括但不限于:

1.需要设置聚类数目

2.数据维度很高,矩阵稀疏

3.结果的可解释性

4.在大数据集上的扩展性

而除此以外,短文本聚类还有其他的问题,比如再使用向量空间模型(VSM)向量化文档时,往往要计算文本的TF-IDF(词频-逆文档概率)值,由于短文本的词语往往不会重复,故得到的TF值会有很多为1的时候,无法把短文本区分开导致聚类效果不理想。

二、问题与假设(problem and hypothesis )

问题:如何解决这些问题,提高短文本聚类的性能

假设:使用吉布斯采样-迪利克雷多项式混合模型

三、方法(method)

为了方便理解问题本质,文章提出MGP(movie group progress)模型。即在电影课上,老师把学生分为几类,使得喜欢相同类型的学生尽可能的分在一讨论组之中。开始时学生们随机分组,再调到别的组。调换时,需要考虑以下原则:

原则一:去人多的讨论组

原则二:去一个有相似喜好的讨论组

对应于文本来说,吉布斯采样-迪利克雷多项式混合模型假设文档在生成时符合混合模型,并且文档于类别为一一对应的关系。除此以外,该模型还遵循朴素贝叶斯假设:在某文档所在类别已知的情况下,该文档中词语与其所处位置无关。

这样,在计算文档所属类别概率时只需将所有词的概率相乘即可。

四、实验(Experiment)

实验数据集为google news中2013年11月27日的新闻,大约152类共计11109条,以及

Text Retrieval Conference中大约89共计2472条微型博客。

实验前需要对数据进行预处理,包括字母大写转小写,移除非拉丁语字母、停止词,用NLTK提取词干,移除长度小于2或者大于15的词以及移除词频小于2的词。

程序先给定一个随机初始情况,再设置迭代次数,每次迭代过程中都重新决定每个文档所属的类别。迭代完即可得到最终结果。

五、结果分析(analysis)

实验结果为该模型的确取得了较好的结果,时间性能也相比传统的Kmeans,HAC算法有所提高。

六、展望(future work)

动态修改公式中的参数,使得模型更符合实际情况

 

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论