【例会】Research On Measuring Semantic Corrrelation Based On the Wikipedia Hyperlink Network.

主持人:韩朋

参会老师:杨矫云

参会学生:赵春阳、程坤、丁会通、郭思伊、哈山、殷越、贵芳

时间:2019年11月13日

本次例会学习讨论了文章:Research On Measuring Semantic Corrrelation Based On the Wikipedia Hyperlink Network.

1、介绍

语义相关计算在自然语言处理领域中占有非常重要的地位,是信息检索、文本分类等相关领域的基础。人们早就认识到,为了更有效地处理自然语言,计算机需要访问大量的常识和特定领域的知识库来获取背景语义知识。作为最大的免费在线百科全书,维基百科不仅是一个庞大的语料库,更是一个有着大量人类背景知识和语义关系的知识库。

这对维基百科的开源数据进行了归一化处理,利用信息挖掘技术和自然语言处理技术提取出含有丰富信息的网络链接,实现了基于语义关联计算应用的智能信息处理。与以往的方法不同,作者在Wikipedia超链接网络中获取语义信息是通过将页面网络和类别网络相结合的方式来计算概念之间的语义相关性,而不是将页面网络和类别网络分开考虑。

2、维基百科的超链接网络

在主题页的主要文本中,存在到其他主题页和类别页的超链接,另外,类别页通过超链接与其他类别页连接。这些超链接和超链接的锚文本信息是维基百科中获取主题概念间语义信息的重要资源。

在百科中,与主题概念对应的解释页面包含大量内部超链接,相互链接的解释页面通常在语义上是相关的。在提取这些超链接形成的页面网络中,每个主题概念都可以看作是网络中的一个节点,页面之间的超链接在页面网络中形成有方向的边。在网络页面,它总能找到两个节点之间的多条路径,这些路径能够反映不同的两个节点之间的语义关系。由于页面网络是一个典型的小世界网络,网络的特点是,无论网络的规模有多大,的最大一步搜索路径通常是相对稳定(实验表明,通常小于5)。从搜索策略的角度出发,对计算出语义相关度的两个节点进行双向广度优先搜索。只要两个节点的搜索树中存在相同的节点,就意味着要找到连接它们的路径,并重复搜索过程,直到达到预定义的最大搜索深度,并最终计算通过超链接网络所提供计算语义相关性的贡献度。

3.维基百科的类别网络

对于组成页面网络中某条路径上的链接段的两个节点Pagei和Pagej,从这两个节点的主题页面中提取主题概念所属的类别标签,然后在类别网络中搜索,查找这两个节点的所有公共父类别。类别网络上有意义的路径应该是从公共父节点到节点的路径。每个父类别节点代表类别网络中两个条目的共同语义标记,反映了语义关联的某些方面。

在类别网络中,越高的节点包含的子类和解释性页面越多,因此语义和它所能表示的公共语义信息的区别就越小,因此需要考虑类目网络中父类的深度。由于类别网络中的每个类别可以属于不同的父类别,因此其深度可能不止一个值,我们在实际计算中选择了最小值。此外,一个类别的下列子类别可能很大,也可能很小,因此在计算语义相关时需要考虑父类别的子代和子代的数量,密度越大,分类越精细,因此相对语义相关度越低,因此我们在我们的方法中增加了一个密度函数。从搜索算法的实现来看,它从根节点开始,将深度标记为1,在类别网络中进行广度递归搜索,如果一个类别的深度获得一个小值,则使用该值代替原来的深度,同时更新所有后代的深度。一个类别的子类别数由其子类别所包含的所有节点的和得到,当一个类别的节点数改变时,依次递归地更新其祖先,直到深度与类别的节点数收敛。最终通过以上方法找到类别网络中条目的k条关键路径,并计算这两个条目的类别语义关联度。

3、基于维基百科的超链接网络语义相关度计算方法

通过以上两种方法的结合计算最终的语义相关值,在评价两个概念的语义相关性时,一个具体的例子是,如果在页面网络中,两个概念之间存在较多的路径,且长度相对较短,而且在类别网络中,每个路径上的节点的语义相关性都很高,说明这两个概念的语义关联度很高。

4、实验结果和分析

采用英语版本的ws – 353测试集和中国版本的字- 240测试集的比较分析两组测试结果。这两个测试集都是通过人工标记得到语词组的相对值。WS-353测试集包含353组单词,words -240测试集包含240对中文单词和这些单词之间的语义相关性的评估值。

实验结果记录在,它在WS-353测试集中评估了以下方法的性能:基于HowNet的语义相关算法(以下简称HowNet)、仅基于Wikipedia页面网络的算法(Relpage)、仅基于Wikipedia类别网络的算法(Relcat)、将两种网络得到的结果进行简单加权和(Relazz),并结合本文提出的基于Wikipedia超链接网络的语义相关算法(Relour),将结果与人工标注值进行比较。其中所有值均归一化,使其值落在[0,10]中,最终结果作者的方法比单独计算的方法效果要好。

 

 

 

 

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论