【例会】Automatic Knowledge Graph Construction: A Report on the 2019 ICDM/ICBK Contest

主持人:刘硕

参会老师:杨矫云

参会学生:赵春阳、程坤、李雨龙、丁会通、韩朋、肖勇博、郭思伊、殷越、哈山、马蒙

时间:201912月4日

本次例会学习讨论了文章:Automatic Knowledge Graph Construction: A Report on the 2019 ICDM/ICBK Contest

一、背景

自动知识图谱构建是在没有人工干预的情况下,从特定领域或跨多个领域的非结构化文本构建知识图谱。IEEE ICDM 2019和ICBK 2019邀请了多个组织和实验室的团队参加2019年知识图谱竞赛,自动构建至少两个不同领域的知识图。这篇文章报道了比赛的结果。参与者需要构建一个模型,从文本数据中提取以三元体表示知识,并开发一个应用程序来可视化。

二、知识图谱构建的挑战

知识图构建面临的挑战有三方面:

1)信息丢失。

2)信息冗余。

3)信息重叠。

三、数据集的构成

数据集是由竞赛组织者收集的。该数据集包含300篇已发表的新闻文章,平均分布在四个不同的行业:汽车工程、化妆品、公安和餐饮服务。每篇文章长度在150到250字之间,包含8-20个实体。

四、知识图谱的构建

一个典型的知识图构建过程包括三个主要部分:信息提取、知识融合和知识处理。本次竞赛仅涉及信息提取和知识融合。

信息提取的目的是识别和分离数据源中的实体,以及这些实体的属性及其与其他实体的关系。因此,信息提取是这个过程的恰当名称,因为在这个步骤中没有直接输出实际的“知识”。信息提取涉及的两个主要技术是实体识别和关系提取。另外,在知识融合中还会涉及到共同参考解决方案。

五、要求

所有队伍被要求设计一种方法,在没有人工干预的情况下从非结构化文本中构建知识图。

六、获奖队伍的做法

UWA团队在比赛中获得了一等奖,他们设计了一个流水线风格的模型。使用SpaCy提取实体,识别POS标签,并使用预定义规则对名词和动词短语进行分块。为了提取关系,他们通过提取动词、介词和后置词作为关系词来将实体映射成对。他们使用一个预先训练的基于attention的Bi-LSTM模型来补充这个过程,之后将关系划分为预定义的类型。除了基本的功能之外,这个团队还选取良好的中心节点来减少中心实体的数量。可以将多个文档同时作为输入,它们的应用程序会用同样的颜色编码实体,来表示文档中同时出现的实体。

anyShare分享到:
This entry was posted in 新闻动态. Bookmark the permalink.

发表评论