主持人:刘硕
参会老师:杨矫云
参会学生:赵春阳、程坤、李雨龙、丁会通、韩朋、肖勇博、郭思伊、殷越、哈山、马蒙
时间:2019年12月4日
本次例会学习讨论了文章:Automatic Knowledge Graph Construction: A Report on the 2019 ICDM/ICBK Contest
一、背景
自动知识图谱构建是在没有人工干预的情况下,从特定领域或跨多个领域的非结构化文本构建知识图谱。IEEE ICDM 2019和ICBK 2019邀请了多个组织和实验室的团队参加2019年知识图谱竞赛,自动构建至少两个不同领域的知识图。这篇文章报道了比赛的结果。参与者需要构建一个模型,从文本数据中提取以三元体表示知识,并开发一个应用程序来可视化。
二、知识图谱构建的挑战
知识图构建面临的挑战有三方面:
1)信息丢失。
2)信息冗余。
3)信息重叠。
三、数据集的构成
数据集是由竞赛组织者收集的。该数据集包含300篇已发表的新闻文章,平均分布在四个不同的行业:汽车工程、化妆品、公安和餐饮服务。每篇文章长度在150到250字之间,包含8-20个实体。
四、知识图谱的构建
一个典型的知识图构建过程包括三个主要部分:信息提取、知识融合和知识处理。本次竞赛仅涉及信息提取和知识融合。
信息提取的目的是识别和分离数据源中的实体,以及这些实体的属性及其与其他实体的关系。因此,信息提取是这个过程的恰当名称,因为在这个步骤中没有直接输出实际的“知识”。信息提取涉及的两个主要技术是实体识别和关系提取。另外,在知识融合中还会涉及到共同参考解决方案。
五、要求
所有队伍被要求设计一种方法,在没有人工干预的情况下从非结构化文本中构建知识图。
六、获奖队伍的做法
UWA团队在比赛中获得了一等奖,他们设计了一个流水线风格的模型。使用SpaCy提取实体,识别POS标签,并使用预定义规则对名词和动词短语进行分块。为了提取关系,他们通过提取动词、介词和后置词作为关系词来将实体映射成对。他们使用一个预先训练的基于attention的Bi-LSTM模型来补充这个过程,之后将关系划分为预定义的类型。除了基本的功能之外,这个团队还选取良好的中心节点来减少中心实体的数量。可以将多个文档同时作为输入,它们的应用程序会用同样的颜色编码实体,来表示文档中同时出现的实体。