【例会】Translating Embeddings for Modeling Multi-relational Data

主持人:程坤

参会老师:杨矫云

参会学生:赵春阳、丁会通、刘硕、殷越、哈山、贵芳

时间:2019年12月25日

本次例会学习讨论了文章:Translating Embeddings for Modeling

Multi-relational Data

本文提出了TransE,这是一种通过将关系解释为在实体的低维嵌入上操作的转换来建模关系的方法。尽管这个假设很简单,但它被证明是强大的,因为大量的实验表明,TransE在两个知识库上的链接预测性能显著优于最先进的方法。

背景

近年来知识图谱(KG)的构建和应用发展迅速。大量的KGs,如Freebase、DBpedia、已经被创建并成功应用于许多实际应用中,从语义解析和命名实体消除歧义,到信息提取和问题回答。

在知识图谱当中,使用(head entity, relation, tail entity)来表示一个fact。虽然在表示结构化数据方面很有效,但是这类三元组的底层符号特性通常使kg很难操作

为了解决这个问题,提出了一种新的研究方向—knowledge graph embedding。其关键思想是将包含实体和关系的KG组件嵌入到连续的向量空间中,从而在保持KG固有结构的同时简化操作。这些实体和关系嵌入可以进一步用于各种任务,KG completion, relation extraction , entity classification, and entity resolution

 

方法

我们介绍TransE, an基于能量的模型,用于学习实体的低维嵌入。在TransE、人际关系表示为嵌入空间中的平移:if (h;l;t)保持,然后嵌入尾部实体t应该接近于头部实体h的嵌入加上某个依赖的向量关于这段关系。我们的方法依赖于一个简化的参数集,因为它只学习一个参数每个实体和每个关系的低维向量。

图片1

 

实验

数据集:

Wordnet:  此知识库的设计目的是生成一个直观可用的词典和同义词库,并提供支持

自动文本分析。它的实体(称为synsets)对应词的感觉和关系定义它们之间的词汇关系。

Freebase:  Freebase是一个庞大的,不断增长的知识库的一般事实;目前大约有1.2个

十亿三元组和超过八千万的实体。

图片2

实验:用 TransE, For 实验 我们选择了学习速率λ随机的梯度下降;{0.001, 0.01, 0.1}保证间隔在 {1, 2,10}和潜在维度{20, 50}在验证集上,也取不同度量L1或L2距离也根据验证性能而定。最优配置是:k = 20,λ = 0:01,  γ= 2, and d = L1 on Wordnet; k = 50, λ= 0:01, γ= 1, and d = L1 on FB15k; k = 50, λ= 0:01,  γ= 1, and d = L2 on FB1M.对于所有数据集,培训时间都是有限的至多1;000个划时代的训练集。通过提前停止使用来选择最佳的模型验证集上的平均预测等级(原始设置)。

 

总结

我们提出了一种学习KBs嵌入的新方法,主要关注模型的最小参数化来表示层次关系。我们证明了,与在两个不同的知识库上竞争的方法相比,它工作得非常好,而且是一个高度可伸缩的模型,因此我们将它应用到非常大的一块Freebase数据上。尽管我们还不清楚是否所有的关系类型都可以通过我们的方法充分地建模,(1到1,1到很多,…)与其他方法相比,它在所有设置下的性能似乎都很好。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论