主持人:肖勇博
参会老师:杨矫云
参会学生:赵春阳、程坤、李雨龙、丁会通、韩朋、刘硕、郭思伊、殷越、哈山、马蒙、贵芳
时间:2019年12月11日
本次例会学习讨论了文章:A knowledge-poor approach to chemical-disease relation extraction.
本文提出了一种基于有限知识的命名实体识别以及关系提取方法。这个方法分为是实体识别和关系提取这两个部分。文章为关系提取新增了三个特征,新增了语句级别分类器并将文档级分类器与语句级分类器进行了结合。并通过实验证明本文新改进的算法优于之前的算法。
背景
从文本中进行命名实体识别和实体关系提取的研究越来越被重视,当前已有多个团队正在研究或者已有成果出来。就实体关系提取来说,当前的方法可以分为四类:
- 基于数据共现;
- 基于模式的方法
- 机器学习方法
- 基于知识方法
问题与假设
问题:当前的关系提取方法主要是提取句内关系,并且需要实体同时出现。如何能做到在既能分析句内关系又能分析句间关系呢?
假设:设置两个级别的分类器,分别为语句级分类器(SLC)和文档级分类器(DLC),通过结合两个分类器的结果能够取得比较不错的表现。
方法
整个实验的流程图如下图所示:
实体识别
实体识别的特征包括从CTD(Comparative toxicogenomics database)中提取的知识;根据单词前缀和后缀获得的形态规律学;上下文特征。
数据预处理
利用Stanford CoreNLP获得词语的原型,词性,并对句子分段。然后利用SnowBall获得词语的词干信息。
实体命名识别
实体命名识别包括两个部分:
- 在文本中检测实体以及实体的同义词
实体及同义词的检测包括三个方法:
- 字典匹配
- 根据单词前缀和后缀获得的形态规律学推断
- 根据上下文语义推断
- 规范化:即在MeSH ID中找到各个实体最匹配的项。
利用如下算法进行实体命名的规范化:
在规范化过程中有两点需要注意:1. 同一个实体可能存在多个标记符的情况,处理方法是以出现次数多的为准;2. 可能存在复合命名实体,因为此类情况较少,因此不做特别处理。
关系提取
在NLP工作中,关系提取一般的关系提取是指在一条句子中提取关系,并且被具体提及。而本文所处理的CID工作,则没有这些限制:实体之间的关系是基于整个摘要的,而不是某条语句;两个实体可能并不出现在一条语句中。
因此,本文提出了两个级别的分类器SLC和DLC。
特征提取
本文为每个提及的内容考虑一个FV,然后将它们合并到DLC的每个实体的FV中,而我们将其单独考虑给SLC。这里考虑的所有特征都是布尔值,实体别名的FVs通过“或”运算组合为实体的FVs。同样,每个别名FV都是通过考虑每个令牌FV的“或”来构建的,它们基于一组布尔特征来表示令牌中给定模式的出现。这些特征包括:
- 第一个和最后一个字符,
- 单词前缀和后缀的长度从3到5
- 无论第一个字符是大写字母,大写字母还是数字,
- 该词是否包含一个或多个大写字母,还是仅由大写字母或仅由大写字母组成,
- 令牌是否包含点,逗号或连字符。
特征还包括词语以及词性的一元、二元、三元模型特征。此外,特征还包括BFs特征和词嵌入特征。
词嵌入特征共有两种不同方式:一种是为每个同义词与实体名称计算的相似性当作特征值,第二种是将实体的每个同义词的特征取平均作为特征。
最后,本文依靠下面的问题选取了四个特征:
1.实体对是否在CTD中被列为化学疾病呈正相关关系(20)?
2.两个实体的提及是否出现在同一句子中?
3.两个实体的提及是否出现在标题的同一句话中?
4.两个实体的提及是否在摘要中的同一句子中出现?
分类器
为了提高算法召回率(代价是降低了精度),我们通过训练集和发展集的正样本建立了一个CID关系字典。在后处理阶段,我们首先检查测试集中的任何实体对是否由RE系统标识。如果不是,那么我们使用CID关系字典并检查候选实体对是否与字典中的条目匹配。如果存在匹配,那么我们将这样一个实体对标记为正样例。
分类器的联合
S1: 对DLC和SLC的结果做或运算;
S2:将SLC的输出结果作为DLC的其中一个输入特征;
S3和S4: 将SLC和DLC的结果进行线性组合,其中S3的权重相等,S4的权重分别为P/P+1 和 1/P+1
实验
结论
本文提出的方法能够较好的实现句内和句间的关系提取。