【例会】Maximum Entropy Models for Named Entity Recognition(实体识别的最大熵模型)

主持人:明鉷

参会老师:杨矫云

参会学生:滕越,刘杰,明鉷,肖勇博,韩朋,刘硕,李雨龙,赵春阳,程坤

请假学生:唐晨,段优,贵芳

时间:2018年7月25日

本次例会学习讨论了以下文章:

Bender O, Och F J, Ney H. Maximum Entropy Models for Named Entity Recognition[J]. Proceedings of CoNLL-2003, 148–151, 2003, 110(2009):148–151.

这篇文章提出了实体提取、识别的最大熵模型。当前在百度学术的被引量为176.

一、背景(background)

命名实体(Named Entity, NE)是文本中重要的信息元素,也是现实中具象的、抽象的实体。NE包括人名、地名、机构等,通常有唯一的标识符表示。随着互联网的快速发展,如何有效的从大数据中提取出命名实体、构建结构化的数据是很有价值的问题。当前(2009年)的实体提取与识别的方法一般为NLP(自然语言处理)的方法,在识别率、分类准确率上不尽人意。为此本文提出了最大信息熵模型旨在提高实体解决识别准确率、分类准确率的问题

二、问题与假设(problem and hypothesis )

问题:如何提高实体提取与识别的准确度

假设:使用最大信息熵模型可以提高

三、方法(method)

最大熵模型是指在满足特定约束条件下,不做其他任何假设,即除约束条件外所有情况视为等概率而直接对结果进行估计。对于一个语句序列A,会有对应的实体序列B,序列B中最大概率实体的标签视为语句序列A的类别。并且对于B中的每个实体而言,在计算概率的时候仅仅与前后若干实体考虑,不会将序列中所有实体一同计算从而减少时间复杂度。

此外,模型中提供6种不同特征函数已经对应的参数以提高识别、分类的准确率

四、实验(Experiment)

数据集采用英语和德语的测试集,数据集包含各类实体的标签。标签总共5类。每类数据集都有无标签的测试数据。

对于有标签的数据使用除了Dictionary features之外的所有特征函数,训练出NE识别模型,然后应用该模型在无标签数据上,得到识别实体种类的序列。这个序列可以再次被模型识别。

五、结果分析(analysis)

实验结果为,对于其中的”字典型”特征函数,其他五种混搭有着更高的识别准确率,最大熵模型对实体的识别、分类有着有益帮助。

六、展望(future work)

提出复杂的模型去解决有着复杂标签的数据、训练新的、识别率更高的模型。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论