【例会】Text Mining for Causal Relations

主持人:肖勇博

参会老师:安宁,杨矫云

参会学生:明鉷,肖勇博,贵芳,刘硕,李雨龙,赵春阳,程坤,哈山,王爱国

请假学生:韩朋

时间:2018年10月17日

本次例会学习讨论了以下文章:

Girju R, Dan I M. Text Mining for Causal Relations[C]// Fifteenth International Florida Artificial Intelligence Research Society Conference. AAAI Press, 2002:360-364.

本文当前被引量:183

  • Background

在计算语言学中,许多先前的研究试图使用基于知识的推论从文本中提取隐含的内部因果关系(Joskowiscz, Ksiezyk and Grishman 1989), (Kaplan 1991)。

其他研究人员使用语言模式(Garcia 1997), (Khoo et al. 2000)来识别文本中明确表达的因果关系。

但是,Joskowiscz, Kaplan 等人使用基于知识的推论从文本中提取隐含的内部因果关系,这些研究基于手工编码的,特定领域的知识库,难以扩展到实际应用。

Garcia,Khoo等人使用语言模式来识别文本中明确表达的因果关系,而没有任何基于知识的推理。

 

  • Problem & hypothesis

Problem:如何解决上述的这类问题

Hypothesis:使用本文提出的一种自动检测因果关系模式的方法以及一种半自动验证涉及因果的模糊词汇句法模式的方法。

 

  • Method

用于检测涉及因果关系的词汇——句法模式的算法包括两个主要程序。第一个程序发现可以表达因果关系的词汇——句法模式,第二个程序对基于名词和动词的语义约束获得的模糊模式进行验证和排序。

本文方法主要包括两个程序

 

  • Automatic discovery of lexico-syntactic patterns referring to causation.

因果性动词分为以下三种:

  • Simple causatives
  • Resultative causatives
  • Instrumental causatives

本文使用了Hearst程序的修改版本,捕捉最常用的涉及因果关系的词汇–句法模式。

Procedure 1:Discovery of lexico-syntactic patterns

  • 选择一个语义关系R(例如,因果关系);
  • 选择一对R代表的名词短语Ci,Cj;
  • 通过搜索文本集合链接所选择的名词短语,提取词汇-句法模式

这个步骤的结果是找到一系列涉及因果关系的动词/动词表达式。

 

在模式<NP1 verb NP2>的关系中,名词NP1(cause noun)和NP2(effect noun)可以表达明确或隐含的事务状态。 可能会出现以下四种情况:

  1. 原因名词和效果名词是明确的事态。
  2. 效果名词表达一种明确的事件状态,而原因名词则是隐含的。
  3. 原因名词显示了明确的事件状态,而效果名词则是隐含的。
  4. 原因名词和效果名词是隐含的事态。
  • Validation of causation patterns and ranking of causation relationships
  1. Semantic constraints on nouns NP1 and NP2
  • STEP 1. Semantic constraints on NP1:

对于在Procedure 1的步骤1中检测到的备用对中占据EFFECT位置 的每个名词,选择作为因果关系类的WordNet中针对该给定意义的最一般的子语 言。

  • STEP 2. Semantic constraints on NP2:

soft constraint on CAUSE: the noun should have as subsumer the concept causal agent in WordNet.

  1. Semantic constraints on verbs

根据对在步骤1的步骤3中提取的动词/动词表达式在WordNet中的模糊性和频率级别进行排序。

  1. 低歧义: 如果动词的含义数量 <= 7;
  2. 高歧义:如果动词的含义数量 > 7;
  3. 低频: 如果(特定含义的频率 < 所有其他含义的频率之和)或(特定含义的频率 < 30);
  4. 高频: 如果(特定含义的频率 >= 所有其他含义的频率之和)或(特定含义的频率 >= 30)。

 

Procedure 2: Algorithm

  • STEP 1:如果EFFECT和CAUSE主名词是单义的,并且它们属于一个因果类,那么将该关系分类为等级1的因果关系。
  • STEP  2:如果EFFECT主名词是单义的,并且它属于一个因果类,并且它的所有意义都属于因果类别,那么将该关系分类为等级2的因果关系。
  • STEP 3:如果EFFECT是由名词短语的枚举来表示的,而其中至少一个的头名词在因果关系之一中具有所有的意义,那么其他名词也在该上下文中引用因果关系。将关系分类为等级3的因果关系。
  • STEP 4: 如果表示效果的名词短语是含糊的(其至少一个含义不属于因果类),并且因果关系遵循前一节中定义的软约束,那么将该关系分类为等级4的因果关系。
  • STEP 5: 就此,剩下的名词表示因果关系是模糊的,唯一的消除歧义的可能性来自于对动词施加的限制。

 

  • Experiment

实验采用TREC-9(TREC-9 2000)文本集,其中包含华尔街日报、英国《金融时报》、《财务报告》等杂志的3GB新闻文章。

每一个动词都包含50个句子。由此形成的新语料库(3,000个句子)是词性标记和解析的。

  • Result

对文本库实施了第4节中给出的算法,并且系统给出1321个因果关系<NP1 verb NP2>。

通过与人类注释的比较验证结果。作者让两个受试者(不包含作者)对300个关系进行排序,根据本文算法,只有230个关系涉及到因果关系。在300个关系中,受试者选为因果关系的数目平均只有151个。关于因果关系的评级,不同受试者的差别约为36%,与系统的输出差别为48%。

与两个人类注释的平均值相比,本文系统获得的准确度为65.6%。

11

  • Future Work

将分析扩展到其他因果关系,并设计一个通用的检测算法,特别是因果模式的验证。作者还考虑测试其他语义关系的方法,如部分和影响。

 

anyShare分享到:
This entry was posted in 新闻动态. Bookmark the permalink.

发表评论