【例会】An effective neural model extracting document level chemical-induced disease relations from biomedical literature

主持人:肖勇博

参会老师:杨矫云

参会学生:赵春阳、李雨龙、程坤、刘硕、丁会通、郭思伊、肖勇博、殷越、哈山、韩朋、马蒙、贵芳

时间:2019年9月18日

本次例会学习讨论了文章:An effective neural model extracting document level chemical-induced disease relations from biomedical literature

  1. 背景

化学药物和疾病这两个实体及其关系是生物医学研究和医疗保健领域的核心,如药物发现和安全监督。近年来,人们越来越关注将非结构化自由文本中的化学 – 疾病关系(relation of chemical and disease, CDR)识别为若干生物信息学数据库的结构化知识,例如手动策划的比较毒物基因组学数据库。

  1. 问题与假设

当前研究团队的主要方法有以下两种:

  • 基于规则的方法;
  • 基于深度神经网络的方法

问题:这两种方法都存在着同一种局限性:只能提取出现在同一句子中的相关实体关系,而那些能通过上下文分析出的关系则无法提取。

假设:使用cnn和RNN来训练提取关系,药物疾病关系为二分类,通过整个文档判断因果关系,使用lstm和CNN学习高级语义特征能解决这种问题。

  1. 方法

论文提出的网络结构如下图所示:图片1

  • 输入层接受每个输入句子的两种类型的单词信息,即单词本身和POS;
  • 嵌入层查找表以将上述输入编码为实值向量(也称为嵌入向量)并获得每个单词的语义xj;
  • 双向LSTM,用于学习单词的远程依赖,获得每个句子的高级语义表示,并将最后一步的输出S’i传递给下一层;
  • 双向LSTM和CNN分别学习文档中候选对的高级语义表示(D’l和D’c),有效地学习相邻句子中的局部上下文信息和时间上下文信息相关句子中;
  • 双向LSTM学习文章的标题,以实现文章的主题语义表示D’t;
  • 具有softmax函数的逻辑回归层,根据上述组合文档和主题语义进行化学 – 疾病关系分类。

 

关系判定以及分类

为了对一对候选化学品和疾病之间的关系进行分类,对连接的三个文件级向量的softmax操作输出每个类别的概率分布。

p(y=j|D)=softmax((D’l||D’c||D’t)Ws+bs)

其中Ws为向量矩阵,bs为偏置向量, j是标签,0为正,1为负。

为了减少假阳性实例,当预测的阳性实例的概率大于阈值p时,候选对被判断为化学与疾病关系为正。

后期处理

  • 当文章中没有发现CID关系时,文章中最常提到的化学品和疾病被作为积极的实例进行匹配,以进一步选择最可能的关系。
  • 对于标题中未出现的疾病,如果存在比制品中更具特异性的疾病,则除去含有疾病di的提取的CID对。

 

  1. 实验结果

结果如下图所示图片2

当对不同的阈值p时,有如下结果:图片3

当最小句子跨度K = 4时,在CDR语料库的测试集上具有不同输入表示的性能改变如下笔所示:图片4

图片5

后期处理对实验结果的影响:

图片6

当使用不同神经网络结构时,实验结果:图片7

与其他系统进行比较:

 

图片8

  1. 结论

在这项工作中,本文提出了一个有效的神经网络模型融合RNN和CNN的优势,用于分类生物医学文章中的化学和疾病之间的复杂文档级关系的方法,区分候选实体使得所提出的模型具有有目的地收集有价值的文本信息的能力。

  1. 展望

未来,作者将从三个方面进行研究。一方面,考虑到话语结构的引入。另一方面,寻求适当的知识型文章来增加我们的培训数据。此外,探索将知识库整合到提出的深层模型中的可能方法。

 

 

 

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论