【例会】压力性损伤危险因素的关系提取以及知识图谱构建工作汇报

主持人:郭思伊

参会老师:安宁、杨矫云

参会学生:肖勇博、丁会通、李雨龙、郭思伊、殷越、韩鹏、程坤、贵芳、赵春阳、刘硕、明鉷

时间:2020年02月09日

本次例会汇报了我对压力性损伤危险因素的关系提取以及知识图谱构建的相关工作

之前做的工作是对8950篇来自pubmed的有关压力性损伤的文献摘要,提取了12大类31个危险因素关键词之间的关系形成知识图谱并可视化绘制关系图。

首先是数据集语料库的处理,因为是自己从pubmed上根据pressure ulcer为关键字爬取的文献摘要,需要进行分句,去除特殊符号和无关的冗余信息,替换缩写简写等操作,然后找出所有同时包含两个危险因素关键词的句子,最后整理出了115个可能存在关系的关键词对及其语料库。来进行关系提取。

然后关系提取部分用到的是肖勇博学长的算法,具体思路是利用斯坦福的CoreNLP分析器进行句法分析,词性标注,提取出两个关键词及其相关关系动词的三元组,分为两种三元组,一种是主语+谓语动词+宾语,还有一种两个关键词都是同一动词的宾语,其中距离动词近的是直接宾语,远的是间接宾语。

接下来就是判断每一个三元组里的动词是否代表存在因果关系。因为不可能预定义所有的动词代表什么关系,所以这里用到了一个增量的方法。首先初始化4个seed set,第一类第二类都是处理主谓宾三元组的,其中第一类指主语关键词是宾语关键词的原因,第二类指主语是宾语的结果。第三类是用于处理两个关键词都是动词的宾语这样的三元组的,直接宾语是间接宾语的原因。第四类是两个关键词间有关联关系,但不确定是否是因果关系。每个种子集包含一些具有代表性的动词。对于每个新出现的动词,计算它和这些seed动词的余弦相似度,添加到对应的seed set中,一直迭代到没有新的未归类动词为止。相似度的计算是无监督学习,利用了SKIP-Gram算法,训练一个三层的神经网络,进行上下文预测,来度量两个动词之间的相似性。

然后就可以通过这些动词的类型,以及句子中的否定词个数有多少、句子是否是被动语态、或者三元组是否出现在whether从句开头,来得到因果关系的提取结果。

每一个句子提取出的关系一共有四种可能的结果,0表示两个关键词同在一句中,但没有关联关系,需要去除掉;1表示关键词A会导致关键词B;2表示B会导致A;3表示A和B之间存在相关关系,但意义不明。因此剔除掉所有结果为0的数据,合并一些重复的关系,最终可以得到8大类15个关键词节点之间的22对关系。最后利用echarts对知识图谱进行可视化,绘制出一张关系图。

关系图2020-02-08

接下来的工作计划是参考2019年最新发布的压疮预防和治疗国际指南,找到压疮相关的各个危险因素的标准量化数据进行数据分析,根据guideline 对危险因素本身的定义,比较通过搜集文献文本处理找到的因果关系和指南里的因果关系是否一致,一是确认关系提取的正确率,二是可以找到一些新知识,对进一步的研究提供思路。再结合医学专业人士的指导,来检验因果关系提取、知识图谱构建是否正确,是否符合实际情况。在此基础上做进一步的优化工作。

 

 

 

 

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论