【例会】讨论CMeKG 1.0(Chinese Medical Knowledge Graph)

主持人:刘硕

参会老师:杨矫云

参会学生:韩朋,刘硕,李雨龙,赵春阳,程坤,郭思伊,哈山,殷越,贵芳,马蒙

时间:2019年6月12日

本次例会学习讨论了CMeKG 1.0(Chinese Medical Knowledge Graph)

一、背景

CMeKG(Chinese Medical Knowledge Graph)是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱。 CMeKG的构建参考了ATC等权威的国际医学标准以及规模庞大的临床指南、行业标准、诊疗规范与医学百科等医学文本信息。目的是建立大规模、高质量的中文医学知识图谱,为智慧医疗奠定专业知识基础。

二、构建过程

根据国内外的权威的标准医学术语集,初步设计概念分类体系,通过案例标注与分析,设计关系分类体系,经过医学专家的评估,形成了医学知识图谱的描述体系。采用了人工标注加自动提取两种方法从中提取关系,对于抽取出的关系进行人工审核评估,构建医学知识图谱知识本体,并通过知识融合,从而构建出专业性强,内容丰富的中文医学知识图谱。

三、描述体系

将实体分为12大类,分别为疾病、部位、症状、药物、检查、其他治疗、手术治疗、药物治疗、流行病学、预后、其他和社会学,并使用不同的参考标准界定每一类实体涵盖的范围。

四、结果分析

使用F值来对实体识别标注语料进行一致性评价。确定实体一致性时,当实体文本、实体类型标签均相同时才认为实体标注是一致的;确定关系一致性时,当实体对的两个实体、关系名称均相同时,才认为关系标注是一致的。最终,本研究标注的命名实体识别一致率达到了0.873,实体关系一致率达到了0.829。

五、展望

人工标注集和海量的医学文本相比规模还是比较小,未来将继续研究如何进一步提高标注的准确率,并且根据妇产科学、儿科学等临床医学主要学科进一步扩充标注疾病。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论