徐美兰:深度运用驱动的医学常识图谱建立
发布日期:2022-12-21 作者:康为 点击:
导读:数研院近年来在知识图谱建设方面取得了丰硕的成果。今天分享我们在地图建设过程中的经验和体会,欢迎大家讨论交流。这次分享的题目是:深度应用驱动的医学知识图谱构建。主要内容包括四个方面:国内外医学知识地图发展、医学知识地图领域特点及应用需求;数字研究院医学知识图谱构建:模型建立,七巧板本体术语集构建,以及“慧智”图谱构建,医学知识图谱应用案例。
01
国内外医学知识地图的发展
1.知识地图概念
知识图谱的广义概念:作为一个技术体系,是指大数据知识工程的一系列代表性技术。
狭义的知识地图概念:知识地图作为一种知识表示形式,是一个大规模的语义网络,包含实体、概念以及它们之间的各种语义关系。下图中的二甲双胍知识图谱片段。
2.国外医学知识图谱
UMLS:美国国家医学图书馆(National 医学 Library)自1986年以来研发的集成医学语言系统,包括超级词汇、语义网络、专业词典和词汇处理工具。其规模:语义网络包含133种语义类型和54种语义关系。超级词库包含超过300万个概念,超过1300万个概念名称。
SNOMED CT:2002年1月,SnO med首次发布。由SNOMED RT和CTV3两个医学术语合并而成。SNOMED CT国际版每年1月和7月更新一次。SNOMED CT的核心结构是概念、描述(术语)和关系。其规模:目前包含19个语义类型,50多个语义关系,35万个概念,120万个描述(术语),110万个关系。
3.国内医学知识图谱
CUMLS:中国医学科学院医学信息研究所基于UMLS开发的中文集成医学语言系统,包括医学词汇、语义网、构建工具和平台。其规模:共收录3万多个0 医学关键词,3万个导入词,10万个0 医学术语,30万个0 医学词汇材料。
医学知识服务体系:由中国医学科学院医学信息研究所建设,通过对资源的深度挖掘和关联分析,构建了知识图谱、知识情境分析等特色知识服务和应用。其规模:已发布疾病与药物知识图谱,其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。
中医知识图谱:中国中医科学院中医信息研究所基于中医语言系统(TCMLS)构建了中医知识图谱。其类型包括:基于中医语言体系的知识图谱、中医美容知识图谱、中医养生知识图谱、中国临床知识图谱。
OpenKG:由中国中文信息学会发起的中文领域开放式知识图谱社区项目。其主要工作内容包括:OpenKG.CN(开放地图资源库)、cnSchema(中文开放地图模式)、Openbae(开放知识地图众包平台)。
02
医学知识地图的领域特征和应用需求
1.医学知识的特性
医学术语多样性:不同的知识源使用不同的术语来表达同一个概念。比如糖尿病也可以叫糖尿病、糖尿病、DM等。
精度高:医学知识专业化程度高,医学应用场景容错率低,所以医学知识图谱要求精度高。
复杂度高:医学是一门总结经验的学问。医学概念的内涵往往是丰富的,有些医学知识是复杂的,很难用简单的三元组来表达。
2.医学知识图谱应用场景
医学知识地图不同的应用场景有不同的需求,需要最大化的满足来提高地图的适用性。如下所示:
3.定制解决方案
为了满足行业深度应用的需求,在医学知识图谱的构建中要引入更多的定制化解决方案,如下图:
03
数学研究所医学知识图谱的构建
1.模型机构
医学领域的知识图谱专业性很强,所以业界通常采用自顶向下的方式,先构建图式,再提取知识。
研究院的医学知识图谱模式主要参考了Schema.org、UMLS语义网、cnSchema等。相关数据涵盖四个主要领域:疾病、药物、外科手术和检查。当然,在知识图谱构建过程中,我们会根据提取和应用的实际情况,不断完善和优化图式。数研院医学知识图谱于2019年8月首次发布了该图式。目前包含72种语义类型,493种语义关系。Schema的查询和下载地址为:http://schema.omaha.org.cn/class/Thing#.
用Schema指导构建Tangram 医学本体术语集和汇智医学知识图谱,完善医学知识表达体系。我们之所以在一个模型的指导下建立两个知识库,是为了解决不同的问题。Tangram用本体解决逻辑定义(即内涵定义)和层次关系相关的关系。“汇智”用语义网解决可能和经验关系,没有层级关系。详情请见下图:
2.七巧板本体术语集的构建。
从整体上构建本体术语集有六个步骤,分别是:
步骤1:确定领域类别。目前正在尝试构建医学知识图谱,满足临床诊疗需求。主要内容:疾病,症状和体征,外科手术,检查,药物,人体形态和结构,基因,医疗设备。
第二步:选择合适的知识来源。充分包括权威的知识来源,如当前的行业标准、教科书、指南等。,同时补充临床病历、互联网诊疗中的术语等。
第三步:整理出重要的术语。整理领域内的重要术语,领域专家对语义实体进行规范化,完成概念化。相关流程如下:
第四步:建立关系。Tangram 医学本体术语集的核心构建包括概念、术语、关系和映射。如下图所示:
充分保留知识源中已有的层次关系,通过机器推理和人工添加进行优化。挖掘知识源中的属性关系,通过机器推荐和人工添加进行补充。制定明确的映射规则,通过机器推荐和专家评审建立映射。
第五步:存储和浏览。关系数据库分为概念表、术语表、关系表、映射表进行存储,保留历史痕迹。术语浏览器可以实现术语集构建的快速搜索,并可以按需实现子集定制。参见如下关系操作:
步骤6:平台和工具支持。自主开发的知识库维护平台(CoWork),内嵌术语集开发规则,支持多人协作。七巧板在CO中的功能如下: