北京大学计算语言学研究所、郑州大学自然语言处理实验室与鹏城实验室人工智能研究中心智慧医疗课题组联合发布
中文医学知识图谱CMeKG2.0版
http://cmekg.pcl.ac.cn/
欢迎大家试用并提出宝贵意见!
CMeKG(Chinese Medical Knowledge Graph)是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范、医学教材与医学百科等医学文本信息。继2019年1月份发布CMeKG 1.0之后,课题组进行了多维度、多层次的扩展与深化,形成了CMeKG2.0。CMeKG2.0的主要目标是建立大规模、高质量的医学知识基础集,同时在描述体系、构建工具、展示平台、示范应用等方面进行积累与完善。与CMeKG1.0相比,CMeKG2.0扩大了医学知识的覆盖面,提高了其描述信息的丰富程度,同时在标准化、规范化和国际化方面进行了提升。内容层面,CMeKG2.0对多源异构的医学资源进行了人机交互的知识提取与知识融合,新增了症状类知识,并对儿科疾病进行详细描述,从而建立了大规模、高质量的医学知识基础集,实现了疾病、症状、药物、诊疗技术之间广泛的知识关联。CMeKG2.0目前包含1万余种疾病、近2万种药物、1万余个症状、3千种诊疗技术的结构化知识描述,描述医学知识的概念关系及属性三元组达156万。此外,CMeKG2.0还增加了基于就诊科室的疾病分类体系和基于ICD编码的疾病分类体系,并实现了与UMLS的映射与链接。工具层面,CMeKG2.0开发了医学文本分析与知识提取工具,可针对多种类型的医学文本进行自动分析与知识提取。CMeKG2.0也增加了医学知识问答、妇儿健康宣教等示范应用,在医学知识图谱的应用方面进行了探索。
在未来,我们将面向智慧医疗领域的纵深应用,在CMeKG2.0基础上进行不同维度的拓展和深化,探索医学知识图谱在健康管理、疾病风险预测、辅助诊疗、病历结构化等智慧医疗更多领域的应用模式。
CMeKG仅供学术研究使用,不做商业用途。
研发者团队
北京大学:穗志方教授、常宝宝副教授、李素建副教授以及研究生奥德玛、杨云飞、代达劢
郑州大学:昝红英教授、张坤丽副教授、赵悦淑主任医师、牛承志副主任医师以及研究生关同峰、窦华溢、赵旭、刘涛、蔡林坤、悦东辉、任晓辉、陈俊富、韩杨超、刘欢、于硕、闫英杰、刘雅蕾等。
他们同时也是鹏城实验室人工智能研究中心智慧医疗课题组的成员。