APP下载

国际医学术语体系进展及特色优势分析

2021-08-06任慧玲李晓瑛邓盼盼冀玉静刘懿黄裕翔

中国科技术语 2021年3期

任慧玲 李晓瑛 邓盼盼 冀玉静 刘懿 黄裕翔

摘 要:文章深入调研国际主流医学术语体系的新进展,为中文医学术语体系建设提供参考。选取国际具有较高影响力的医学术语体系,概要阐述其编制目标、内容结构及应用现状等基本情况,并对其特色优势进行剖析与归纳,发现国际主流医学术语体系表现出更新持久、应用目标明确、开放易获取、语义关系丰富等特色。国际医学术语体系的编制模式及新进展,开辟了一条融合创新与应用验证相结合的医学术语标准化之路,有助于推动中文医学术语体系的建设落地。

关键词:医学术语体系; MeSH; SNOMED CT; ICD; LOINC; NCIt

中图分类号:K826.2;N04  文献标识码:A  DOI:10.12339/j.issn.1673-8578.2021.03.003

Abstract:This paper focuses on the recent developments in international medical terminologies, and aims to provide useful reference for the development of medical terminologies in China. We selected five wellknown international medical terminologies to investigate terms of the developing goals, essential components and major applications. Our results indicate that these terminologies have beneficial features of persistent updating, specific developing goals, open access, and rich semantic knowledge. We think the international medical terminologies can offer creatives and comprehensive insights into the standardization of medical terminologies in China.

Keywords:medical terminology; MeSH; SNOMED CT; ICD; LOINC; NCIt

收稿日期:2021-04-13

基金項目:科技创新2030-“新一代人工智能”重大项目“中文医学术语体系构建”(2019AAA0104901);中国WHO双年合作项目“中文临床医学术语框架体系及在呼吸系统疾病中的试点研究”

引言

医学术语作为医学概念的主要表达形式,承载了卫生健康信息的核心内容。开展医学术语标准化,对临床诊疗与医学科研活动中所用到的基本语言进行统一命名与内涵界定,实现医学领域“书同文”“物同名”上起到重要作用。同时还可以解决医学术语的语义表述与理解不一致等问题,促进不同医疗信息系统之间的互联互通及医学健康数据共享,提升电子病历等真实世界数据的二次利用,推动卫生健康领域信息标准化发展与“健康中国”战略实施。

国际及欧美等国家相关组织机构十分重视医学术语标准化建设。世界卫生组织(World Health Organization, WHO)、美国国立医学图书馆(U.S. National Library of Medicine,NLM)、国际卫生术语标准开发组织(International Health Terminology Standards Development Organization, IHTSDO)等机构深入开展医学术语标准更新与优化研究,推动了国际医学概念的命名规范统一及全球医疗健康信息的共享互通。

本文在深入调研国际主流医学术语体系最新进展的基础上,对其编制目标、发展历史、内容结构及主要应用等基本情况进行概要阐述;而后,对其持续更新、应用目标明确、开放程度高、语义关系丰富等特色优势进行剖析与归纳,以期为我国医学术语发展提供借鉴。

1 国际医学术语体系进展

1.1 《医学主题词表》

《医学主题词表》(Medical Subject Headings,MeSH)由美国国立医学图书馆编制,为目前国际公认的最权威的生物医学叙词表[1];MeSH于1960年首次出版,经过60余年的发展与推广,已被翻译成中文、法文、德文、日文等16种语言;中国医学科学院医学信息研究所自1979年获得中译版授权,集成了MeSH中文版和《中医药学主题词表》,形成《中文医学主题词表》(Chinese Medical Subject Headings,CMeSH)[2],并且建立了CMeSH与《中国图书馆分类法·医学专业分类表》之间的双向关联映射。目前,MeSH广泛应用于全球生物医学文献的主题标引与检索、图书编目、智能检索、数据挖掘、知识发现、热点监测等方面。

MeSH由主题词、等级体系、副主题词及增补概念四部分组成。①主题词泛指为了表达文献的主旨内容而规范化的叙词,2021版主题词共有29 917个,规模越来越庞大(图1左上)。②所有主题词都按学科属性从多个角度进行划分,形成一个包括解剖学、有机体、疾病、化学物质与药物、诊疗技术与设备等16个大类、层级最深达13级的等级结构体系,等级关系不断增加(图1右上)。③副主题词主要用于对主题词某些方面进行限定,如“新型冠状病毒肺炎”可组配副主题词“/传播”“/影像诊断”“/药物疗法”等;近年来根据副主题词在文献中的使用频次,对原有的83个副主题词进行删减、合并,最终组织为76个(图1左下)。④增补概念是对主题词的扩充,每个增补概念均与主题词建立映射关联;增补概念总数为269 775个(图1右下),分为化学物质、罕见病、联合化疗方案、有机体四类。MeSH的结构体现了受控语言与自然语言、先组式语言与后组式语言、主题聚类与学科聚类相融合的多维度、一体化构建模式,以及传统叙词表与语义网络、本体、知识图谱互兼容的网状发展趋势。

1.2 《系统化临床医学术语集》

《系统化临床医学术语集》(Systematized Nomenclature of Medicine—Clinical Terms, SNOMED CT)前身为SNOMED,由美国病理学会于1974年推出第一版。2002年1月,SNOMED与《临床术语集》第三版(Clinical Terms Version 3,CTV3)经过融合、扩充和重组,形成SNOMED CT[3]。历经50余年发展,SNOMED CT从最初以病理学为基础的4个轴,逐渐发展为目前的19个层级体系,其用途从支持病理学术语的分类检索演变为信息化时代临床医学数据与信息的汇聚处理、交互共享[4]。

SNOMED CT以概念为中心对疾病、临床发现、解剖结构、有机体、物质、药品、物理对象、物理力、标本等健康记录中的临床医学信息进行组织,概念表、描述表和语义关系表是SNOMED CT最基本的组成单元(图2)。①概念表收录了有明确临床内涵的医学概念规范名称,2020年1月31日发布的SNOMED CT国际版包含352 567个概念。②描述表收集了各个概念的不同表达形式(即术语,1 520 905条),包括完全指定名称(FSN)、概念优选名称(PT)和同义词(SY)三种类型;由概念优选名称和概念语义类型组成的完全指定名称是对概念含义的唯一明确的描述,每个概念在每种语言或方言中只能有一个FSN,以“概念名称(语义类型)”的形式可以有效区分概念在不同语义環境下表示的不同含义;另外一种描述是同义词,一个概念可能有多个同义词。③语义关系表揭示了临床医学概念之间的相互关联;关系类型(或属性)用于表示来源概念和目标概念之间的关联,共有264种类型(绝大部分具有方向性);其中,直接上下位关系(is_a)将所有概念分为19大类,从一般到具体按等级结构进行属分组织。

自2007年4月,国际卫生术语标准开发组织(IHTSDO)负责SNOMED CT的维护、发布、知识产权等事宜[5]。2019年SNOMED CT International Global Patient Set (GPS) 免费版本问世,面向非会员国以数据交换为目的开放。目前,SNOMED CT在每年1月31日和7月31日发布国际版,在4月30日和10月31日发布国际西班牙语版,其他衍生及扩展产品也有相对固定的发布时间。SNOMED CT已在80多个国家开展了不同程度的应用,其中美国、英国、加拿大、新西兰和澳大利亚等将其作为国家认可标准。主要应用包括:①用于医学术语标准化建设,服务于各国信息化战略;②用于健康数据互操作;③用于临床数据提取和标准化描述。

1.3 《国际疾病分类法》

《国际疾病分类法》(International Classification of Diseases,ICD)是世界卫生组织依据疾病特征对疾病进行编码的分类表,1900年出版第1版,至今已有120余年的发展史[6]。ICD定义了疾病、精神障碍、损伤及其他相关的健康状况,覆盖了疾病领域的各个方面,用于对具有正规诊断的疾病和损伤的分类统计。ICD是临床疾病诊断规范命名的主要参考依据,全面用于病案首页疾病诊断书写与编码、医疗信息化系统的疾病诊断分类和病案统计,以及其他健康问题的记录,便于临床信息系统或流行病学监控。

ICD为全世界范围的医疗卫生从业人员、医疗领域科研人员、健康信息管理人员和政府决策者等广泛应用,已经被翻译为汉语、阿拉伯语、英语、法语、俄语等50余种语言。此外,ICD系列根据地域特色和临床需求衍生出临床医学、肿瘤学、牙科和口腔学等相关的修订版本,以及《国际功能、残疾和健康分类》(International Classification of Functioning, Disability and Health,ICF)[7]、《国际健康干预分类》(International Classification of Health Interventions, ICHI)等系列分类法。

2018年6月18日,WHO发布了ICD第11版,将于2022年1月1日正式生效;该修订版使用索引将医学词汇和对应编码链接,最终形成了死亡率和发病率的联合线性化数据统计、参考指南、打印索引三卷内容。ICD-11收录术语量约为3.2万,分为28个章节(图3),编码数约为5万,编码范围从1A00.00至ZZ9Z.ZZ,编码方式为“预组配+后组式”。2018年12月,WHO-FIC中国合作中心、中华医学会及有关医疗机构编译ICD-11中文版,要求各类医疗机构自2019年3月1日起全面使用ICD-11中文版进行疾病分类和编码,包括卫生健康行政部门的医疗机构绩效考核、质量控制与评价等医疗数据统计分析工作。2019年5月,ICD-11首次纳入以中医药为代表、兼顾日韩传统医学内容的传统医学病症章节(图3红色部分)[8],有助于我国建立与国际标准相衔接并体现中国中医药卫生信息服务的分类统计工具。

1.4 《观测指标标识符逻辑命名与编码系统》

《观测指标标识符逻辑命名与编码系统》(Logical Observation Identifiers Names and Codes,LOINC)于1994年由美国雷根斯基夫研究院(U.S. Regenstrief Institute)编制[9],是一套用于在ASTM E1238、HL7(Health Level Seven)等医疗信息交换标准中标识实验室和临床检测项目的通用标识符,旨在促进临床医疗护理、结局管理、医疗索赔及研究等临床实验室结果的交换、汇聚、集成与共享。自1996年4月首次在互联网发布,LOINC代码就受到各方欢迎,经过20余年发展,LOINC用户遍布全球。截至2021年3月23日,共有来自184个国家/地区的113 747名注册用户。美国、澳大利亚、巴西、加拿大、塞浦路斯、爱沙尼亚、法国、德国、墨西哥、蒙古、荷兰等国采用LOINC作为国家标准,LOINC作为国际医学信息学标准的作用和价值得到进一步体现。

LOINC标识符分为实验室部分和临床部分,涵盖了血液学、血清学、生命体征、放射医学报告、肿瘤登记码等各类观测指标。截至2021年3月,LOINC已累计更新70余次,最新版LOINC 2.69版包括术语94 895条,其中实验室部分术语57 817条、临床部分术语37 078条。LOINC中,每个标准“观测指标”均有一个标准编码和标准命名,此外还有简称、详称、同义词、注释等信息;标准命名即LOINC全称,基于“六轴”概念表达式生成[10],有5或6个主要組成部分,包括成分/分析物名称、检查检验属性类型、时间特征、体系/样本类型、标尺及检测方法(图4)。LOINC始终坚持免费开放政策,现已翻译成德语、法语、汉语等10余种语言;其中,中文版由白求恩国际医院张林翻译,并于2015年被美国国立医学图书馆《一体化医学语言系统》收录。现今,LOINC被多国医院、医疗系统、临床实验室、电子健康档案开发者和软件开发商等广泛采用,在推动临床实验结果电子信息交换标准化方面发挥积极作用。

1.5 《肿瘤学叙词表》

《肿瘤学叙词表》(NCI thesaurus,NCIt)是一部由美国国立癌症研究所(U.S. National Cancer Institute, NCI)于1999年开始构建并维护至今的标准化生物医学受控术语表和本体[11];最初用于NCI的语义基础设施和各类信息系统,逐渐成为国际认可的生物医学编码和参考标准,被各类公立和私立机构广泛采纳应用。

NCIt以概念为基础,涵盖临床医学、转化医学、基础医学、公共卫生和组织管理等专题的术语;这些术语主要来自《临床数据交换标准协会术语表》(Clinical Data Interchange Standards Consortium Terminology,CDISCT)、《美国食品和药品管理术语表》(U.S. Food and Drug Administration Terminology,FDA)、《联邦药物治疗术语表》(Federal Medication Terminologies,FMT)、《美国国立处方药项目委员会术语表》(U.S. National Council for Prescription Drug Programs Terminology,NCPDP)及美国国立儿童健康和人类发育研究所(U.S. National Institute of Child Health and Human Development, NICHD)的《儿科术语表》(NICHD Pediatric Terminology)。NCIt每个概念都有其独特而稳定的含义,被赋予永久唯一的概念代码,并提供优选名称、同义词、定义、外部源代码等多种信息[12]。2021年2月22日发布的最新版21.02d,收录了151 717个概念、387 651条术语、1 900 596条语义关系(绝大部分带有方向性)、119 804条文本定义。所有概念通过上下位等级关系形成树状结构,并分成19个语义类别(kind),具体类名及含义见图5;类间排他、互不交叉,每个概念都属于并且只属于一个类。NCIt由学科内容专家小组对其更新维护,更新周期约1个月,平均每次增加700个新概念,并根据需要对现有概念进行合并、拆分、停用等其他审定。

作为一部独立的受控术语表,NCIt不仅能够很好地支持美国国立癌症研究所官网资源组织、生物医学信息网格、癌症通用本体描述环境等应用,而且广泛用于美国FDA、临床数据交换标准协会等机构的数据标注、数据库检索、数据挖掘、文本索引和自然语言处理,为众多的服务提供了生物医学术语支撑,构建了语义基础架构。

2 特色优势分析

MeSH、SNOMED CT、ICD、LOINC和NCIt等国际主流的医学术语体系的编制机构、发展历史(初始版本年份)、内容结构、语义丰富度、开放程度、各国翻译版本(包括是否有中译版)与主要应用等基本情况,详见表1。

此外,对上述国际医学术语体系的特色与优势进行分析归纳包括如下几个方面:

①权威机构长期投入和持续更新维护。医学术语体系建设是一项规模大、任务重、周期长的系统工程,美国国立医学图书馆等政府机构及世界卫生组织国际分类家族,通过长期、多渠道的资金支持和政策驱动[13],为MeSH、SNOMED CT、ICD等医学术语体系持续半个多世纪的制定、更新、维护和组织实施等建设提供了强有力的保障。

②为特定的应用需求而构建,编制目标明确,通过应用实践又反过来验证和完善术语内容质量。以MeSH为例,官网将其用途简洁地描述为生物医学及健康相关信息的标引、编目及检索。为实现这一目标,美国国立医学图书馆将MeSH主题词、副主题词的主要来源选定为PubMed文献、图书编目等数据库中的常见生物医学概念;MeSH一直应用于PubMed文献的主题标引及在线服务系统的主题检索,并根据主题词及副主题词在文献中的实际使用频次适当地调整和增补,这些落地实践为MeSH词表的实时更新与补充完善提供了重要依据。

③开放程度高,易获取,可获得全球多地的应用反馈与本地化改进,术语体系的科学性与全面性得到大幅提升。例如ICD,从1983年第一版发布以来,一直鼓励全球各地的广泛应用,至今已被译成50余种版本,成为国际疾病数据交流与交叉比较的共同语言。然而,各国在应用中陆续发现了一些问题,包括不同语种对同一疾病的表述问题、地域性疾病的归类问题(如多发于我国的克山病,在ICD中无法归类)、需要补充传统医学疾病等;为了适应本国现状,大多对ICD术语进行了本地化改造与调整,共同努力使其成为符合科学性和分类学原则的分类法家族。

④语义关系丰富,便于扩展为机器可理解的本体等知识服务类术语标准。医学术语标准化是卫生信息标准化的重要基础,同时具有丰富语义关系的医学术语标准可为医学人工智能系统与应用提供医学领域知识。SNOMED CT、NCIt等术语标准采用术语—概念—语义关系的三级模式进行内容构建,概念间的语义关系类型可达上百种,能够清晰地表达临床医学、基础研究及电子病历中的信息与知识;而且具备良好的可扩展性,代表了面向语义网及人工智能的本体表示语言的最新发展趋势[14]。

纵观上述MeSH、SNOMED CT、ICD、LOINC和NCIt的发展进程,未来国际医学术语体系将呈现四大发展趋势:规模体量越来越庞大,等级体系越来越细化,语义关系越来越丰富,知识服务能力越来越强大。

3 结语

深入推进中文医学术语标准化、一体化、语义化发展,已成为我国卫生信息标准化与智慧医疗进程中的重点内容。MeSH、SNOMED CT、ICD、LOINC、NCIt等国际主流医学术语体系在内容结构、应用实践等方面的新发展,及其长期投入与持续更新、应用目标明确及不断验证反馈、开放易获取与各国本地化建设协调推进、语义关系丰富等优势特色,为我国医学术语发展给予了很多启示,特别是SNOMED CT、LOINC、NCIt等与临床医学密切相关的医学术语体系对建设中文临床医学术语体系的借鉴作用。然而,鉴于建设具有自主知识产权的中文医学术语体系的复杂性与专业性,在借鉴国内外现有成果和经验的基础上,探索出一条适合中国国情、科学、可行的医学术语标准化之路,仍任重道远,需集思广益,携手前行。

参考文献

[1] MESH HOME[EB/OL].[2021-03-31].https://www.nlm.nih.gov/mesh/meshhome.html.

[2] 李晓瑛,李军莲,邓盼盼,等.医学知识组织系统构建研究与应用实践[J].数字图书馆论坛,2020(7):30-35.

[3] SNOMED CT HOME[EB/OL].[2021-03-31].https://www.snomed.org.

[4] 夏光辉,李军莲,李晓瑛,等.SNOMED CT概念关系表达与语义检索[J].医学信息学杂志,2017,38(3):49-53,58.

[5] BODENREIDER O, CORNET R, VREEMAN D J. Recent Developments in Clinical Terminologies:SNOMED CT, LOINC, and RxNorm[J]. Yearb Med Inform, 2018,27(1):129-139.

[6] ICD HOME[EB/OL].[2021-03-31].https://www.cdc.gov/nchs/icd/icd10.html.

[7] 燕鐵斌,章马兰,于佳妮,等.国际功能、残疾和健康分类(ICF)专家共识[J].中国康复医学杂志,2021,36(1):4-9.

[8] 周强,李明,董全伟,等.《国际疾病分类第十一次修订本(ICD-11)》传统医学章节与新版中医国家标准的比较研究[J/OL].[2021-04-04].上海中医药杂志,2021,55(5):1-6,23.https://doi.org/10.16305/j.1007-1334.2021.2101030.

[9] LOINC HOME[EB/OL].[2021-03-31].https://loinc.org.

[10] 李丹亚,李军莲.医学知识组织系统:术语与编码[M].北京:科学出版社,2019.

[11] NCI THESAURUS HOME[EB/OL].[2021-03-31].https://ncit.nci.nih.gov/ncitbrowser.

[12] 冀玉静.NCIt数据结构及构建模式分析[J].医学信息学杂志,2012,33(6):45-49.

[13] 钱庆,吴思竹.美国国立医学图书馆医学术语标准建设及启示[J].中国数字医学,2014,9(1):15-18,22.

[14] 李丹亚,李军莲,李晓瑛,等.医学知识组织体系发展现状及研究重点[J].数字图书馆论坛, 2012(12):12-20.

作者简介:

任慧玲(1971—),女,研究馆员,管理学硕士,现任中国医学科学院医学信息研究所信息资源与知识服务中心主任、中华医学会医学信息学分会委员、全国图书馆标准化技术委员会委员、国家科技图书文献中心资源建设工作组成员。长期从事医学知识组织及资源建设相关研究,先后主持参与中国医学科学院创新工程项目“中文临床医学术语系统构建研究”、科技创新2030重大项目“新一代人工智能”课题“中文医学术语体系构建”、国家科技图书文献中心专项任务等20余项,担任《医学信息学杂志》等核心期刊审稿专家。

通讯作者:

李晓瑛(1982—),女,副研究员,计算机科学与技术专业博士,就职于中国医学科学院医学信息研究所,主持参与国家社会科学基金青年项目、一般项目等相关课题10余项,担任JMIR、IEEE Access、《医学信息学杂志》等国内外核心期刊审稿人。通信方式:lixiaoying@imicams.ac.cn。