MTI自动文献标引系统研究*

2015-03-13李晓瑛夏光辉孙海霞

医学信息学杂志 2015年3期

关键词：标引生物医学主题词

李晓瑛夏光辉孙海霞

(中国医学科学院医学信息研究所北京 100020)

MTI自动文献标引系统研究*

李晓瑛夏光辉孙海霞

(中国医学科学院医学信息研究所北京 100020)

MTI是一个知名的生物医学文献自动标引系统，其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究，试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。

MTI；自动标引；MeSH；UMLS； MetaMap

1 引言

文献标引简称标引，是指根据文献内容特征赋于文献检索标识的过程。对检索系统而言，标引是从检索系统中查出文献的关键词和依据，其质量和效率直接决定了整个文献系统的质量和速度以及标引结果的标全率和标准率[1]。传统网络环境下，标引工作大都依靠受过良好培训的标引员来完成。随着大数据时代的到来，研究者更多地探讨自动标引算法，以期逐渐替代繁重的人工标引工作，如基于人工智能的自动标引、基于反馈规则学习的自动标引等[2]。MTI(Medical Text Indexer)是由美国国立医学图书馆(National Library of Medicine, NLM)研发的生物医学文献自动标引系统[3]，于2002年在PubMed数据库中正式投入使用，极大地提升了生物医学文献自动标引效果。本文拟从处理过程、基本原理、应用效果等方面对MTI进行全面研究，试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。

2 基本原理

2.1 概述

MTI通过从文献的标题及摘要中发现MeSH主题词，最终按照权重生成有序的标引术语列表。图1展示了MTI自动文献标引处理流程[4]，主要包括PhraseX分词、MetaMap映射、MeSH主题词限制法、PubMed相关文献查找法、提取MeSH主题词法、聚类共6个模块。在最后的聚类模块处理之前，MTI分别从UMLS概念及PubMed相关文献两条不同路径推荐MeSH主题词。本文将从这两条路径所涉及的处理模块着手，研究MTI实现文献自动标引的基本思路。

图1 MTI自动文献标引处理流程

2.2 路径1：从UMLS概念推荐MeSH主题词

如图1左上部分所示，从UMLS概念推荐MeSH主题词这一路径涉及PhraseX分词、MetaMap映射及MeSH主题词限制法3个处理模块。

2.2.1 PhraseX分词 PhraseX是一种分词工具，用于将文本切分成若干个名词短语，结果包括简单名词短语和复合名词短语两种。对于简单名词短语而言，PhraseX将连词、情态动词、介词、动词、逗号、句号等作为分隔符，两个分隔符之间的部分认为是名词短语；短语中的名词为核心(Head)，多个名词接连时，最右端的名词将作为核心；在含有from、of等介词的短语中，介词之后的部分认为是后置修饰词，介词之前的部分为核心。而对于复合名词短语而言，PhraseX单纯将动词作为分隔符，动词两端的部分各认为是一个复合名词短语。例如，输入“Kupffer cells from halothane-exposed guinea pigs carry rifluoroacetylated protein adducts.”后，PhraseX将输出简单名词短语“kupffer cells”、“halothane exposed guinea pigs”，“trifluoroacetylated protein adducts”以及复合名词短语“kupffer cells from halothane exposed guinea pigs”，“trifluoroacetylated protein adducts”，其中，带下划线的单词为各短语的核心。

2.2.2 MetaMap映射 MetaMap是一种将生物医学文本映射到UMLS超级叙词表，亦或从文本中发掘超级叙词表中概念的程序。目前，MetaMap已被广泛应用于信息抽取、分类、文本自动摘要生成、提问自动应答、数据挖掘、文献发现、文本理解、UMLS概念索引与检索、生物医学文献与临床医学文本的自然语言分析等领域。在MTI中，MetaMap首先利用以下3个匹配规则将各个名词短语映射到UMLS超级叙词表中的概念中：

(1)简单匹配：将名词短语精确匹配到超级叙词表中，例如将“intensive care unit”映射到“Intensive Care Units”。

(2)复合匹配：将名词短语中的部分单词或词组精确匹配到超级叙词表中，例如将“intensive care medicine”映射到超级叙词表中的两个术语“Intensive Care”，“Medicine”。

(3)部分匹配：将名词短语中的部分片段映射到超级叙词表中术语的部分片段，分为以下3种形式：第一，一般部分匹配，如将“liquid crystal thermography”映射到“Thermography”；第二，间隔部分匹配，如将“ambulatory monitoring”映射到“AMBULATORY CARDIACMONITORING”、“obstructive sleep apnea”映射到“Obstructive Apnea”；第三，过度匹配，如将“ocular complications”映射到“Postoperative Complications”。

上述各步操作匹配到的UMLS超级叙词表术语，称为候选集；接着，MetaMap将利用向心度(Centrality)、变异度(Variation)、覆盖度(Coverage)和内聚度(Cohesiveness)4个参数，从这些候选集中推荐出最优的UMLS超级叙词表术语。每个参数的取值在0(最弱匹配)和1(最强匹配)之间。覆盖度和内聚度可获得两倍于向心度和变异度的权重。最终，各个候选术语的上述4个参数评估结果的加权平均值将被规一化到0～1 000之内，0表示根本没有匹配，1 000表示忽略大小写的一致匹配。这4个参数的计算依据为：

(1)向心度：检查候选术语是否包含原名词短语的核心；例如，对于名词短语“ocular complications”来说，候选术语“Complications”的向心度参数值为1，而“Eye”的向心度参数值为0。

(2)变异度：指候选术语与原名词短语变异程度。计算这个参数，首先需要确定变异距离D。变异距离是在产生候选术语过程中，每一步产生的距离值的总和，见表1；变异距离决定了候选术语的变异度，其计算公式为：V=4/(D+4)。例如对名词短语“ocular complications”来说，候选术语“Eye”的变异距离D是2，则V=2/3；“Complications”的变异距离是0，则V=1。

表1 变异距离

(3)覆盖度：评估原名词短语中的单词在候选术语的包含程度。具体计算时，首先计算出候选术语和原名词短语中相同单词的个数，称为跨度。而覆盖度是跨度分别与候选术语长度、原名词短语长度的比值的加权平均值，但这两个比值的权重不同，前者是后者的2倍。例如，对于“ocular complications”与候选术语“Eye”或“Complications”而言，跨度都是1，覆盖度值均为[2/3/×(1/1)+ 1/3×(1/2)]，即5/6。

(4)内聚度：评估原名词短语中相邻单词组成的片段在候选术语的包含程度。计算方法与覆盖度类似，区别在于跨度指候选术语和原名词短语相同相邻单词的个数。

2.2.3 MeSH主题词限制法 MeSH主题词限制法通过同义词、概念间关系及类型3种途径，将UMLS术语映射到MeSH主题词。这两种途径可联合使用形成一种算法，以最大化特征性(选择的MeSH主题词之间是相关的)及灵敏性(未映射到MeSH主题词的UMLS术语仅为少数)。处理步骤分为以下4步：

(1)MeSH术语是UMLS原概念的同义词，它们在超级叙词表中共享同一个概念唯一标识符CUI；如果此步满足，将不执行以下步骤。

(2)相关表达式(Associated Expression, ATX)是UMLS原概念的一种表达方式，可理解为表达式树(Expression Tree)，树上的叶子是概念(MeSH术语)，节点是逻辑算子或主题词到副主题词关系标识符。如图2所示，概念“Mumps pancreatitis”映射到以下的MeSH主题词：“Mumps”与“Pancreatitis”(主题词)，“complication”与“etiology”(副主题词)；其中，主题词(MH)受副主题词(SH)的限定(QB)；而两个MH/SH表达式通过逻辑算子(AND)连接起来。

图2 表示概念“Mumps pancreatitis”的表达式树

(3)与UMLS原概念层次/等级相关的概念，可选作MeSH主题词，具体处理时通过一种映射算法实现。这种映射算法可视为构建家族图的过程，其中原概念是初始点(种子)；之后，将从图中选择最近的MeSH术语。而除了原概念之外的概念将作为建立分支的初始点。当从原概念作为种子而构建的图中选不出任何MeSH术语时，子概念或下位概念可结合起来作为图的种子；从这种方式构建的图中仍选不出MeSH术语时，以原概念的兄弟姐妹(同位)概念开始重新建图。处理过程包括两步：第1步，构建原概念的家族图。对于指定概念而言，其家族可看作一个有向图。从种子开始，增加其直接上位及广义概念；接着，新增加概念的直接上位及广义概念将递归地加入到图中，直到没有新概念可以再增加。第2步，从家族图中选择MeSH术语。首先，选择图中的祖先作为MeSH术语；其次，为了防止MeSH术语只来自种子的一个分支，已选中的MeSH术语必须来自种子的所有祖先；最后，去除已选中的MeSH术语中互相之间有上下位关系的术语。至此，这些选中的MeSH术语与原概念之间具有最近的语义关系。图3是“Vein of neck, NOS”的家族图，MeSH术语用双线框表示；选中的MeSH术语为“Neck”与“Veins”;而箭头指向直接上位或广义概念。“Head”与“Veins”到种子的距离相等，但“Head”为另一个选中术语“Neck”的祖先，所以应去除。

图3 “Vein of neck, NOS”家族图

(4)最后，如果从祖先中选不出任何的MeSH术语，与原概念非等级相关(其它相关RO)的概念也可作为MeSH术语；再将前3步逐一应用到这些相关概念中，以选出MeSH术语。

2.3 路径2：从PubMed相关文献推荐MeSH主题词

如图1右上部分所示，从PubMed相关文献推荐MeSH主题词这一路径涉及PubMed相关文献查找法及提取MeSH主题词法两个处理模块。

2.3.1 PubMed相关文献查找法 PubMed相关文献查找法预期在PubMed数据库中查找与当前给定文献相似的其他文献。文献的相似度一般通过文献中共同出现的单词及文献长度来度量。本处理中，首先排除了310个常见的、毫无价值的停用词，之后将使用词干提取技术抽取来自文献题目与摘要中的单词并将它们都看作普通文本单词，其出现频次按实际出现次数计算。对于来自题目中的单词，将其出现频率增加1倍，以使它们具有较大的局部权重；对于同时为MeSH术语的单词，如果该单词(即术语)为MeSH副主题词，那么将其出现频次也增加1倍；对于带星号的MeSH术语(星号表示文章的主题概念)，忽略星号。而这些单词就组成了文献的代表。具体处理步骤包括以下两步：

(1)得到可代表文献的单词(术语)之后，为两篇文献中同时出现的术语分配权重，而此权重为全局权重及局部权重的乘积，其中全局权重用于权衡术语在数据库(多篇文献)中的重要性，对于出现频率较小的术语，全局权重较大。这种分法是合理的，因为如果一个术语在很多篇文献中都出现，则说明该术语只能反映文献的很少主题信息；另一方面，如果一个术语只出现在多达百万篇文献中的100篇里，那么该术语对限定感兴趣的文献集将至关重要；而对于只在10篇文章中出现的术语而言，该术语在提供这10篇文章主题信息方面的作用便更大，所以为该术语分配更高的权重。局部权重用于衡量术语在某篇特定文献中的重要性，计算公式为Log(n+1)，此处n为该术语在文献中的出现频次。

(2)两篇文献的相似度S即为它们所有共同术语的权重之和。计算公式为：

(1)

其中，LocalW(t1)、LocalW(t2)分别为两篇文献p1、p2中共同出现的术语t，对应于两篇文献中的局部权重；而GlobalW(t)为术语t在PubMed数据库中的全局权重。目前PubMed数据库中文献之间的相似度都是事先计算好的,所以在用户选择具体的文献时，系统只需要调用相似度列表，以提高效率。

2.3.2 提取MeSH主题词法提取MeSH主题词法的目标是提取与当前处理文献最相似的20篇文献中出现的MeSH主题词，作为推荐术语。处理过程包括如下几步：

(1)从上步处理中获得一个HTML格式的列表，其中记录了20篇PubMed文献的相似度值(已排序)及作者、PubMed的唯一编号PUID。

(2)对每篇文献，提取其相应的相似度值与文章PUID。

(3)调用NCBI文本工具服务器，以便从PubMed数据库中检出每篇文献。

(4)提取每篇文章中MeSH主题词。

(5)判断MeSH主题词是否为主要主题词(IM)。

(6)将每个主题词与对应文章的相似度值及UI(唯一标识符)结合起来。

(7)按相似度值将所有MeSH主题词排序，并形成且输出最终的列表；其中，每篇文献之间用“***”隔开，见图4。

图4 MTI所推荐的MeSH主题词及出处列表

2.4 聚类

聚类的目标是将上步产生的MeSH主题词聚集成一个最终所推荐标引术语的有序列表。通常，对于既有题目又有摘要的文献，MTI默认显示25个推荐标引术语；而对于只有题目的文献，MTI默认只显示前10个。聚类算法通过术语权重及排列公式实现。

(1)权重计算公式。代表对产生该MeSH主题词的整个过程的置信度，计算公式为：

(2)

此处，i代表每个被推荐的MeSH主题词；PathWeight指对该MeSH主题词产生途径的置信度(confidence)；例如，相比MeSH主题词限制法，提取MeSH主题词法具有较高的置信度，因为所推荐的术语是直接从文章中提取的。MapScore与NavScore分别代表选择UMLS术语、从UMLS术语映射到MeSH主题词的置信度。

(2)排序公式。代表该MeSH主题词与其他选中的MeSH主题词的语义相关性，计算公式为：

(3)

此处，j、k分别代表除第i个MeSH主题词之外其他被推荐的MeSH主题词，其中，Title是一个常量，用于表示与该MeSH主题词对应的名词短语是否出现在文献题目中；COT表示两个选中的MeSH主题词是否为PubMed的共现主题词，REL表示两个MeSH主题词是否处于家族图的同一层级(同为双亲或同位)。这些参数均可根据具体应用做相应调整。

2.5 应用情况

自正式投入使用以来，MTI经过了多次改进与优化，包括引入机器学习等方法，自动标引效果也持续平稳增长。表2是近几年MTI的自动标引术语与人工标引术语的比较结果[5]，其中最后一列是2008年与2012年各项指标的差值。表中数值反映了2008-2012年，标全率和标准率均得到提升，尤其是标准率，增加了23.4%。

表2 近几年MTI自动标引效果统计值

3 结论

从20世纪末开始，国内学者陆续开始构建中文自动文献标引系统，其中中国医学科学院医学信息研究所研发的中文生物医学文献主题标引系统是代表性的研究成果之一。中文生物医学文献主题标引系统与MTI的工作模式一致，均为先由计算机自动标引，最后人工进行审核确认；但中文生物医学文献主题标引系统的性能仍可持续优化与提升。就MTI自动文献标引系统实现原理来看，笔者认为优化中文自动文献标引系统可重点从以下方面开展相关研究和积累：开展中文同义词发现算法、用户输入的自由词与关键词自动映射等关键技术研究工作，加快中文一体化医学语言系统CUMLS、中文医学主题词表CMeSH等基础知识组织系统建设，为中文生物医学文献主题概念和概念关系的准确提取奠定基础。优化中文词性标注、分词等自然语言处理技术，为提升中文生物医学文本概念提取效率提供理论依据与技术保障。充分利用现有人工标引文献或经过人工干涉的标引文献，以及标引人员经验，开展计算机自动文献标引系统的优化研究。

1 孙海霞, 李军莲，李丹亚, 等.MTI副主题词自动组配标引机制解析[J]. 医学信息学杂志, 2011，32(5):74-77.

2 肖晓旦.生物医学文献主题标引[M].长沙：湖南科学技术出版社，2005：322-326.

3 NLM Medical Text Indexer (MTI)[EB/OL]. [2014-03-07]. http://ii.nlm.nih.gov/MTI/.

4 James G M, Antonio J J, Alan R A. The NLM Medical Text Indexer System for Indexing Biomedical Literature[EB/OL]. [2014-03-24]. http://ii.nlm.nih.gov/Publications/Papers/MTI_System_Description_Expanded_2013_Accessible.pdf.

5 Interactive Medical Text Indexer (MTI)[EB/OL]. [2014-03-24]. http://ii.nlm.nih.gov/Interactive/mti.shtml.

关于《医学信息学杂志》启用“科技期刊学术不端文献检测系统”的启事

为了提高编辑部对于学术不端文献的辨别能力，端正学风，维护作者权益，《医学信息学杂志》已正式启用“科技期刊学术不端文献检测系统”，对来稿进行逐篇检查。该系统以《中国学术文献网络出版总库》为全文比对数据库，可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献。如查出作者所投稿件存在上述学术不端行为，本刊将立即做退稿处理并予以警告。希望广大作者在论文撰写中保持严谨、谨慎、端正的态度，自觉抵制任何有损学术声誉的行为。

《医学信息学杂志》编辑部

Research on Medical Text Indexer

LIXiao-ying,XIAGuang-hui,SUNHai-xia,

InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China

MTI is a well-known biomedical text indexer, providing indexing recommendations based on the Medical Subject Headings (MeSH). The paper focuses on the details of the process flow, basic principle and application performance of MTI, which will provide valuable references for constructing high-quality Chinese biomedical text indexer.

Medical Text Indexer(MTI); Automatic indexing; MeSH; Unified Medical Language System (UMLS); MetaMap

2014-05-06

李晓瑛，博士，助理研究员，发表论文20余篇。

国家科技支撑计划“信息资源自动处理、智能检索与STKOS应用服务集成”(项目编号：2011BAH10B05)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.03.012