APP下载

生物医学文本挖掘研究热点分析

2016-03-23,,

中华医学图书情报杂志 2016年2期
关键词:生物医学主题词工具

,,

随着生物医学科学的飞速发展,生物医学领域的实验数据和文献数量急剧增加。常用的检索方式通常会消耗大量时间,并且需要对检索词进行仔细筛选及恰当组合。文本挖掘是通过计算机发现以前未知的新信息,即在现有文献资源中自动提取相关信息,并揭示另外隐含的意义[1]。利用文本挖掘能够有效地从生物医学数据库中提取相关知识进行研究进而提出新的实验假设,得到新的科学结论,因此文本挖掘在生物科学领域具有很大的应用价值。以检索词“text mining”在 PubMed检索(2015年 6月 9日)相关文献,结果显示文献累积数量随着年代的分布呈现典型的指数分布,说明文本挖掘在生物医学领域中正处在飞速发展中,是当前的研究热点。

基于以上原因,我们运用共词分析的方法,对 2000年1月至 2015年 3月MEDLINE数据库收录的有关文本挖掘在生物医学领域应用的论文中的高频主题词进行了共现聚类分析,总结出当前国际上文本挖掘在生物医学领域应用的研究热点,并对其进行分析。

1 资料与方法

数据样本为 MEDLINE数据库收录的生物医学领域文本挖掘研究文献。MEDLINE是国际上生物医学领域的权威数据库,迄今收录文献达2 400万篇,通过该数据库可以检测到含有确切关键词的文献[2]。采用检索策略为:“text mining”[tiab] AND ((“2000/01/01”[PDAT] :“2015/03/31”[PDAT]) AND medline[sb]),共得到 879篇相关文献记录。

以 xml格式将全部相关文献记录套录下来,运用文献计量学统计分析软件BICOMB[3]抽取和统计以上文献中的主要主题词及副主题词及每个词在以上全部文献中的出现频次,按照它们的出现频次由高到低进行排序,选取其中出现频次高于13次的 40个主题词/副主题词作为高频主题词(表1)。

表1 PubMed中与文本挖掘有关的高频主题词/副主题词(n=40,频次≥13)

由于这些文献的篇名或摘要中含有“文本挖掘”被检出,且被收录于 MEDLINE,其主要内容都与生物医学文本挖掘有关,因此得到的主题词和副主题词可反映文本挖掘在生物医学领域中的应用情况。

对所有高频主题词做进一步处理,统计每一个高频词在文献中的出现情况,形成高频词-文献矩阵,输入到gCLUTO软件,采用系统聚类法对所得相似矩阵进行聚类分析,聚类分析的结果可以反映出这些高频词之间的亲疏关系,分析这些高频主题词能够获得生物医学领域文本挖掘研究的热点。聚类结果如图1所示,其中横轴代表 PubMed数据库中文献,纵轴代表进行聚类的主题词/副主题词。如果两词聚集到一起的距离短,说明它们的关系越密切[4]。

首先,根据每一类高频主题词的含义以及这些主题词之间的语义关系,总结出每一类主题词所代表的研究热点,即当前医学领域文本挖掘研究的热点。例如,主题词 Natural Language Processing(自然语言处理)和 Periodicals as Topic(期刊作为主题)距离较近,关系密切,首先聚成一类;Artificial Intelligence(人工智能)再与前面两个词合成一类,这一类再与 MEDLINE组成的一类再聚成一大类,以此类推。通过分析这些主题词的语义关系就能得出它们所代表的类团含义标签,综合各个类别的类标签可以得出当前医学领域文本挖掘研究的热点。其次,利用 gCLUTO软件计算各类成员对聚类贡献率的指标(描述度Descriptive和区分度 Descriminating),选取对每一类形成贡献最大的来源文献作为表示该类内容的类标签文献,通过文献内容进一步阐释该研究方向的具体内容。

2 结果与分析

通过对近2000-2015年 MEDLINE收录的生物医学领域文本挖掘研究文献的高频主题词和副主题词进行共现聚类分析(图1),我们将该领域的研究热点分为以下3大方面,14个主题。

图1 文本挖掘研究高频主题词的共现聚类图

2.1 文本挖掘的基本技术

2.1.1 关于基因名称识别的研究

该类所含的主题词有 Genes;Terminology as Topics;Vocabulary, Controlled。研究内容如根据词表对基因符号消歧,评价生物医学命名体识别的各种标准[5-8],整合多种资源以规范基因名称等 。

2.1.2 文本分类中高维特征的处理问题

该类包含Artificial Intelligence,Algorithms,Pattern Recognition,Automated/methods等主题词。研究内容如利用Turku系统增强生物医学事件抽取的新的特征选择策略,Swanson的 ABC研究中定量计算 B词的模型,如何把文本和手工构建通路联系起来[9-12]。

2.1.3 文本挖掘中标引注释问题

该类包括的主题词有 Natural Language Processing;Information Storage and Retrieval/methods;Periodicals as Topic;Databases, Bibliographic;Abstracting and Indexing as Topic/methods。如用于生物文本挖掘语义注释的语料库GENIA,对文章中图例进行标引和分类的系统,从全文中抽取生物学信息的工具。以上都涉及到文本挖掘语料的库建设,需要事先注释好的语料库[13-16]。

2.1.4 文本挖掘初级阶段的辅助工具

该类包括Database Management Systems,MEDLINE,User-Computer Interface等主题词。研究内容如通过 Web服务进行文本处理的 Whatizit系统,对 MEDLINE/PubMed文献记录自动挖掘的辅助性工具 MedKit,文本中自动标记基因、蛋白质和其他实体名字的开源工具 ABNER,支持生物本体开发与分析的 API:ONTO-PERL。其中,基于 Web文本分析工具Whatizit是一种基于服务器的,用于分析文献(如任何科学出版物或 MEDLINE摘要)中所含信息的模块,它可以辨认术语并将其与生物医学数据库(如 UniProtKb/Swiss-Prot)中相应的条目和基因本体概念链接起来[17-19]。

2.2 文本挖掘在生物信息学研究中的应用

2.2.1 系统生物学的知识管理

涉及的主题词有 Systems Biology/methods;Gene Expression Profiling/methods,Knowledge Bases。研究内容如以高通量 siRNA监测作为生物系统扰动和与复合物监测并存靶向通路的辨认的方法应用于转化医学的通用和可视化驱动的框架,药物基因组学领域中的关系抽取,用于分析、整合和可视化人类转录组学[20-23]、蛋白质组学和代谢组学的 Web系统生物学工具。

2.2.2 生物学网络:蛋白质相互作用网络的构建和分析

涉及的主题词有Protein Interaction Mapping/methods、Models,Biological和Signal Transduction/physiology。研究内容如利用文本挖掘的结果来构建PPI网络,生物网络推理和分析信息融合平台 BioCAD;还有学者开发出基于网络-上下文的文献检索系统(NcDocReSy)作为 Cytoscape的插件,可以通过间接相关的文献帮助用户手工构建网络,该系统结合了用生物学网络检索文献和根据网络拓扑来排序检索到的文献[24-27]。

2.2.3 通过文本挖掘获得蛋白质相互作用网络图,并对该图中节点间的关系进行语义上的注释

涉及Proteins/metabolism,Protein Interaction Mapping,Semantics等主题词。研究内容如利用上下文模型和句子格式对基因提名加以规范并提取相互作用,把文献挖掘和从各种来源的相互作用证据结合起来构建鼠蛋白相互作用网络,语言特征在从 PubMed中抽取相互作用时的有用程度,以及从文献中抽取人类蛋白质因果关系的挖掘工具 PPInter Finder[28-31]。

2.2.4 利用文本挖掘进行的蛋白质功能研究

涉及的主题词有Databases, Protein;Proteins/chemistry。研究内容如基于Web的蛋白质序列功能注释工具 ProFat,利用图双字相关自动抽取蛋白质点突变,PPI与文本挖掘集成用于蛋白质功能预测;用整合后的全局相关评分改善 PPI对排序[32-35]等。

2.2.5 文本挖掘方法在生物信息学中应用的概述

它涉及到 Data Mining /methods;Computational Biology /methods;Databases, Genetic等主题词。文本挖掘是生物信息学的重要研究方法之一,有助于构建基因数据库和知识库。研究内容如从自文本中抽取事实的研究,文本挖掘是否能用成倍提高手工构建基因产品的效率。在 OMIM中检索临床纲要的 CSI-OMIM系统,利用 PharmGKB训练文本挖掘方法以在药物基因组研究中确认潜在基因靶标的研究[36-39]。

2.2.6 围绕 PubMed的挖掘系统和工具

涉及到的主题词有 Software,Internet,PubMed。本类所研究系统和工具与文献挖掘的辅助工具相似,都是基于文献数据库开发的工具,但是辅助工具关注的是 MEDLINE数据库,而本类则关注其网络版,因此更具有网络应用的性质。众多工具不再是辅助性的文本处理工具,而是针对 PubMed的检索和挖掘工具,尤其是基于 Web的 PubMed检索工具,如GeneView,PPInterFinder等。与挖掘有关的工具则有书目分析工具,如Pipeline Pilot就是一种基于 Web的 PubMed书目分析工具等,可以进行交互式的文本挖掘[31,40-42]。

以上 6个主题也可以归为一个大类,即在生物信息学研究中的应用,侧重系统生物学的挖掘分析,即通过蛋白质相互作用网络的分析来预测蛋白质的功能。这是文本挖掘当前在生物医学应用的主流,也是文本挖掘在生物医学应用中的重中之重。

2.3 文本挖掘在事实抽取中的应用

2.3.1 如何从文本中抽取事实(关系),即从文献中发现医学知识的方法学研究

涉及 Databases, Factual;Publications;Biomedical Research等主题词。研究内容如利用文本挖掘给文献打分和排序,以改善毒理基因组学比较数据库中药物-基因-疾病关系的建立;利用用户定制的支持互操作格式的 Web服务来处理生物学文献;无监督文本挖掘方法抽取生物医学文献中的关系等[43-46]。

2.3.2 利用文本挖掘帮助文献检索和整理,满足用户信息需求的研究

涉及主题词有 Computational Biology,Information Storage and Retrieval。文本挖掘应用于生物信息学的信息检索,如利用生物医学本体改善生物医学文献聚类效果,利用计算机跟踪知识与内容,利用文本挖掘开展人类重要疾病的整合基因组分析,药物开发中的信息需求与文本挖掘的作用等[47-50]。

2.3.3 利用文本挖掘方法(尤其是文献计量学方法)构建药物-基因-疾病等调节网络

该类主题词有 Data Mining和Gene Regulatory Networks。研究内容如利用文本挖掘方法帮助构建 E.coli K-12菌株中 OxyR蛋白的调节作用和生长条件的数据库,文献计量学网络重建应用程序和服务器 Biblio-MetReS,比较性毒理基因组学数[51-54]据库中药物-基因-疾病网络的文本挖掘和手工构建等。

2.3.4 临床记录中各种信息(特别是时间信息)的抽取

涉及到Medical Informatics /methods,Electronic Health Records等主题词。该研究内容如从临床记录中抽取时间关系而生成患者时间轴,结合使用规则和机器学习方法从患者出院小结中抽取时间关系的 TEMPTING系统,从临床文本中自动抽取巴士指数的研究,对瑞士语临床文本的线索断言分类,为 pyConTextSwe系统开发词汇表等[55-58]。

以上 4类的共同特征是偏重从文本中抽取事实,尤其是与药物和毒理(药物副作用)有关的事实抽取方法的研究,同时也涉及到基因等信息。

3 结论

通过对 14个主题的高频主题词进行梳理,可以看到文本挖掘在生物医学领域应用主要在 3个方面。一是文本挖掘的基本技术研究。研究内容从语料库建设中的标引注释问题到文本分类中的特征提取,一直到这些技术在基因名称的命名体识别中的应用,最后涉及到可以在命名体识别等基本技术上帮助文本挖掘的工具。文本挖掘基本技术研究未来的发展应更加注重采用规范化和标准化的工具。

二是文本挖掘在生物信息学领域里的应用。该研究方向侧重于将挖掘方法应用到系统生物学分析中,如在转化医学、药物基因组学、人类转录组学、蛋白质组学和代谢组学等领域中的应用,利用免费而权威的PubMed文献数据库开发挖掘系统和工具。其中通过蛋白质相互作用网络分析来预测蛋白质的功能是当前文本挖掘在生物医学领域应用中的重中之重。另外,对生物学网络(尤其是蛋白质相互作用PPI网络)的属性分析已经成为一种新的生长点。其中通过对文本挖掘获得文献网络,由此获得蛋白质功能的信息,并将其与生物整合起来的研究也是值得注意的新动向。

三是文本挖掘在相关事实抽取中的应用。文本挖掘也常用于从文本中抽取事实,尤其是与药物、毒理(药物副作用)、疾病有关的事实抽取方法的研究,同时也涉及到基因信息研究。包括对从文献中发现医学知识的具体技术的探讨,如构建各种生物医学相关的数据库和知识库,Web服务器处理文献;利用文本挖掘技术帮助用户文献检索和整理文献也是当前引起广泛关注的服务。此外,在文本挖掘算法上比较突出的方向是利用文本挖掘方法以及文献计量学方法构建药物-基因-疾病等调节网络,以及有关临床记录中各种信息(特别是时间信息)的抽取问题。

综上所述,生物医学文本挖掘研究热点主要集中在文本挖掘基本方法和技术研究、生物信息学中的应用和在药物相关研究中的应用,未来发展方向应当是以词表标准、复杂网络分析等方法为主。

猜你喜欢

生物医学主题词工具
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
灵长类生物医学前沿探索中的伦理思考
关键词的提取与确定
波比的工具
波比的工具
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
准备工具:步骤:
国外生物医学文献获取的技术工具:述评与启示
“巧用”工具
LED光源在生物医学中的应用分析