APP下载

基于特征词突变的信息整合领域主题演化研究

2014-09-26王莉亚

图书情报研究 2014年3期
关键词:特征词阶段领域

王莉亚

(河南工程学院管理工程学院 郑州 451191)

·情报分析·

基于特征词突变的信息整合领域主题演化研究

王莉亚

(河南工程学院管理工程学院郑州451191)

以Web of Science数据库2000~2012年收录的信息整合领域的论文为数据源,采用突变点识别方法获取论文集合中文献特征词词频突变点,以此为基础将信息整合领域研究的发展过程划分为4个阶段:基础期、平稳期、活跃期和发展期,对各个阶段的研究主题内容进行全面、客观地分析。

突变点 信息整合 主题演化 主题研究

1 基于关键词突变的主题演化阶段划分原理及方法

主题演化研究是学科领域研究的重要内容。而主题演化的发展阶段是主题演化研究中首先需要搞清楚的一个问题,只有对所要研究的主题所处的发展阶段有一个准确的划分,才能对学科主题的发展状况做出正确的判断。目前,关于主题演化发展阶段的划分并没有统一标准,不同学者从各自的研究角度和研究目的出发对主题演化的发展阶段提出了各种划分方法。目前常用的是定长方法,即通常按照2年、5年或10年为单位来划分演化过程。这种方法操作比较简单,但是其缺点是分段长度过大,主题内容特征为许多特征的汇合;另一方面,如果样本长度过小,在不同讨论时间内,主题内容差异不大,很难得出正确结论。同时主题内容比较集中的时间段可能被强行分散开到不同的时间段内,另外,主题内容差异比较大的文献可能被分到同一固定长度的时间段内,使得该时间段内的主题内容趋向一致,因而不能准确地衡量主题内容变化趋势。综上所述,采用上述方法进行主题阶段划分缺乏系统严密的数据理论基础,有一定的主观性。

因此,本文提出基于关键词突变点的主题演化阶段的思想,从而更有效地确定阶段划分界限。其中突变词是指以文献关键词为分析对象,根据词频年度分布情况,利用时间序列中突变点识别方法检测出发生突变的时间点,那么在发生突变的当年该关键词就称为突变关键词,简称为突变词。同时把这种关键词发生突变的现象称为关键词突变,简称为突变。将信息熵变化原理和有序聚类方法相结合,从而对反映文献关键词词频突变情况进行分析,并以此为基础划分研究主题演化过程,即把发生关键词突变次数变化特征比较接近的时间段划分为一段,把出现突变点数量较多和较少的相邻段很好的分开来考虑。

具体来讲,将突变点识别引入主题特征分析中,来描述主题演变特点。设相关文献集合为Ti(i=1,2,...,n),从Ti中抽取每个文档的关键词,则可将文献集合转换为关键词集合Wj(j=1,2,...,q),那么特征词集合在时间集tm(m=1,2,...,p)上的特征矩阵为:

其中wij(i=1,2,...,p;j=1,2,...,q)表示词Wj在时间tm上出现的频次。根据突变点识别方法[1],可以获得特征词集合Wj(j=1,2,...,q)在不同时间段tm(m=1,2,...p)上发生突变的时间点集合为tj(τ)(2<τ

2 “信息整合”领域研究实证分析

2.1 数据源及其预处理

笔者于2013年10月20日以“information integration”为主题词在web of science数据库进行检索,数据年限设置为(2000~2012年),共获得1 494篇文献,其中选择具有较高研究价值的“article”和“review”这两种文献类型作为研究对象,共计881篇文献。另外,由于文本后续选择的需要,又删除了32篇没有“abstract”的文献,最终获得有效分析文献849篇。

考虑到目前文献关键词在表征文献内容方面存在的问题,本文利用RefViz软件对数据进行预处理,从文献的标题和摘要中抽取特征词汇来表征文献内容。然后通过手工方法对其结果进行修正,最终选出代表信息整合研究主题发展的483个特征词汇,以此为样本对信息整合研究领域进行演化研究。

2.2 特征词突变点识别及其演化阶段划分

采用主题领域中关键词突变程度计算和处理方法,获得特征词突变程度年度分布,最终特征词有效突变点的年度分布图,如图1所示。由于突变点的特征相对于前后两个时间段均有变化,而2000和2012年作为研究时间的起始结点,均无法判断其突变情况,因此无法利用突变点识别方法来计算其突变点数量, 图1中的时间范围是2001~2011年。

图1 2001~2011年“信息整合”主题特征词突变点年度分布图

从突变点的数量上来看,2001年、2005年、2006年和2007年的突变点比较多,这显示了这4年中该领域研究主题内容变化可能比较大,或者可能是该领域主题研究的转折点。本文将信息整合研究主题过程划分为4个阶段,2000~2003年基础期、2004年平稳期、2005~2007年活跃期、2008~2012年发展期。

2.3 不同阶段主题内容特征分析

2.3.1 基础期(2000~2003年) 该时期的重点内容是信息整合的应用研究,其应用领域主要包括3个方面,首先是神经系统领域脑信息整合研究,例如大脑活化过程中脑半球的非对称性和分类信息的整合[2];行动规划过程中皮质层上目标信息和部位信息的整合[3]。其次是各种信息系统中的应用,例如地理信息系统中构建新的城市交通数据的整合、分析和可视化[4]等。第三是系统间的整合研究,例如整合全球定位系统和地理信息系统用于交通阻塞研究[5]。随着应用研究范围的不断拓展,该研究领域的一些核心问题已经进入人们的研究视野。但是关于整合理论模型的研究比较少,只有一篇文献提出构建信息整合理论模型来完善信息系统整合。

2.3.2 平稳期(2004年) 这个阶段研究主要是理论方法的深入研究和理论应用的拓展。具体来其研究内容主要包括如下4个方面:①神经系统科学领域脑信息整合研究。例如,多模式神经导航系统中整合功能信息;人脑中听觉信息整合等。②信息整合应用研究。首先是信息整合在供应链管理中的应用研究[6-7],例如供应链建设中的系统整合与信息共享;通过B2B网络中心在供应链管理中进行信息整合;供应链整合和管理中的信息系统;评价供应链信息系统中的整合;在供应链中通过信息技术进行合作与整合。其次是信息整合在其他领域的应用研究,例如遥感、地理信息系统、全球定位系统和电信的整合;应急管理中远程数据和地理信息系统技术整合研究。③信息整合类别学习研究[8]。主要包括延迟反馈对于基于规则和信息整合的分类学习的影响;基于规则的类别学习和基于信息整合的类别学习在反馈处理过程中的比较研究。④信息整合方法、模型和系统本身的研究[9-10]。主要包括信息整合中流技术的应用;信息整合的发展阶段——复用、融合和自动复用研究;利用元数据和本体进行网络数据整合和信息共享。此阶段的研究一方面是理论方法的深入研究,主要表现为在脑信息整合、信息整合方法及其应用研究,同时,在信息整合方法研究中引入元数据和本体,流技术等。另一方面理论应用的拓展集中体现在信息整合思想在类别学习中的应用研究。

2.3.3 活跃期(2005~2007年) 活跃期的典型特点是研究内容、研究主题、研究角度等的分散化。从研究内容上来看,首先研究内容不断丰富,研究角度差异性比较大。例如,针对异质信息整合这个问题上,2005年主要采用无监督抽取和分类方法[11],而2006年则是从融合的角度出发,并将本体[12]引入其中。其次,这个阶段信息整合的应用研究不断扩展,无论是在脑科学领域、还是政府网站、或系统发展,信息整合的应用研究逐步受到高度重视,这预示着信息整合的应用研究正在向多方向、多角度发展。同时,还值得一提的像信息整合类别学习,虽然相关的研究比较少,但是也非常值得关注。这3年该领域主题研究主要内容,如表1所示。

表1 2005~2007年信息整合研究主题内容

2.3.4 发展期(2008~2012年) 主题研究范围比较大,主要是对研究内容和方法的拓展。具体来讲,近5年信息整合主题研究内容主要包括以下5个方面:①神经科学中脑信息整合研究。主要是与大脑功能和意识相关的信息整合研究。②不同信息系统的整合。地理信息系统整合[13];农业信息系统整合[14];全球供应链中面向过程的整合系统[15]。③信息整合类别学习研究。主要是信息整合类别学习评价研究以及多个系统的类别学习[16-17]。④信息整合方法研究。主要包括基于本体的语义web整合[18],异构数据源的信息整合,面向决策支持的web服务架构[19]。⑤信息整合思想应用研究。同时整合对象也从数据整合、信息整合向知识整合转移,面向数据库的知识整合成为研究的热点。

从主题研究内容来看,基础期虽然研究内容比较单一,但是却表明了该领域研究的重点——信息整合的应用研究,为后期几个阶段的主题研究奠定基础;在平稳期主要体现在理论方法的深入研究和应用的拓展;活跃期延续了平稳期的特点,信息整合的应用研究不断扩展,同时研究内容不断丰富,研究角度的差异性较大;发展期的研究范围比较大,重点是研究内容和方法的拓展。

3 结语

从文献信息计量的角度看,文献数量在一定意义上可以反映出某一学科发展状况和研究水平,而某一时期文献中所包含词语的量的变化,又从侧面体现学科发展各个阶段的特点。本文首先提出了基于信息熵的时间序列中突变点识别方法,然后将此方法应用到文献计量领域的特征词分析中,提出了基于关键词突变点的主题演化阶段的思想,从理论上讲,这种划分形式有利于考虑影响因素作用的大小,提高了划分精度。最后,在划分演化阶段的基础上,根据不同阶段特征词词频突变点检测结果,结合不同阶段所包含的文献,对信息整合主题文献的内容进行分析。通过该实证分析表明了基于特征词词频突变点的主题演化阶段划分可以更客观、更公正、更全面地反映一个学科领域的发展过程。

[1] 王莉亚. 基于离群数据的主题演化研究[D]. 北京: 中国科学院研究生院, 2012: 40-41.

[2] Koivisto M, Laine M. Hemispheric asymmetries in activation and integration of categorical information[J]. Laterality, 2000, 5(1): 1-21.

[3] Hoshi E,Tanji J. Integration of target and body-part information in the premotor cortex when planning action[J]. Nature, 2000, 408(6811): 466-470.

[4] Claramunt C, Jiang B, Bargiela A. A new framework for the integration, analysis and visualisation of urban traffic data within geographic information systems[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 167-184.

[5] Taylor M A P, Woolley J E,Zito R. Integration of the global positioning system and geographical information systems for traffic congestion studies[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 257-285.

[6] Gunasekaran A,Ngai E W T. Information systems in supply chain integration and management[J]. European Journal of Operational Research, 2004, 159(2): 269-295.

[7] Themistocleous M, Irani Z,Love P E D. Evaluating the integration of supply chain information systems: A case study[J]. European Journal of Operational Research, 2004, 159(2): 393-405.

[8] Maddox W T, Ashby F G, Ing A D, et al. Disrupting feedback processing interferes with rule-based but not information-integration category learning[J]. Memory & Cognition, 2004, 32(4): 582-591.

[9] Motro A, Berlin J,Anokhin P. Multiplex, fusionplex and autoplex - Three generations of information integration[J]. Sigmod Record, 2004, 33(4): 51-57.

[10] Sato H, Kanai A. A technical survey of data integration and information sharing using knowledge representation on the Web[J]. Ieice Transactions on Information and Systems, 2004, E87-D(11): 2435-2445.

[11] Ben Miled Z, Li N H,Bukhres O. BACIIS: Biological and chemical information integration system[J]. Journal of Database Management, 2005, 16(3): 72-85.

[12] Cho J, Han S, Kim H. Meta-ontology for automated information integration of parts libraries[J]. Computer-Aided Design, 2006, 38(7): 713-725.

[13] Kamal M M, Passmore P J,Shepherd I D H. Integration of geographic information system and RADARSAT synthetic aperture radar data using a self-organizing map network as compensation for real-time ground data in automatic image classification[J]. Journal of Applied Remote Sensing, 2010(4): 1-13.

[14] Gutierrez-Garcia J O, Zaragoza-Rios J A,Ramos-Corchado F.F. Intergration of Agricultural Information Systems Assisted by Knowledge[J]. Intelligent Automation and Soft Computing, 2010, 16(6): 913-922.

[15] Thun J H. Angles of Intergration: And Empirical Analysis of the Alignment of Internt-based Information Technolgy and Global Supply Chain Integration[J]. Journal of Supply Chain Management, 2010, 46(2): 30-44.

[16] Helie S, Waldschmidt J G, Ashby F G. Automaticity in rule-based and information-integration categorization[J]. Attention Perception & Psychophysics, 2010, 72(4): 1013-1031.

[17] Vandist K, De Schryver M, Rosseel Y. Semisupervised category learning: The impact of feedback in learning the information-integration task[J]. Attention Perception & Psychophysics, 2009, 71(2): 328-341.

[18] Lu Y M, Liu D. An Ontological Meta-Model Framework for Implementation of IEC 61968[J]. Przeglad Elektrotechniczny, 2012, 88(11A): 4.

[19] Yang J J, Li J B, Deng X Z,et al. A web services-based approach to develop a networked information integration service platform for gear enterprise[J]. Journal of Intelligent Manufacturing, 2012, 23(5): 1721-1732.

(责任编校 田丽丽)

ThemeMutationintheFieldofInformationIntegration:AStudyBasedon

Mutation

Wang Liya

School of Management Engineering, Henan Institute of Engineering, Zhengzhou 451191, China

Employing the mutation detection method, this study has analyzed the literature in the field of information integration, which were collected in the Web of Science database from 2000 to 2012. Based on the analysis, the research process in the field of information integration is divided into four stages: fundamental stage, stable stage, run-in stage and development stage. Research topics at each stage are comprehensively and objectively elucidated.

mutation point; information integration; theme evolution; theme research

G353.1

*本文系河南省教育厅人文社会科学研究项目“学科主题演进深度挖掘研究”(项目编号:2013-QN-362)的研究成果之一

王莉亚,女,1979年生,博士,讲师,发表论文17篇,出版论著1部。

猜你喜欢

特征词阶段领域
关于基础教育阶段实验教学的几点看法
基于类信息的TF-IDF权重分析与改进①
2020 IT领域大事记
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
领域·对峙
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
面向文本分类的特征词选取方法研究与改进
大热的O2O三个阶段,你在哪?
新常态下推动多层次多领域依法治理初探