APP下载

基于多源数据知识融合方法的研究前沿识别

2019-08-23谭晓李辉

现代情报 2019年8期

谭晓 李辉

关键词:研究前沿;多源数据;知识融合方法;多元关系;主题识别;知识内容

科学技术是推动现代社会生产力发展的重要因素和主导力量,是国家创新发展的重要内容。科学技术发展全球化趋势日益明显,速度加快,各个国家相互渗透,相互影响;许多科学技术在微观领域的突破会带动科学技术向前突破。会聚技术两两会聚、多种会聚,交叉融合。随着科技的不断发展,引导未来科技发展的科学技术是什么?怎样识别和追踪科技发展尤其是科技前沿及其走势?科技重点主题是哪些?对这些问题的回答是科技政策与发展战略研究的重点内容之一,也是辅助战略决策的重要研究内容。研究前沿代表特定领域的前沿研究领域.它们不仅提供了对当前重点和未来趋势的预见,而且为政府决策提供了关键指标。研究前沿探测更加注重尽早发现、识别科技创新的新兴主题,并评估其发展趋势,支撑科技决策。研究前沿是科技研究中最新、最先进、最有发展潜力的研究主题和研究领域,代表了科学技术发展的重点、难点和发展趋势,具有前瞻性。在此背景下,前沿识别成为国际各领域科研人员竞相研究的科学重点。

广义的研究前沿包括了引起世界科学家高度关注的对未解的科学问题所做的种种探索并取得的重大突破和进步;面对未解决的问题、难点问题,目前正在进行的科技前沿的探索:当前或有限时间范围内的前沿方向。这些都蕴含在不同科技文献载体中。广义上的研究前沿识别打破了传统计量意义上的研究前沿(Research Front)的界定,不仅关注具有高被引特征的单一对象实体和单一的静态关系,例如论文的引用关系、关键词的共现关系;更加关注不同实体间的动态数据关联发现、科学研究的全生命周期,需要客观、科学的模型系统描述整合影响科学研究前沿的因素,快速、准确、全面地揭示出当前或未来某段时期内最具发展潜力的、处于爆发前萌芽状态的领域或主题。特别是当前的大数据环境下,承载科技创新知识的科技文献或者隐含科技前沿的文献:论文、专利、科技规划、基金项目、报告等数据呈现指数级增长,且均是非结构或半结构化文本,高效率的将包含的丰富语义知识和潜在关系展现,并前瞻l生的挖掘出快速变化的前沿主题和方向,有利于缩短研究周期、扩大研究影响力、帮助我国在科技创新角逐中提前部署。1国内外研究现状

面对科技创新演变的加剧和交叉融合加速的大环境,如何利用情报研究方法及其他学科方法准确识别研究前沿是获取科技战略情报的重要任务,也是决策层制定发展战略、规划研究布局的智库保障。世界范围内展开的科技前沿的探测以定性和定量方法为主,由于定性方法本身的主观性、复杂性和效率问题,在此主要围绕定量方法进行阐述。科技研究前沿探测方法前期以计量方法为主,近期随着文本挖掘技术的突破、语义技术的发展、知识图谱的提出,在围绕文本内容层面的研究随之增多,但利用多源数据实现知识融合进行科技前沿探讨的较少,正如Jefferson R…所指出:“通过将已发表的研究和專利联系起来有益于全球社会的开放式举措,我们就能描绘出纯理论的科研如何对创新系统产生影响,并发挥作用.这是绘制出‘创新地图的第一步。”目前在多源数据知识融合和研究前沿相关方面已取得的成果如下。

1.1研究前沿探测方面

1.1.1研究前沿分析框架

白如江等将研究前沿划分为引起世界科学家高度关注的对未解的科学问题所做的种种探索并取得的重大突破和进步;面对未解决的问题、难点问题,目前正在进行的科技前沿的探索;当前或有限时间范围内的前沿方向,情报来源于着眼于未来的战略规划、资助计划和立足当下的研究进展与重要任务;邢颖等以SWOT分析方法为框架,利用论文、专利、标准反映研究对象的优劣,提高了研究框架的科学性:谭宗颖描述了前沿探测的测度指标,包括反映科技活动、关系指标;张英杰认为科学前沿探测方法是一系列特征探测方法的综合.并围绕各类高频关键词和各类低频特征提出了一套方法体系,针对科学前沿探测中出现的低频现象,提出了两种探测思路.一种是基于相关离群点的理论:另一种是通过构建由主题词形成的主题网络,借鉴社会网络分析方法相关结构指标,揭示主题的前沿演变情况;张志强编著的《国际科学技术前沿报告2018》中应用了专业型、计算型、战略型、政策型和方法型“五型融合”的科技战略研究新范式,采用定量与定性结合、战略与政策结合、启示与对策结合,研究模式上采用了科技战略情报分析人员与科技领域战略专家相结合的研究方式,形成了观察各相关科技领域重大科技问题与前沿方向发展的权威报告:中科院科技战略咨询研究院和国家纳米科学中心合作的《纳米前沿分析报告》是以内容分析、文献计量、领域分析结合,通过多国研发计划对比分析,综观纳米研究的前沿分布和变化趋势。

1.1.2基于引文关系分析

主要包括基于共被引、耦合、直接引用方法。基于共被引的方法源于Price D D提出的共被引聚类分析得到的高被引文献簇能很好地表征研究前沿;之后Small H等利用共被引文献簇分析了传感器领域主题的演化过程:Garfield E提出研究前沿的主题可以通过抽取施引文献标题中词频最高的词组表示:Persson 0认为研究前沿应该是高频共被引文献簇的施引文献簇。近年来共被引方法用于探测研究前沿在情报学领域得到了广泛的实践,并做了新的演绎。王小梅等基于科学论文的共被引分析,对由ESI高被引论文聚类形成的“研究前沿”进行二次聚类形成了“研究领域”,在此基础上形成了系列的科学结构地图。

基于耦合的分析源于Glanzel w等提出的文献耦合分析可以用来识别某领域的研究前沿和核心论文。Morris S A等提出的方法,此后在文献耦合的基础上添加时间轴.绘制了研究前沿主题的演化过程。文献耦合在一定程度上克服了共被引的时滞问题,但是文献耦合是静态的.研究人员对共被引和耦合出现的缺点进行了方法改进和方法整合。Jarneving B对研究领域进行了分类和专业映射,应用两种方法进行了测试,导致了两种不同类型的论文聚合.以两种截然不同的方式描绘了研究前沿。Schiebel E应用书目耦合和共被引两种方法结合共同制作互动地图的研究前沿和知识库的研究领域。

基于直接引用源于Garfield E基于引用网络生成的知识演化图谱。Shibata N等提出了基于直接引用网络利用图论社团结构探测识别研究前沿的方法框架,随后对比了3种引用方法在识别研究前沿上的效果,并在2011年利用论文和专利数据源应用直接引用方法探测技术前沿。

1.1.3基于文本内容进行前沿探析

经历了从简单的计量到自动文本挖掘的过程,词频分析、突发词、共现分析(共词、分类共现)与前述的引文分析方法在实际研究中进行多种方法复合使用。

上述各种方法由于分析的对象仍停留在文献层面或者简单的关键词,而不是情报内容本身——知识层面或者语义层面,所以还是较为宏观。一旦实现控制单位从文献深化到知识,大量文献中包含的知识及相关信息间的关联将产生极大的知识增值。文本非相关文献的知识发现、知识元、知识图谱本体等方法随着文本挖掘技术、语义技术和知识图谱(Knowledge Graph)的出现,在前沿探测方面呈现出了新趋势。

知识元是具有完备知识表达的知识单位,是组成知识结构的基本单元,它可以是一个理论、一种方法、一条信息、一条数据,也可以是一个表示知识属性的向量或矩阵。在知识元表示方面,文庭孝等认为中文知识元最合适的表达方式是以主题为核心的主题树或主题概念地图形式。在抽取方面,温有奎等先后提出了基于创新点的知识元提取模型和基于引文链的知识元挖掘思想。冷伏海等综合运用语义标注、规则抽取以及正则表达式技术,提出了一种混合语义信息抽取方法。知识关联或知识关系是构建知识网络、形成知识增值的重要途径。高继平等认为知识元之间的关联包括隶属、交叉、共现、引用、共被引和耦合6种类型,而且知识关联带有方向性。边文越等构建包含知识元分析的科技前沿情报分析框架,通过知识元分析从微观层面揭示具体技术路线的发展变迁。化柏林提出通过过滤句子中的领域关键词形成句子描述结构,进而形成知识元的描述规则。

本体的功能体现在反映词汇的语义映射关系和语义限制:对基于某个知识组织体系的信息资源进行结构化组织;表示信息内容与知识组织体系之间的链接。谭宗颖等利用本体技术和文本聚类技术,构建了科技发展前沿信息监测与分析平台,实现了准确高效的信息获取、不同科技领域概念的组织及其相互关系的揭示、科技主题关联关系及其变化趋势的挖掘等功能。冯佳_利用本体和主题概率模型结合的方式识别前沿,以论文作为数据源,基于本体的语义角色分析,将科学前沿主题的主题词项进行概念映射,将主题词袋转换为“概念词袋”,深入挖掘概念的语义类型,对科学前沿的分析,从主题内容、语义类型、概率分布3个角度展开。

1.2多源数据知识融合发现方面

1.2.1多元关系叠加

苏娜将论文数据集的词间关系、文献耦合关系和共被引關系基于z得分进行关系融合,通过论文实体间的更多关联解析特定领域的主题结构。郭红梅等以论文作为基础文本集,利用术语表示文本关系图中的结点,术语间的关系表示边,包含共现、句法和语义术语关系。采用不同的原则将术语和术语属性以及术语间关系和关系属性分别进行叠加归并。中国农科院聚焦水稻细分领域,整合论文、专利、新闻等行业资源,构建水稻知识图谱,为科研工作者提供行业专业知识服务平台。Avila-Robinson A等实现了论文一专利在多关系呈现下的单一知识网络,在研究人员解决的问题的驱动下,采用了多种映射方法——共引、直接引和耦合网络,共被引网络用来表示智力基础,文献耦合网络表示研究前沿.同时节点颜色表示问题领域。

1.2.2多源数据主题发现

Jensen S等为了更好地表示多类实体以及实体间的关系,采用元路径方法将文献、主题词、作者、引文等属性关联起来,从不同角度呈现对象之间的关联性和相似性,并用于主题演化探索。白如江等通过对科技规划文本和基金项目数据文本两种不同数据源中蕴含的科学研究前沿主题相似度对比分析,采用新兴度和热点度两个指标,识别出新兴研究前沿主题和热点研究主题两类科学研究前沿主题。杜建等以专利引用过的高被引论文、引用科学论文的高质量专利两条路径表征创新前沿,得到的创新主题由领域专家为其进行命名。

目前多元关系融合和多源数据融合思想在科技情报分析中已有一定应用,但还存在更大的应用空间。

2存在不足

张晓林、马费成等均指出情报学要想取得突破,在微观上需要解决的问题之一是知识信息的表达和组织必须从物理层次的文献单元向认知层次的知识单元或情报单元转换。现有的科技前沿分析框架多处于宏观分析层面,多是对论文、专利的计量分析,这种分析只能描述现象和外部特征,尽管已有研究将承载知识的载体从论文扩展到专利、科技规划文本、资助项目等,但是这些多源数据的机械组合形成的实体还是割裂的.从战略情报的政策建议层面来看,以往的方法在获取新知识和在问题导向下取得解决方案,揭示现象背后的因果关联,挖掘潜在的、萌芽的前沿方向方面还是存在不足。

1)语义缺失,引文分析和词汇分析未能从科技文献的语义层面进行科技前沿识别,现有的知识表示维度低的忽略了实体间的语义关系表达,难以反映科技前沿的语义内涵及其语义理解,维度高的表示表达冗长,增加了计算机对语义内容识别的难度。深入到文本内部对科技前沿进行系统语义分析.准确识别科技前沿是当下及未来的研究趋势和重点。

2)全面性受限,采用引文方法、词汇方法、主题方法都未能准确全面地表示科技前沿的内容含义:二元组等表示方法局限于文献信息的属性和内容表示.侧重于文献资源的客观描述.是现象级的;难以通过单一面向某类型数据源的信息,全面的揭示出面向领域的前沿方向,更难以揭示的因果层面的机理:现阶段分析较多的对象是论文和专利记载科研成果的科技文献,凭已有的科技成果预测具有前瞻l生的方向,仅能代表其中的一类前沿或部分前沿。而科技规划文本和资助项目信息包含了更多远期和近期的前瞻思想信息。

3)对于识别出的前沿方向或主题,准确把握和解读必不可少,目前的方法集中于领域专家人工判读,较为耗时和主观;利用关键词或抽取的主题作为知识单元过于碎片化,脱离的语义关系,以引用文献的学科领域作为知识单元过于泛化。

3基于知识融合的前沿识别模型

3.1基于知识融合的前沿识别框架

兼顾多种承载前瞻性知识的科技文献,科技规划文本一资助项目一论文一专利,将影响科技前沿的因素及以问题为导向、构建包含动态信息的知识网络,同时,将多实体和多关系融合应用到主题关联,利用图模型的社团结构识别和clique所含信息进行主题表示:划分研究前沿类型并构建前瞻性指标体系,完成科技前沿的识别,以期更准确、高效、全面地识别科技前沿。本文给出了基于知识融合进行前沿识别的框架,如图1所示。

现有的技术前沿分析框架多是处于宏观层面分析,对论文、专利等科技产出的利用多是通过文献计量,从定量、定性展示宏观发展态势,对内容挖掘不足,文献未被充分利用。本部分提出了从宏观和微观两个方面进行前沿技术的识别和分析。

首先,通过文献计量从宏观层面展现领域技术前沿整体发展态势,揭示重要国家、机构、研究者.同时加入科技规划文本定性分析,挖掘蘊藏在发展态势背后的影响因素和驱动力。然后通过多源数据融合及内容挖掘进行微观层面技术路线的发展变迁。在微观层面研究自创新链上游至下游,包括科技规划、论文、专利、项目等多种科技数据资源的规范和集成方法.建立不同数据类型间的关联关系.利用IDA模型对文本集建模可以得到文档一主题、主题一词分布矩阵,可以挖掘出文本潜在的语义知识。形成结构-语义一共现关系融合的网络。基于该网络,利用凝聚度进行Clique社团识别,并利用TET进行社团的主题抽取。根据新颖度、交叉性、研究热度,对前沿主题进行不同的分类,形成新型前沿技术、前瞻性前沿技术以及热点前沿技术。完成微观层面前沿技术的识别。

3.2前沿识别的特征及指标体系

对于研究前沿的定义,目前没有明确的界定,近似概念有新兴趋势、新兴研究领域、新兴技术等。总结已有的概念,科技创新前沿的特征是在科技研究中最近出现、正在兴起的研究领域或主题。从前沿识别和科学问题解决的关联来看,研究前沿是对未解的科学问题、难点问题所做的种种探索并取得的重大突破和进步.其本质是在短时间内能迅速引起领域内科学家的高度关注,代表了科技发展的难点、热点与发展趋势。

如表1所示,面向多源文献进行知识融合,前瞻性方向的特征基于要测度的目标,识别对象、给出特征计算。总结的特征层面有:

计量特征,基于统计方法对对象实体的外部特征进行计量,主要是频度、数量方面的测度。

结构特征,捕捉承载科技规划、科技成果对象实体及关系形成的网络,在凝聚子群、密度与点度、中心度等方面的计算。

语义特征,科技创新的内在驱动是科学问题,面向该问题的主题的变迁测度领域知识的成熟度,同时,科学问题的解决需要多领域科技的交融。

路径特征,在时间属性上进行累积知识的演化,为新事件、新观念、新理论的突破奠定基础,在科技的发展过程中,可以通过观察它们对现有知识结构的改变进行识别。

交叉特征,一方面体现在领域交叉性,另一方面体现在主题交叉性。

突现特/新颖特征,对象实体、对象属性或特征在一个时间窗口突然出现。

基于这些特征,在前瞻性前沿方向上,结合科学问题和解决程度研究前沿可以包含热点前沿、新兴前沿、未来潜在前沿等。面向不同类型的前沿和前瞻性特征,进行量化计算,并将不同类型的前沿进行结果分析。

4展望及结论

科技研究前沿识别是多种复杂因素动态交互的决策问题,随着战略研究的不断深入,情报赋能给战略决策的科学性越来越强,支撑情报分析的多源数据、多种方法为其科学性增加了可能。在科技研究前沿识别过程中,应充分应用来自科学、技术领域的异构数据,重视跨学科研究,并将多源数据进行知识层面的融合,利用多维方法,立足于创造新知识和发展新认知的最前沿,科学、有效的识别出具有更强决策力、洞察力的科技前沿,同时形成流程化的识别系统。

在本文中,综述了前沿识别的方法,并总结了已有的方法存在的不足,针对不足给出了前沿识别框架模型及指标体系,因篇幅限制,在本文中未进行实证验证,在未来研究中.会选择几个领域应用识别框架和指标体系进行验证,并依据结果对框架和指标体系进行修正。