融合主题词-引文的知识发现：数据优化与内容可视化*

2022-10-19胡玉宁李小涛朱学芳

情报杂志 2022年10期

胡玉宁李小涛朱学芳

(1.滨州医学院医学人文研究中心烟台 264003；2.南京航空航天大学科技信息研究所南京 210016；3.南京大学信息管理学院南京 210023)

0 引言

随着科学研究进入第四范式时代，各领域科学家与计算机科学家协同研究工作需求，从科学数据中发现理论与知识，推动和丰富科学发现成为这一新型科研范式的特点[1]。知识发现作为知识情报服务的表现形式之一，旨在通过对大量信息的科学、有效、定量分析，获取和揭示相关学科或领域知识的生产与流动、离散与重组、交叉与融合特征和过程，以辅助学科领域的科学研究工作者或科研管理工作人员熟悉、掌握知识发展脉络轨迹，识别学科领域的研究热点，探测研究前沿和发展趋势，并作出科学评价以辅助决策过程[2]。鉴于知识本身的复杂系统性和学科交叉渗透的资源融合性，如果采取单一方法、单一视角进行知识发现分析，只能获取对分析对象的局部或者片面的认知。如何更加科学、全面、客观、准确地描述和揭示科学知识结构的特征和知识主题的演化规律，确保知识发现能够最大程度地回归和呈现科学研究的真实世界，成为情报人员优化和提升情报服务工作的目标和追求。图情学界近来愈发认识到多源数据融合的关键性和重要性，关于融合(又或复合、混合)方法的研究逐渐受到关注，在新方法、新技术方面进行了有益的探索和研究。但整体来看，多源数据融合方法在具体的实践中还有很多细节需要探讨，在理论探索和数据优化的方法创新方面仍有较大的提升空间。

1 相关研究进展

通过文献回顾性分析发现，图情领域已形成了以传统的文献计量学方法为发端，以科学知识图谱方法为支撑，进一步深化和突出文本挖掘和复杂网络方法的发展轨迹，科学知识图谱方法逐步向共词、共引及各种可视化技术、数据挖掘技术相融合的方向发展，未来科学知识图谱方法的发展趋势是多方法、多源数据和多数据处理方法的融合[3]。近年来，融合引文特征和内容特征的知识发现方法成为学界研究的重点，比利时研究者P.Glenisson等认为融合内容分析和引文分析的方法是一种有价值的工具，利用参考文献的信息能够进一步提高科学结构划分的准确程度[4]。比利时研究者F.Janssens等利用统计方法将获取的参考文献-文献矩阵和词-文献矩阵进行了融合，证明将引文和内容两类特征融合一起的方法提高了领域主题分类或知识结构划分的效果[5]，并利用期刊数据集对基本科学指标数据库(Essential Science Indicators，ESI)分类进行了研究[6]。国内学者张琳等基于“文本-引文”的混合聚类方法，选取了“心理学、社会学和教育学领域”用于科学结构研究，在期刊核心聚类的基础上抽取源于子类期刊文献的标题、摘要和关键词的词条进行标注，将引文信息和文献内容特征进行了融合分析[7]。韩毅等在对引文网络分析方法的整合研究进展中提到，期刊网络是对科学知识交流系统的载体化表征，参考文献则代表了相关研究内容和主题的背景知识，因此可以通过期刊网络和参考文献的交叉集合来定义一个研究领域或者专业，将引文和内容词相结合对知识结构进行细分和揭示，可以弥补二者各自的不足[8]。

以上研究为进一步深化知识发现融合分析方法的相关研究带来诸多启示，但需要关注的是，在具体的选择不同来源、不同类型数据融合后的知识网络往往数据规模庞大，大规模节点的聚类分析不仅对人类视觉系统带来较大负担，也导致数据可视化展示的质量和效果难以保证。在图情领域的相关知识图谱可视化的应用研究中，大都依赖于可视化工具本身的聚类算法，相关的参数选择和设定在很大程度上依赖专家经验的主观判别，且往往受限于特定分析对象，缺乏一定的普适性。因此，在数据预处理的环节，如何对数据集进行优化以最大程度地减少对有价值信息的折损，这是融合数据方法进行知识发现研究的重要基础和关键核心。本文通过选取两类不同的文献特征项，即文献的主题词和引文信息，通过数理方法“并行”融合，并对融合后的知识网络进行量化测度研究，以期在知识网络的数据优化、量化测度方面进行方法学的探索，为进一步提高知识发现服务的科学性、有效性提供方法学借鉴。

2 融合主题词-引文的知识发现：数据实证与案例分析

2.1 融合主题词-引文的知识发现过程解析

本文选取期刊文献的主题词和引文两种实体特征项作为数据融合的来源，图1展示了融合主题词-引文的知识发现过程。首先，实现文献主题词和引文两类特征项的数据融合过程，基于隶属关系构建两类一模知识网络，即文献-主题词关联的一模知识网络和文献-引文关联的一模知识网络，再次，基于耦合关系和矩阵转换实现主题词-引文二模知识网络的构建，第三阶段采用熵值方法定义耦合熵指数，并利用耦合熵指数对主题词-引文知识耦合系统进行量化和测度，第四阶段是选取实证案例，开展基于主题词-引文耦合熵的知识演化实证分析，包括对系统耦合因子交互作用的量化测度、识别强链接耦合因子团体，并利用可视化技术和工具绘制知识图谱，进行案例的知识可视化及量化解读(见图1)。

图1融合主题词-引文的知识发现过程图

2.2 数据采集与预处理

本文以生物医学数据库PubMed和科睿唯安WOS为基础数据源，以“乳腺小叶癌病因学”主题的文献数量906篇为原始数据集，提取引文和主题元数据分别得到了3 089种刊名简写和1 695个主题词组成的变量集合(包含4 784个变量，占据5 235 855个数据元素)。对主题词集的基础数据统计发现，词频小于10次的主题词共1 501个，占整个主题词变量集合的88.6%，频次在51-100之间的主题词占整个主题词集比例8.7%，选取频次大于10次的主题词集，同时剔除对文献内容的揭示能力相对有限的特征词，最终获取177个主题词作为进一步分析的数据集。

2.3 基于耦合熵指数的量化测度和知识演化分析

2.3.1定义耦合熵指数

由主题词集和引文刊集构成的2-模知识网络是一个知识耦合系统，系统要素包含主题词和引文期刊名称，要素之间通过共现关系形成了一个复杂交互的耦合系统，每个主题词和引文期刊之间可视作一项耦合因子。为规避混合2-模矩阵聚类分析时对耦合强度取值规模的依赖，同时为了进一步量化和测度耦合因子之间的交流和联系程度，本文基于信息熵相关理论和熵值方法，提出“耦合熵”指标，用来测度耦合因子之间的耦合强度，系统熵流来源于主题词-引文期刊这个知识耦合系统中的各项耦合因子。设主题词集V中有m个主题词，引文期刊集C中有n种期刊，由主题词和引文期刊构成的混合2-模矩阵中每个矩阵元素代表一项耦合因子，耦合强度数值表示为Xij(i=1,2,3,…,m;j=1,2,3,…,n)。那么，在指定的年度y里，对于每一项耦合因子(Vi，Cj)的耦合强度表示为(Xij,y)。

采用熵值方法进行计算应注意以下两个问题，第一，熵值方法具有一定的应用范围和限制条件，由于确定各指标数据的差异性是熵值法的核心，这就要求客观数据具有较高的准确性与完整性，因此具有完整的样本数据集是使用熵值法进行评价的前提条件，否则就无法根据各指标数据所反映的信息差异确定其熵值[9]。第二，针对于本研究的样本数据，由主题词和引文期刊构成知识耦合系统中，耦合强度数值越大，耦合因子的熵流越大，由于熵值方法要保留原始数据之间的差异性，需要对熵值进行归一化处理，归一化的方法就是除以耦合因子对最大值的对数。因此，耦合熵指数的数学计算公式可以表示为：

(1)

2.3.2融合主题词-引文知识耦合系统的知识演化分析

为了揭示和展现乳腺小叶癌案例文献的高频主题词的时间演化特征，描述和呈现主题词和引文之间的耦合交互和交叉关系，基于耦合熵指数量化呈现高频主题词集的时间演化图谱，以洞察高频词集在整个窗口的演化特征，为进一步准确探测学科知识演化主题特异词做数据准备。具体步骤如下：

a.选取主题词集，解析主题词-引文耦合二模知识网络。首先，根据前文所述，选取主题词频次大于10次的194个高频词集，剔除17个特征词，以剩余177个主题词为进一步分析的主题词数据集。其次，采用自编程序对乳腺小叶癌案例文献集六个时间窗口的主题词-引文刊名二模初始矩阵进行解析，以177个高频词组成的主题词集作为从初始矩阵析出新矩阵的行变量源，分别生成对应时间窗口的主题词-引文刊名二模子矩阵。在这个过程中，定义行变量源主题词集m={m1,m2,…,mi}，其中i={1,177}。定义时间窗口主题词-引文刊名二模初始矩阵为M= {M1,M2,…,Mi}，解析后的六个子矩阵表示为M'={M'1,M'2,…,M'j}，其中j={1,6}。定义六个子矩阵的主题词集m'={m'1a,m'2b,m'2c,m'4d,m'5e,m'6f}，其中a={1,739}，b={1,670}，c={1,565}，d={1,624}，e={1,535}，f={1,337}。子矩阵解析规则为，以2013年度子矩阵为例，若m'1a∈m，m'1a所在矩阵结构保留，m'1a￠m，m'1a所在矩阵结构消除。

b.计算耦合熵指数。为分析177个高频词组成的主题词集中，每个词符随时间进程与引文的耦合交互和交叉关系，计算每个主题词分别在六个时间窗口内的耦合熵指数，用来表示每个主题词在某年度与引文期刊耦合交互和交叉作用的程度。根据前文中对耦合熵指数的定义和数学原理，耦合熵取值范围应在0到1之间。

c.耦合熵指数分级划分。将每个主题词在六个时间窗口内的耦合熵指数的数值分布划分为六个区间，定义色阶图例规则，绘制热力图。

按照以上步骤和要求，计算得出乳腺小叶癌案例文献主题词集中177个高频主题词的年度耦合熵指数，按照频序降序排列位于前10位的主题词耦合熵指数如表1所示。为了更加直观、清晰地探测和研究177个核心主题词在整个时间窗的时序演化规律，按照时间切片对主题词的耦合熵指数进行等级划分并绘制图谱。

表1 全部时间窗主题词耦合熵指数(频序排名前10)

按照定义的耦合熵指数分级划分规则，运用热力图谱进行了可视化展示，描述和呈现了主题词和引文之间的耦合交互和交叉关系，较为直观地展示了融合主题词和引文刊名的二模知识系统的时间演化特征。

热力图是以特殊高亮的形式呈现区域特征分布的一种制图形式，在本研究中，按照定义的耦合熵指数分级划分规则，可以运用热力图谱进行可视化展示，用来直观地描述和呈现主题词和引文之间的耦合交互和交叉关系，展示融合主题词和引文刊名的二模知识系统的时间演化特征。比如，可以用2013-2018年六个时间窗口作为横坐标轴，以乳腺小叶癌主题词集中177个高频词的频序号码作为纵坐标轴，这样就能构建出一个热力图谱。具体来说，从图谱面板的横向分析，每条色阶演化图谱代表了每个主题词在六年内与引文期刊的耦合熵指数变化情况，色阶的颜色深浅程度代表了主题词-引文期刊耦合因子对之间的熵流情况。颜色强弱变换表明由主题词所表征的学科主题类别与引文期刊所映射的学科类别之间的耦合强度变化程度强弱。那么如何根据热力图中区域颜色的变化来理解它所表现出来的知识演化特征呢？

如果区域的颜色较深，就表明主题词所表征的学科主题类别与引文期刊所映射的学科类别耦合程度较强，在共同揭示学科主题和表征科学知识结构方面吻合度较高，具有较高的一致性，二者形成的学科组合就代表了该研究领域较为成熟和稳定的学科子类和知识结构。图谱中颜色分布不均匀的区域就表明了主题词所表征的学科主题类别与引文期刊所映射的学科类别耦合程度随时间进度呈现不同程度的波动情况，说明主题词和引文期刊共同揭示学科主题和表征科学知识结构的一致性存在差异和分化现象，这可能预示着学科主题类别正处于演化过程，包括存在一定程度的突变、转向、交叉等特征，以及逐渐形成新的、稳定的主题。从图谱面板纵向分析，可以了解各年度的热词分布情况。比如，可以用白色的色阶表示某个主题词在相应年度中没有出现，那么结合横轴的时间演化进程就可以得知，从白色到渐进色的转变就能够表明了一个主题词逐渐成为研究热点，进入稳定的知识结构的过程，相反的，从渐进色转变为白色，表明一个学科研究主题的逐渐衰落和消亡过程。

综合上文所述，耦合熵指数越大，表明主题词所表征的学科主题类别与引文期刊所映射的学科类别耦合程度越强，在共同揭示学科主题和表征科学知识结构方面吻合度越高，具有较高耦合熵指数的主题词-刊名耦合因子对就代表了该研究领域较为成熟和稳定的学科子类和知识结构。对于学科知识演化分析研究而言，那些具有潜在突变性的耦合因子对更加具有揭示潜在研究前沿、探测科学知识结构的功能，对这部分突变性的耦合因子对的识别和分析更加具有情报分析价值。因此，考虑到对学科新兴主题探测和知识结构动态描述的情报分析需求，应重点关注识别和捕捉学科知识演化中的突变主题。

2.4 基于主题词-引文耦合熵的内容可视化

对于一个独立的主题词而言，其耦合熵指数在时间维度上的变化体现了该主题词与所有刊名耦合因子对耦合程度的变化规律，表明了由主题词所表征的学科主题类别与引文期刊所映射的学科类别之间的耦合程度。对于两个或多个主题词而言，耦合熵指数的数据离散程度体现了不同主题词与刊名耦合因子对耦合程度的差异状况，表明了由主题词所表征的学科主题类别与引文期刊所映射的学科类别共同揭示学科主题结构一致性水平。其中，耦合熵指数的离散程度较大表明相关耦合因子对共同揭示的学科主题和知识结构一致性水平较低。从知识演化角度分析，这种具有突变性的耦合因子对可能表征和揭示了相关学科主题和知识结构的突变、转向、交叉和融合。那么，如何衡量和识别学科知识演化过程中具有潜在突变性的耦合因子对呢？

2.4.1耦合熵指数的数据离散程度分析：突变性耦合因子对的初步识别

a.基于离散系数的耦合熵指数离散程度描述。数据的离散程度与集中趋势是统计学中描述数据分布的两个特征，离散程度反映的是各变量值远离其中心值的程度，本文选取离散系数对主题词耦合熵指数的数据离散程度进行描述和分析，以实现突变性耦合因子对的初步识别，乳腺小叶癌案例的177个主题词集耦合熵指数的统计指标量化数据如表2所示。

表2 乳腺小叶癌案例主题词耦合熵指数相关统计指标量化一览表(部分展示)

表2展示了乳腺小叶癌案例主题词集中15个主题词耦合熵指数的相关统计指标量化数据。将主题词按照耦合熵指数离散系数大小排序，并定义V(r)为离散系数的秩序。在选取的15个主题词中，1-10号主题词离散系数秩序也相应位居前十，在177个高频词集中的频序f(r)分布在{139,175}之间，这表明离散系数较大的主题词可能较为集中地分布在词集中的较低频次序段范围。但同时要注意到以下现象，11-13号主题词离散系数秩序分别为52、58、61，在177个高频词集中的频序f(r)分别为33、46、47。14-15号主题词离散系数秩序分别为129、138，在177个高频词集中的频序f(r)分别为154、176。从11-15号主题词离散系数秩序与所在词集的频序分布情况，可知某些具有较高离散系数秩序的主题词在词集中同样具有较高的频序，某些具有较低离散系数秩序的主题词在词集中的频序也较低。

从主题词耦合熵指数离散系数秩序和主题词集频序分布的情况，带给我们这样的启示和思考：基于离散系数衡量主题词-引文刊名耦合熵指数的变异程度，虽然可以衡量不同主题词耦合熵指数的数据离散程度，能够识别出一些具有潜在突变性的耦合因子对，比如发现了诸如序号1-10号这类离散系数较大的主题词集中地分布在词集中的较低频次序段范围，但是不能很好的解释“某些具有较高离散系数秩序的主题词在词集中同样具有较高的频序(如11-13号)”，“某些具有较低离散系数秩序的主题词在词集中的频序也较低(如14-15号)”这两种“数据失灵”的情况。序号11-13号所代表的一类主题词，本身属于词集高频词汇，虽然离散系数绝对值较大，但反映了其突变的相对差异较小。而那些本身分布在频序相对较低的主题词，虽然离散系数绝对值较小，但反映了其突变的相对差异较大。可见，主题词-引文刊名耦合因子对是否具有潜在突变性，不仅与离散系数有关，还与主题词在词集的频域分布有关。因此，对全面、精准识别潜在突变性耦合因子而言，离散系数并不是一个理想、稳定的指标，频序是一个不容忽视的影响因素。

b. 突变系数：一个有效识别突变性耦合因子对的测量指标。为解决离散系数识别潜在突变性耦合因子对时“数据失灵”的情况，本文提出“突变系数”并进行如下定义：突变系数CM(Coefficient of Mutation)为主题词词频频序与主题词耦合熵指数离散系数秩序的比值。数学表达式为：

(2)

由数学表达式可以看出，CM是个非零值。若f(r)>V(r)，则CM>1，表明主题词的耦合熵指数离散系数越大，在词集频域分布中越是靠近低频区域，突变系数越大，耦合因子对具有潜在突变性的可能性越大。若f(r)

按照突变系数的计算方法，计算乳腺小叶癌案例的177个主题词的突变系数，有77个主题词的突变系数在1-10之间，占词集的43.5%。突变系数大于1的主题词共92个，占词集比例大约为52%。根据突变系数的定义，系数取值大于1作为判定是否具有潜在突变性的临界值，因此，系数取值大于1的主题词及其相应引文刊名即是通过突变系数识别得出的具有潜在突变性的耦合因子对。表3列举了突变系数排名前15的主题词集列表，从主题词所属学科类别来看，主要涵盖研究技术(流行病学相关研究设计和方法)、遗传学过程(基因表达调控、遗传结构)、心理生理学、肿瘤、指示剂和试剂、治疗学、信息科学等多学科主题。

表3 乳腺小叶癌案例高突变系数主题词集列表(排名前15)

根据突变系数所识别的由92个主题词及其相应引文刊名组成的具有潜在突变性的耦合因子对，分别析出乳腺小叶癌案例的主题词-引文刊名耦合二模矩阵。相关矩阵信息如表4所示，可以看出，2013年度的矩阵规模最大，数据元素数据为87 740个。

表4 突变性耦合因子对(主题词-刊名)矩阵基本信息表

2.4.2融合主题词-引文的乳腺小叶癌案例学科知识的可视化呈现

通过突变系数有效识别突变性耦合因子对(主题词-刊名)矩阵，基于获取的不同时间窗的主题词-刊名耦合二模矩阵，作为学科知识可视化的基本数据源。表5呈现了部分2013-2018年主题词-引文刊名突变性耦合因子对组成的10×10的矩阵列表。知识网络的“模”是指节点的集合，模数则指网络中所包含节点集合类型的种数。在2-模网中，不同于1-模网“因果性”分析的思路，它提供了一种“交互”的视角，凸显双向交互作用，这种研究方式是沟通现象与本质、变化与动力的桥梁[10]，启示我们要通过关注节点之间“关系”的角度进行知识网络分析。

在可视化过程中，设置图谱中圆形节点为主题词，方形节点为期刊，两种节点间的连线表述主题词与期刊间的耦合强度，耦合强度越高，连线越粗，选取知识图谱工具Netdraw采用K-core提取网络中最核心的区域。图2展示了2013-2018年六年时间窗乳腺小叶癌病因学研究的静态知识图谱，也可以按照时间分年度呈现知识图谱，形成的知识图谱是基于融合主题词-刊名2-模耦合网络，图3呈现了2018年乳腺小叶癌病因学方面的知识图谱，通过分析，可以发现融合主题词-刊名的2-模知识网络呈现以下特点：

表5 2013-2018年突变性耦合因子对(主题词-引文刊名)二模矩阵(10×10)

图2 乳腺小叶癌案例融合主题词-刊名高耦合矩阵的知识图谱(2013-2018年)

图3 乳腺小叶癌案例融合主题词-刊名高耦合矩阵的知识图谱(2018年)

a.图谱中存在以主题词为中心和以期刊名称为中心的两种不同类型聚类分布。以期刊名称为中心的聚类较多，以主题词为中心的聚类较少，两个类型的聚类分布在图谱中呈现错落交叉，具有高耦合强度的期刊和主题词之间形成了线条较粗的链接。

b.图谱中存在“连接桥”性质的节点。关系网络中的“桥(bridge)”用来描述和界定两点之间存在这样的关系：如果去掉该关系连接，整个网络将分割成为两个独立的子网络结构，即两个子网络结构代表的群体之间仅通过唯一关系相连接。在现实的网络中，桥往往是信息的通道，作为资源交换的关节点，能够控制资源的传输，具有重要的意义。“桥”属于网络结构中弱关系的一种表现形式，这种弱关系的重要性主要体现为在不同的群体、网络、成员之间建立了纽带关系，搭建了信息传输的通道，可以使更大的网络达到结构上的凝聚性。网络结构中的强关系往往存在于群体、网络结构的内部，因此将一个网络中的不同群体、子网络、成员凝结在一起的关系类型主要是弱关系[11]。如图4呈现的2018年度知识图谱中就存在“J CLIN ONCOL”“Radiotherapy, Adjuvant”“Computational Biology”的桥节点。期刊类型的桥节点表示相应的期刊是网络中的重要信息传播枢纽，不同的主题词通过期刊桥节点连接在一起，表示与该期刊相连的期刊-主题词组合共同组成了以该期刊为中心的学科主题融合群，显示出学科融合的趋势。主题词类型的桥节点表示相应的主题词是网络中的重要信息传播枢纽，不同的期刊刊名通过主题词桥节点连接在一起，表示与该主题词相连的主题词-期刊刊名组合共同组成了以该主题词为中心的学科主题交叉群，显示出学科交叉扩散的趋势。关注具有连接桥性质的节点，能够在一定程度上了解学科融合和交叉发展的趋势。

2.5 结果的专家反馈和评估

为验证和评价本文提出的融合主题词-引文的知识发现方法在揭示科学知识结构和知识主题演化规律方面的效果，本研究运用专家访谈法，采取面对面访谈、电话和电子邮件等途径，选取6位国内三甲医院的乳腺肿瘤方面的临床专家，进行专家访谈。专家意见表明，通过2013—2018年检索的有关期刊、主题词的分析，基本符合目前乳腺癌临床研究的发展趋势。本研究案例乳腺小叶癌病因学知识演化分析图谱显示基本涵盖了乳腺肿瘤领域的动态进展，目前乳腺肿瘤研究领域的重点在肿瘤干细胞研究、免疫治疗、肿瘤微环境、肿瘤遗传、治疗抵抗，寻找新的治疗靶点和开发靶向治疗药物等方面，相关研究已经从早期的流行病学层面的病因学延伸到了基因组学层面，对于治疗的药物也从化学药物往针对于特定突变基因的靶向药物方向发展，提示了人们对疾病的认识及治疗更上了一个新的台阶，也为今后的科研和临床治疗带来一定启示。

3 结语和展望

本文构建了融合主题词-引文的知识发现理论模型，提出耦合熵指数的概念，对主题词-引文知识耦合系统进行量化测度，选取乳腺小叶癌案例开展了基于主题词-引文耦合熵的演化分析，提出一个有效识别突变性耦合因子对的测量指标——突变系数。研究发现，耦合熵指数可作为2-模知识耦合系统的量化测度指标，突变系数可有效识别具有潜在突变性的耦合因子对，两项指标对数据的优化处理能有效降低2-模知识耦合网络的复杂性；具有较高耦合熵指数的主题词-刊名耦合因子对代表了较为成熟和稳定的学科子类和知识结构，具有突变性的耦合因子对表征和揭示了相关学科主题和知识结构的突变、转向、交叉和融合。

科学知识图谱作为揭示学科发展脉络、评估学科领域发展情况的一种工具，对结果本身的理解和判读需要借助专家经验进行判读，因此，对科学知识图谱结果本身的评估缺乏统一的金标准。这一现象出现的根本原因是“真实数据(ground truth)”的缺乏，即现实情况下也不存在知识图谱的“标准答案”。即便是领域专家，专家意见和经验也存在主观差异，每个专家对心目中领域知识图谱的结构和细节也不尽相同。虽然科学知识图谱结果的精确定量评估缺乏统一的方法和工具，但从本研究融合主题词-引文的知识发现方法的结果分析，专家反馈结果良好，融合主题词-引文的知识发现方法可以从宏观、中观、微观多种维度了解学科知识演化特征、规律和趋势，是对已有的知识发现和分析方法的有效补充。