APP下载

京津冀科技主体间专利技术合作及链路预测

2020-04-10石安杰裘靖文赵诗雨

现代信息科技 2020年1期
关键词:复杂网络

石安杰 裘靖文 赵诗雨

摘  要:采集2014~2018年京津冀科技主体专利合作数据并构建网络,分析科技主体间合作网络结构并利用熵权法融合网络链路预测指标挖掘合作机会。结果表明:北京内部专利合作次数远大于京津冀跨省合作;国企顺应国家政策积极参与省际间专利合作,高校参与率较低;合作网络存在明显社团结构;京津冀地区电力行业机构合作仍是未来合作的重点;京津冀创新能力差距悬殊,且河北差距最大。

关键词:链路预测;复杂网络;合作机会预测;社团结构;专利合作网络

中图分类号:T-18      文献标识码:A 文章编号:2096-4706(2020)01-0178-06

Abstract:Collect the patent cooperation data of Beijing,Tianjin and Hebei from 2014 to 2018,build the network,analyze the cooperation network structure among the scientific and technological subjects,and use the entropy weight method to integrate the network link prediction indicators to explore cooperation opportunities. The results show that:the number of patent cooperation within Beijing is far greater than that between Beijing,Tianjin and Hebei provinces;state-owned enterprises actively participate in inter provincial patent cooperation in accordance with national policies,and the participation rate of universities is relatively low;there is an obvious community structure in the cooperation network;the cooperation of power industry institutions in Beijing,Tianjin and Hebei region is still the focus of future cooperation. There is a great gap between Beijing,Tianjin and Hebei in innovation capability,and Hebei Province has the largest gap.

Keywords:link prediction;complex network;cooperation opportunity prediction;community structure;patent cooperation network

0  引  言

专利作为科技创新的产物具有易获取的特点,它能提供技术发展与创新活动中有价值的信息,其中合作申请的专利常作为衡量创新的一项实证指标[1]。研究专利技术合作可以挖掘京津冀经济发展潜力;促进天津、河北科技发展进步,打造京津冀目标同向、措施一体、优势互补、互利共赢的发展新格局[2]。根据《京津冀蓝皮书:京津冀发展报告(2019)》显示:2017年京津冀地区发明专利授权数有5.69万项,占全国的17.4%。如何利用京津冀专利技术合作信息,挖掘主体间的专利技术合作机会,对促进京津冀地区协同发展尤为重要。

1  相关研究

探究京津冀专利技术合作的现状并进行合作潜力预测,实质是复杂网络及链路预测的问题。利用复杂网络,一方面可探究专利合作发展趋势与合作模式的演变。高粱洲等人研究京津冀产学研专利数据,揭示了京津冀地区高校专利合作网络结构特征演化的过程[3]。另一方面可以探究网络变化的影响因素。OLOF等人研究瑞典区域间专利合作网络结构,对影响区域空间亲和力的主要因素进行了挖掘[4]。

链路预测算法可以幫助研究者从理论上揭示复杂网络演化机制,并在实际应用中探究研究对象之间的内在联系[5]。刘竟等人从科研合作网络“小世界现象”和“无标度特性”出发,在发现路径相似性基础上,引入一定权重的节点相似性,可达到较好的预测效果[6]。武玉英等人发现链路预测较其他方法具有更高预测精确度,能更全面地挖掘网络中潜在合作主体及其权重[7]。

综上,本文以京津冀专利合作数据为对象,构建其专利合作网络,分析专利合作现状并利用链路预测的方法对京津冀科技主体合作潜力进行挖掘,为京津冀地区的资源配置及相关政策的制定提供科学的决策支持。

2  数据采集与处理

本文基于incoPat专利数据库,采集2014~2018年京津冀地区有效专利数据。incoPat自动对检索条件下申请人专利量进行排序,并列出在前200的科技主体。经筛选,得到45308条有效数据。根据地区对200个申请人分类,得到京津冀地区申请人186个,其中北京地区有150个,天津地区有16个,河北地区有20个;非京津冀地区申请人14个。对单次合作时涉及多主体的记录进行拆分:将ABC拆分为AB、AC、BC。统计数据占比,得到图1。

可以看出,2014~2018年京津冀科技主体间以及京津冀科技主体与非京津冀科技主体的专利合作频率基本维持不变;相较于与非京津冀科技主体进行专利技术合作,京津冀科技主体更偏好进行区域内合作;北京地区在维持省内专利技术合作水平不变的情况下,在跨省市专利合作方面,重心逐渐转向京津冀区域间专利技术合作。

3  网络构建与结构研究

3.1  网络构建及特征分析

本文中,网络表示为G=(N,E,W)。其中,N为节点集,E为边集,W为权重集。本文侧重于研究网络主体间现状及发生合作的可能性,因此构建了无向有加权无自环的网络。整理2014~2018年京津冀科技主体间专利技术合作网络矩阵,使用Gephi绘制2014~2018年京津冀科技主体间专利技术合作网。

依照图2对网络演变总体趋势分析:近五年,京津冀科技主体间专利技术合作频次减少。表明国务院2016年印发的《“十三五”国家知识产权保护和运用规划》提高专利质量、减少专利授权的政策发挥作用。科技主体间的专利技术合作具有非均质性:部分节点间存在紧密的专利技术合作关系,如北京奇虎科技有限公司和奇智软件(北京)有限公司在2014~2016年三年间频繁进行专利技术合作,而有些节点间专利技术合作很少,甚至不存在合作。

(a)2014年专利技术合作网络模型

(b)2015年专利技术合作网络模型

(c)2016年专利技术合作网络模型

(d)2017年专利技术合作网络模型

(e)2018年专利技术合作网络模型

网络模型

网络的结构特征指标利用Gephi测量得到:网络密度为0.039,说明网络为稀疏网络,平均聚类系数0.227,平均路径长度3.054,对网络进行幂律分布检验,如图3所示,说明网络为无标度网络。

分别测量2014~2018年的网络特征值,结果如表1所示。网络直径、整体网密度和平均路径长度三个指标的大小可以反映网络建立联系的难易程度。近五年,京津冀科技主体专利技术合作网络三个指标较低,说明网络中的科技主体较难建立合作关系。可能京津冀地区经济发展失衡问题仍未解决,三地间仍未建立良好合作渠道。聚类系数用来衡量网络的聚集程度,网络的聚类系数很低,表明京津冀科技主体间聚集程度低,核心科技主体对网络影响力低。反映出京津冀科技主体间合作较分散,仍有较大合作潜力可以挖掘。

3.2  网络社团结构特征研究

社团是一个节点集合,其中的节点间存在着某种相似性,即扮演相同角色或擁有相似功能。Newman提出了模块度Q模型,考虑节点度的分布情况来衡量社团结构划分的优劣,社团模块度越大,说明社团划分质量越高[8]。若i、j代指网络中的节点,与无向加权网络对应的模块度定义为:

其中,Wij表示节点i与j之间的联接的权重(紧密程度),式(1)计算网络总权重值w。式(2)中,wi表示与节点i关联的边的权值总和,ci指节点i所在的社团。函数δ(u,v)用于判断两节点是否处于同一社团,若u=v则函数值取1,否则取0。

3.2.1  专利合作网络社团划分

利用Gephi软件结合模块度优化算法,对2014~2018年京津冀专利合作网络进行主体社团划分,得到13个社团时,模块化Q取到最大值为0.817。其中包含主体最多的社团有37个主体,最少的只有2个主体。如图4所示是网络中最大的两个社团,其专利合作数据占网络的49.64%。

根据社团渲染图可看出,这两个社团在内部存在大量专利合作,例如国家电网公司与天津、河北省电力公司间的合作。根据主体研究方向可知,京津冀地区电力行业专利合作在网络中占据重要位置。分析其原因,即河北雄安新区建设项目旨在打造北京非首都功能疏解集中承载地,其建设发展离不开电力行业优秀技术的支持,一定程度上促进电力行业专利技术合作。

其余11个社团内部连接紧密,与外部连接稀疏,符合社团的定义。同为一个社团的主体研究领域或方向一致,例如中海油研究总院、海洋石油工程股份有限公司等5个海洋能源相关主体;以及航天材料及工艺研究所、北京航天发射技术研究所等9个航天技术相关主体。此外,属于同一总部的分公司间专利合作频繁,但与其余主体合作较少,形成社团。

3.2.2  社团结构特征变化规律

一般认为,模块度Q值越大,社团结构划分越好。由图5可知,五年内的Q值在2015~2016年最高,达到0.820,说明这两年的社团强度最强;在2017年至2018年逐渐下降。另外,网络模块度值大约分布在0.3~0.8之间,因此五年内京津冀科技主体专利合作网络具有较明显的社团结构。

3.3  网络节点结构特征

网络节点结构特征主要包括点度中心度、中间中心度和接近中心度。利用UCINET分别测量2014~2018年京津冀科技主体的点度中心度及中间中心度,得到以下结果。

3.3.1  点度中心度

点度中心度反映一个节点在网络中自身的交往能力高低。

如表2所示,三年间,网络中点度中心度较大的几个科技主体主要集中在国家电网公司、清华大学、中国电力科学研究院、中国石油大学之间。这几家与其他科技主体的联系在2014年中保持在17左右,2018年则稳定在9左右,这意味着科技主体间的专利技术合作逐渐减少且密切度下降,排名靠前的科技主体在合作网络中的影响力相对下降。此外,2018年位列前三的科技主体全部属于北京有两家属于企业而一所属于大学。相比之下,北京一直占据着网络中的核心地位,但占据核心地位的科技主体性质发生了改变,企业的影响力上升。

3.3.2  中间中心度

中间中心度反映一个节点在网络中自身的交往能力高低。

如表3所示,三年间国家电网公司一直在网络中占据着不可或缺的核心地位。对比位列前三的科技主体,2018年的三家科技主体均属于北京,而主体性质分别为两家企业,一所大学。可知,北京地区在京津冀专利合作中一直处于枢纽地位,控制信息交流;而主体性质的变化则较大,大学在网络中的信息控制能力下降,而企业上升,后者在网络中的掌控资源能力逐渐增强。

4  京津冀科技主体间专利合作预测

网络中的链路预测是指如何通过已知的网络结构等信息预测网络中尚未产生连边的两个节点之间产生连接的可能性[9]。以吕琳媛等人得出的链路预测指标精度结果为基础,本文运用基于网络结构相似性的方法,选取RA、CN、AA等八个指标,利用MATLAB进行指标计算及精度评测,并用熵权法进行指标融合[10],得到京津冀科技主体专利合作网络演化预测结果。

4.1  链路预测指标选取与精度评估

4.1.1  基于信息相似性的指标选取

应用节点间的相似性进行链路预测的一个重要前提假设就是两个节点之间的相似性(或者相近性)越大,它们之间存在连接的可能性就越大。

本研究使用两类基于网络局部信息的指标对专利合作网络进行链路预测分析。首先是基于共同邻居节点的链路预测算法,包括共同邻居指标(CN)、Salton指标、Jaccard指标、Sorenson指标。其次是基于节点度相似性的链路预测算法,包括大度节点有利指标(HPI)、大度节点不利指标(HDI)、资源分配指标(RA)及Adamic-Adar指标(AA)。表4总结了以上8种基于局部信息的相似性指标的定义公式。假设对于网络中的节点x,定义它的邻居为Γ(x),k(x)Γ(x)为节点x的度。

4.1.2  精度评价方法

本研究选取AUC作为评价指标,从整体上衡量算法的精确度[9]。将网络中已存在的链接集合E按照随机划分的方法划分为训练集ET和测试集EP两个集合,每次随机从EP中选择一条链接(x,y)与随机从不存在的链接集合EO中选择的链接(x′,y′)的测试值比较。对每对没有连边的节点(x,y)对赋予一个分数Sxy,若Sxy>Sx′y′,则加0.5分,否则加0分。独立随机比较n次,记加1分的次数为n′,加0.5分的次数为n′′,因此AUC的计算公式定义为:

4.2  实证结果与分析

4.2.1  基于相似性的指标精度

以京津冀地区2014~2018年科技主体间专利技术合作数据为基础,基于网络结构相似性思想进行链路预测8个指标分析及精度测评,得到结果如表5所示。

本文选取精度较高的四种指标,即CN指标、Salton指标、AA指标及HDI指标共同考虑进行京津冀间科技主体专利合作网络链路预测。

CN指标是基于局部信息的最简单的相似性指标,指两节点如果有更多的共同邻居,则它们更倾向于连边。Salton指标的算法思想與CN类似,只是在共同邻居指标的基础上增加了一个分母,对共同邻居算法起到一定优化作用。AA指标考虑两节点共同邻居的度信息,其思想是度小的共同邻居节点的贡献大于度大的共同邻居节点。HDI指标指与度大节点相连的节点对的分数值偏小。

4.2.2  潜在合作机会探测

根据指标定义为每一指标分配权重进行计算,得出结论如表6所示。

如表6所示,利用MATLAB进行链路预测,对选出的四种指标进行分析,按照指标融合值(使用min-max标准化)进行降序排列,表中展示排名前六的节点对。其中最容易产生连接的是中国电力科学研究院和国网天津市电力公司,其四种指标均位列前茅,且融合值最高。其中,中国电力科学研究院与其他节点合作共2558次,国网天津市电力公司与其他节点共合作2052次,两家公司的相同合作共1958个,分别占其总合作量的76.5%和95.4%,共同邻居极为相似。此外,排名靠前的15对节点中,天津和北京存在的潜在合作主体有4对,河北与北京有3对,河北与天津有1对,剩下的均为北京内部合作,共7对,可以看出河北与京津冀其他地区的合作潜力较低,北京在合作网络中仍占据主要地位。

5  结  论

本文运用2014~2018年申请专利数前200的科技主体专利合作数据,构建京津冀科技主体间专利技术合作网络。通过分析整体网络特征、社团结构及节点特征,得出如下结论:京津冀科技主体间专利合作频次较少,聚集程度较弱;河北的创新能力与京津两地存在较大差距;北京始终处于合作网络的核心地位;网络具有明显的社团结构,划分依据多为主体的研究领域;企业在网络中的影响力逐年上升,网络中占据核心地位的主体性质逐渐向企业转变;京津冀地区电力行业专利合作在网络中占据重要位置,主体间合作将呈现以国家电网公司及其地方公司为核心,辅以企业与企业和研究院之间专利技术合作的模式。原因在于国家电网公司等积极推进高校人才联合培养,与部分高校签署战略合作协议,丰富了校企合作平台。

参考文献:

[1] 高霞,陈凯华.合作创新网络结构演化特征的复杂网络分析 [J].科研管理,2015,36(6):28-36.

[2] 陈敬武,段鲜鲜,贾芸菲.京津冀技术转移网络分析——基于专利合作的视角 [J].河北工业大学学报(社会科学版),2018,10(4):1-7+14.

[3] 高粱洲,唐恒,刘桂锋.京津冀高校产学研专利合作网络结构演化特征研究 [J].图书情报研究,2019,12(1):96-105.

[4] EJERMO O,KARLSSON K. Interregional inventor networks as studied by patent coinventorships [J].Research Policy,2006,35(3):26-29.

[5] 张红.链路预测算法的研究 [D].哈尔滨:黑龙江大学,2018.

[6] 刘竟,孙薇.基于链路预测的潜在科研合作关系发现研究 [J].情报理论与实践,2017,40(7):88-92+121.

[7] 武玉英,孙平,何喜军,等.新能源领域专利转让加权网络中主体间技术交易机会预测 [J].数据分析与知识发现,2018,2(11):73-79.

[8] NEWMAN M E J,GIRVAN M. Finding and Evaluating Community Structure in Networks [J].Physical Review E,2004,69(2):26-43.

[9] 吕琳媛.复杂网络链路预测 [J].电子科技大学学报,2010,39(5):651-661.

[10] 梁辰,徐健.社会网络可视化的技术方法与工具研究 [J].现代图书情报技术,2012(5):7-15.

作者简介:石安杰(1998-),女,汉族,北京人,本科,研究方向:数据挖掘;裘靖文(1999-),女,汉族,河南郑州人,本科,研究方向:数据挖掘;通讯作者:赵诗雨(1999-),女,汉族,北京人,本科,研究方向:数据挖掘。

猜你喜欢

复杂网络
基于复杂网络节点重要性的链路预测算法
基于复杂网络视角的海关物流监控网络风险管理探索
基于图熵聚类的重叠社区发现算法
基于复杂网络理论的通用机场保障网络研究
一种新的链接预测方法在复杂网络中的应用
城市群复合交通网络复杂性实证研究
小世界网络统计量属性分析
对实验室搭建复杂网络环境下的DHCP 服务及安全防护的思考
基于蚁群优化的多目标社区检测算法
基于复杂网络构建面向主题的在线评论挖掘模型