APP下载

中美电商数据技术演化异同比较研究*
——基于动态专利有向网络分析视角

2022-08-23刘玉林菅利荣

情报杂志 2022年8期
关键词:专利节点电商

刘玉林 菅利荣

(1.南京航空航天大学经济与管理学院 南京 211106;2.安徽商贸职业技术学院电子商务学院 芜湖 241002)

0 引 言

2012年3月,由国家工信部、发改委等9部委联合制定的《电子商务“十二五”发展规划》中指出:“电子商务已经成为我国战略性新兴产业的重要组成部分”。2016年12月,商务部、中央网信办和发展改革委三部门印发的《电子商务“十三五”发展规划》指出:“面向电子商务创新发展重点方向,要加强电子商务基础理论研究,尤其加强大数据、区块链等方面的技术应用与创新”。由此可见,电商数据技术将成为我国技术研发与投资的热门领域。与此同时,中美两国在电商领域都取得了举世瞩目的成绩,以“亚马逊、PayPal”等为代表的美国具有先发优势条件,以“阿里巴巴、京东、支付宝”等为代表的中国具有后发创新机会,通过中美电商数据技术比较,挖掘优势与不足,取长补短,能够给技术研发与融合提供更多建议。

1 文献综述

1.1 专利网络分析

网络分析是一种图论技术,网络中节点可以是任何类型的离散个体,连接则是群体中个体之间的联系。Zanin M等学者认为网络反映所代表系统的复杂性,通过网络分析很容易获得复杂信息和结构连接[1]。当前专利分析热点之一就是将专利内容分析与网络分析相结合形成专利网络分析,以此来揭示专利信息分析结果等[2-3]。Yasutomo T等学者通过专利文本相似度构建专利网络分析物联网趋势[4]。魏玉梅等学者基于专利中语义相似度特点构建专利网络探索不同领域科技创新潜在路径[5]。在网络分析中,有向网络作为一种网络形态,在有向网络构建、拓扑性质分析和链路预测研究上,已有丰富成果。例如雷雪等学者构建有向网络分析科研中作者合著关系[6],张军等学者基于粗糙相似度研究有向网络的链路预测[7]。当前,将有向网络与专利分析结合的研究较少,菅利荣等学者在研究专利网络分析时,发现通过有向网络构建专利连接关系使分析更准确[8]。

1.2 技术演化分析

在技术竞争、技术创新和知识管理研究领域,专利分析长期以来被认为是国家技术经济分析和企业研发管理的有用工具,Abbas A等学者认为对特定领域内专利分析可以为组织提供技术投资支持[2],在研究中使用专利数据衡量技术累积影响或创新绩效指标已有相当长的历史[9],专利具备的客观性、公开性等能够反映科技创新活动中最重要产出和衡量技术创新等指标[10]。在情报学领域中,刘云等学者从专利计量视角分析集成电路制造领域的国际合作特征[11],廉洁等学者和曹明等学者发现专利等常用于分析技术主题,能够更加全面和客观地评价技术竞争力[12-13]。当然,专利网络能够通过网络节点和结构信息进一步发现技术功能和趋势,成为技术演化分析的重要选择之一。Bo W等学者通过专利网络挖掘中国能源技术主题及其演化趋势[14],刘凤朝等学者构建专利技术共现网络分析纳米技术演化路径[15],游鸽等学者建立技术演化专利网络模型,以此揭示技术演化规则与动力[16]。

虽然专利网络分析作为技术演化分析的重要选择之一,但现有研究往往以构建静态网络为主,缺少考虑时间因素的动态网络构建与分析。同时,在专利分析中应考虑早期专利对后期专利的启发作用,构建专利有向网络开展技术演化分析。因此,基于动态专利有向网络视角开展技术演化分析是对当前专利分析方法的重要补充和改进。

2 研究方法

图1为研究总体框架,关键步骤包括基于TF-IDF的半监督属性-功能提取、中美动态专利有向网络构建与分析、网络巨片提取等。图1中虚线框部分为基于TF-IDF的半监督专利属性-功能提取法,该方法采用本研究团队前期研究成果,具体见文献[8]。

图1 研究总体框架

2.1 动态专利有向网络构建

在动态专利有向网络中,以专利为节点,专利文本相似性为连接,建立由早期专利节点指向后期专利节点的有向边,如图2所示。在图2中,整个网络的时间以天分辨率,根据专利申报时间划分时刻,例如t0时刻、t1时刻、t2时刻等。如果两个专利节点具有很强的文本相似度,超过设定的阈值,则建立有向边连接,例如有向边(i,j)为t0时刻i节点指向t1时刻j节点。在建立边连接时,不考虑边的权重,因此动态专利有向网络为无权网络。

图2 动态专利有向网络示意图

2.2 网络拓扑性质指标

2.2.1网络密度

网络密度ρ为网络中实际存在的边数M与最大可能的边数之比。但在动态专利有向网络中,节点连接则由早期专利节点指向后期专利节点,因此该网络密度ρ计算公式如(1)所示。

(1)

2.2.2网络连通性与巨片

在专利网路中,如果任意两个节点之间存在连接,则网络是连通的,否则网络是非连通的。事实上,专利网路的连通性是一个非常脆弱的性质,多数情况下网络节点并非彼此连接,此时网络中往往会存在一个特别大的连通片,该连通片拥有相当比例的节点,并呈现出一些特别的信息,称为巨片,一些网络拓扑性质的研究往往是对巨片进行分析。同时,文献[8]研究表明,在以专利文本相似度构建的专利网络中,巨片能够反映技术集群的特征,是分析核心技术集群及其主题的有力代表。巨片的检索采用广义优先搜索模型,并通过Python编程实现,巨片检索方式采用本研究团队前期研究成果,具体见文献[8]。

2.3 技术发展差异指数

技术发展差异指数(Technology Development Differential Index,简称TDDI)是一种对比指数,用于测定两国间某技术发展差异程度,计算公式如(2)所示。

(2)

其中,t为专利节点年度,在动态专利有向网络中,NA为A国与B国节点连接的边数,max (tA国源节点)为A国专利源节点中年度最大值,min (tB国目标节点)为B国专利源节点中年度最小值。同理,NB为B国与A国节点连接的边数,max (tB国源节点)为B国专利源节点中年度最大值,min (tA国目标节点) 为A国专利源节点中年度最小值。TDDI为技术发展差异指数值,TDDI∈[0,∞],当TDDI <1时,表明A国在该技术上比B国发展要慢,当TDDI >1时,表明A国在该技术上比B国发展要快。

3 数据与分析

3.1 数据源

选择德温特专利数据库(Derwent Innovation)采集中美电商数据技术专利[8]。在数据检索方式上,采用国际专利分类号(IPC)和关键字混合搜索方法,该方法通常也被国外专利研究学者所采用的,例如Niemann H等学者(2017)利用关键字“纤维、纤维、碳、复合材料和增强材料”和IPC分类号共同检索碳纤维材料专利[17]。综上,检索表达式为{TIE=(ELECTRONIC ADJ COMMERCE) OR TIE=(E- ADJ COMMERCE) OR ABE=(ELECTRONIC ADJ COMMERCE) OR ABE=(E- ADJ COMMERCE)},筛选申请国为美国(US)和中国(CN),IPC大类为G06(计算、推算、计数类),检索后形成中美电商数据技术专利待清洗数据集。

在待清洗数据集中,2位电商领域专家人工判别和删除非电商数据技术类专利,并按照三个步骤进行数据清洗:a.在专利类型中,去除外观专利,仅保留发明和实用新型专利;b.其次,对数据集按照标题、专利权人和摘要等共同属性去重,删除重复项;c.对摘要中缺失值的专利按照删除处理。经过上述预处理,最终数据集包含8 588条专利数据,其中美国专利2 840条,中国专利5 748条,专利申请日期时间跨度为1994年4月至2019年12月。

3.2 动态专利有向网络构建

在Python中调用nltk自然语言处理包,根据本研究团队前期研究方法(见文献[8]),筛选出197条属性词组和318条功能词组,计算属性-功能词组的Value (TF-IDF),基于余弦相似度在Python程序中计算专利文本两两相似度值,结果见表1。将相似度阈值设定为0.6,构建专利节点有向边连接,为专利节点及其边连接添加时间属性,导入Gephi后生成中美电商数据技术动态专利有向网络。值得注意的是相似度阈值设定是在尝试0.6、0.7、0.8等不同阈值后,根据研究中实际效果和需要确定。

表1 专利文本两两相似度值

3.3 网络拓扑性质分析

在Gephi中对中美电商数据技术动态专利有向网络拓扑性质进行统计,结果见表2所示。总体上,中国子网络网络密度较低,随着时间逐步减小。美国子网络网络密度初期较低,中期缓慢增长,后期表现较高。中美间子网络网络密度自始至终表现较为平稳,波动较小。

表2 中国、美国、中美间三种形态子网络拓扑性质指标时间动态统计

3.4 网络巨片演化比较

通过Python网络巨片提取程序对中国子网络、美国子网络进行巨片提取,并对巨片特性进行统计,结合时间因素,制作图3。

图3 动态专利有向网络中巨片初始形态和时间演化

表2和图3显示,动态专利有向网络中巨片的形成是一个衔接有序过程。在中国子网络中,共生成5个网络巨片,分别命名为CN1- CN5,具体包括:a.巨片CN1产生于1996年,初始呈现全局耦合网络形态,持续5年中并未增加节点。b.巨片CN2产生于2000年,初始也呈现全局耦合网络形态,在持续8年中共增加3个节点。c.巨片CN3产生于2008年,初始为稀疏型网络。巨片CN3是一个短暂的网络巨片,产生后仅维系1年时间。d.巨片CN4产生于2009年,初始为稀疏型网络,在持续六年期中增加78个节点。e.2016年涌现一个巨片CN5,初始网络规模较大。CN5生成后,在2017-2018年期间增加355个节点,最终在2019年与网络巨片CN4融合,形成整个网络最大的巨片。

在美国子网络中,同样也产生5个网络巨片,分别命名为AM1-AM5。具体包括:a.巨片AM1产生于1996年,初始包含2个节点,称其为巨片言过其实,但AM1是当时网络中最大的连通片,并在随后1年中增加2个节点,AM1仅代表美国子网络中一个短暂的微小巨片。b.巨片AM2产生于1998年,初始呈现全局耦合网络形态。巨片AM2仅在1998出现后仅维系1年时间。c.巨片AM3产生于1999年,初始网络密度较高。在2000年增加4个节点后保持不变。d.巨片AM4产生于2003年,初始呈现稀疏型形态。在2004年增加1个节点后保持不变。e.巨片AM5产生于2008年,初始为高度稀疏型网络。在持续12年中增加429个节点,最终成为美国子网络中最具影响力的巨片。

中国、美国子网络中巨片的形成与增长有着极强的相似性,但也体现出一定的差异性。在相似性方面,包括:a.中国、美国子网络中巨片均体现生成-发展-消失过程的“生命曲线”特点,即巨片在某个时间点生成后,在随后的时间点中通过增加节点发展壮大,在某个时间点“死亡”消失。例如中国子网络中的巨片CN2、美国子网络巨片AM3。当然,也有非典型的巨片,例如生成后仅维系1年时间随即消失的巨片CN3和AM2,生成发展消失后又“起死回生”的巨片CN4等。b.中国、美国子网络前期巨片均表现出网络密度高的特点,并随着时间发展不断降低,均表现出由全局耦合网络到稀疏网络的变化特点。c.中国、美国子网络均出现高低两种时间跨度巨片,其中低时间跨度的巨片仅维持1年,类似于“断崖式”巨片,例如巨片CN3和AM2。当然,中国、美国子网络都出现5年及其以上时间跨度的巨片,例如巨片CN2、CN4和AM5。

在差异性方面,包括:a.中国子网络是中间巨片持续时间长,前后巨片持续时间短。美国子网络是渐进式发展,初期巨片持续时间短,随后新生的巨片通过增加节点不断壮大,且持续时间不断增长。尤其是巨片AM5是所有网络中节点规模最大和持续时间最长的巨片。b.2019年中国子网络出现巨片CN4和CN5融合现象,但美国子网络则体现“优胜劣汰”的替换机制。c.中国、美国子网络巨片首次出现的时间大致相当,在时间跨度平均值上基本一致,中国子网络时间跨度平均值为5年,但美国子网络时间跨度为4.8年。但在时间跨度方差上差异很大,中国子网络时间跨度方差为7.5,远小于美国子网络跨度方差18.7,说明中国子网络巨片的生成、增长和发展相对平稳,反观美国子网络巨片则起伏跌宕。具体上,表3列举了中国、美国子网络巨片的主要特征数据。

表3 中美电商数据技术专利网络巨片性质与主题特性

3.5 中美电商数据技术主题演化比较

在动态专利有向网络中,巨片是网络中最大的连通片,在巨片中节点之间连接关系实质上是专利文本的相似性关系,可以说巨片的生成和发展代表了电商数据技术主题演化,因此通过巨片分析中美电商数据技术发展有着深刻的意义。

3.5.1中国电商数据技术发展演化

在巨片CN1属性-功能点上,“store、use、form”等动词与“information”关联,表现为电商数据信息储存和使用。因此,数据信息获取、储存和使用是1995—1999年中国电商数据技术主题。

在巨片CN2属性-功能点上,“digital+ certificate”是关键属性,“use +device”是关键功能,说明此时中国电商数据技术由信息的使用和存储转变为通过装置设备进行数字化认证。因此2000—2007年中国电商数据技术主题为数字化认证。

巨片CN3中所有的节点均体现出“digital+system”关键属性,即数字化系统。但CN3仅维持2008年就消失的现象说明数字化系统是一个短暂的技术主题。

在巨片CN4属性-功能点上,CN4以“electronic”与“site、web”组合作为关键属性,说明电商网页数据分析是2009—2015年中国电商数据技术主题。

巨片CN5中专利节点更突出“electronic +device”“electronic +mode”和“electronic +utility”等关键属性,以“connecte +device”为关键功能,说明巨片CN5为技术应用研究,此时电商设备模块交互连接是技术研究的热点,并且在2017-2018年巨片CN5不断增加同样属性和功能的节点,在2019年与CN4融合,表现出电子设备、电子模块和电子有用性等与电商网络数据分析技术融合特点。因此,数据与设备交融是2016—2019年中国电商数据技术主题。

3.5.2美国电商数据技术发展演化

在巨片AM1属性-功能点上,所有节点都以“electronic + module”为关键属性,说明电子设备模块研究是1996—1997年美国电商数据技术主题。

巨片AM2中节点均以“electronic + environment”和“electronic + chain”为关键属性,以“use + information”为关键功能,说明1998年美国步入数据信息获取与使用的研究阶段。

在巨片AM3属性-功能点上,“electronic+ sale”和“interactive +system”是关键属性,“sent”与“system、network、payment”等关联后形成关键功能,说明1999-2002年美国电商数据技术一直在探索电子销售交互系统数据发送、数据网络与支付等方面的研发。

巨片AM4中节点均以“financial +system”和“financial+ transaction”为关键属性,以“form+information”为关键功能,说明2003—2007年美国电商数据技术表现为金融行业电商数据获取与使用。

在巨片AM5属性-功能点上,初期节点均以“e-commerce+site”为关键属性,以“provide+ site”为关键功能,反映美国电商数据技术从电子网页搜集和管理数据,并提供网页数据服务功能。随后AM5不断增加节点,其中“e-commerce +site”依然是关键属性,但增加“e-commerce +system”和“e-commerce +transaction”等关键属性,在功能上“associate +product”和“use +site”取代“provide +site”成为关键功能,说明2008-2019年美国电商数据技术拓展为数据与设备交融。

3.5.3中美电商数据技术演化异同比较

在相同点上,包括:a.从时间维度看,中美两电商数据技术发展起步时间较为一致,均为1995年左右。b.从发展历程看,中美电商数据技术均经历五个阶段。c.从过程表现看,中美五个阶段的技术演化均体现出长期性与短期性并存,必然性与偶然性交至的情况,即演化阶段既有8或者12年的长期技术研发,也有1年的短期技术研发,两国既有数据信息获取与使用等必然性技术演化,也有电商网页数据分析或者金融行业电商数据分析等偶然性技术演化。

在差异点上,包括:a.中国在数字化认证、网页数据分析上有独特技术发展历程,美国在电子设备模块研发、金融行业电商数据分析上有自身发展特点。b.在数据与设备交融的技术主题上,美国进入早且持续时间长,中国起步迟,但与其他技术融合速度快。

3.6 中美间数据技术发展差异分析

通过Gephi筛选出中美间电商数据技术专利网络,计算TDDI值,以此判断两国在电商数据技术上发展差异。此时,中美间子网络既有从中国专利节点指向美国专利节点的有向边,也有从美国专利节点指向中国专利节点的有向边。

以年度为单位计算技术发展差异指数TDDI值,绘制图4。在图4中,横坐标为年度,纵坐标数据为TDDI值,曲线为中国对美国数据技术发展差异指数TDDI值,水平横线为基准线,基准线TDDI值为1。由于1995年中国对美国的专利相似数据为0,实际上TDDI值从1996开始计算。总体上,TDDI值呈现出“先高后低再升高”的趋势。在1996年,TDDI值在基础线之上,达到2.5的高位置,说明在电商数据技术发展上,此时中国远落后美国。1997年中国开始发力,TDDI值很快回落,1997—2011年期间TDDI值始终处于基准线1以下,此时中国抓住了数据获取、认证和网页数据分析等关键技术研发。2012年TDDI值又恢复到基准线以上,随着时间呈现出不断扩大的趋势。此时美国从2008年开始在数据与设备交融技术上进行发力,但中国在该技术上起步比较迟。

TDDI值数据曲线显示,在电商数据技术发展上,中国是“先慢后快再慢”,美国是“先快后慢再快”。初期美国抓住“从无到有”的先发创新优势,中期中国抓住数据获取、认证和网页数据分析等技术“从有到优”的后发创新机会,后期美国抓住数据与设备交融的未来发展趋势。

图4 中美数据技术发展差异指数

4 结 语

本文通过构建动态专利有向网络,从而比较中美电商数据技术的发展演化异同。研究结论包括:a.中美电商数据技术起步时间上较为一致,发展上均为五个阶段,演化上均体现出长期性与短期性并存,必然性与偶然性交织的情况。b.中美电商数据技术均包含数据信息获取与使用、数据系统、数据与设备交融等三个技术发展阶段,但中国在数字化认证、网页数据分析等技术上有独特的发展进程,美国在电子设备模块研发、金融行业电商数据分析等技术上有自身发展特点。c.在数据与设备交融的技术上,美国进入早且持续时间长,中国起步迟,但与其他技术融合速度快。d.通过TDDI值发现,在电商数据技术发展上,中国是“先慢后快再慢”,美国是“先快后慢再快”。初期美国抓住“从无到有”的先发创新优势,中期中国抓住数据获取、认证和网页数据分析等“从有到优”的后发创新机会,后期美国抓住数据与设备交融的未来发展趋势。

本文创新或改进之处在于:a.通过时间因素构建动态专利有向网络,利用Gephi时间线功能分析专利网络动态变化,并从中国子网络、美国子网络和中美间子网络三个维度开展比较研究。b.提取中国子网络、美国子网络中的巨片,通过巨片比较中国和美国电商数据技术发展演化异同。c.通过技术发展差异指数TDDI值比较中美电商数据技术发展差异。

本文的不足之处在于文中时间以年为分辨率,可以对时间维度细化,例如以月为分辨率,以便增加TDDI值数据曲线分析程度等。为此,希望本文能够抛砖引玉,吸引更多的学者探索动态专利有向网络的分析视角,以及关注电商数据技术的发展趋势。

猜你喜欢

专利节点电商
电商助力“种得好”也“卖得火”
电商赢了,经济输了
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
采用贪婪启发式的异构WSNs 部分覆盖算法*
Crosstalk between gut microbiota and antidiabetic drug action
加快农村电商全覆盖
农资电商逃得过地推吗?
2007年上半年专利授权状况统计