APP下载

国内区块链研究主题挖掘、热点分析及趋势探究

2021-03-03张长鲁

统计与信息论坛 2021年2期
关键词:特征词区块文献

张长鲁,张 健

(1.北京信息科技大学 经济管理学院,北京 100192;2.绿色发展大数据决策北京市重点实验室,北京 100192)

一、引 言

区块链起源于化名为“中本聪”(Satoshi Nakamoto)的学者在2008年发表的奠基性论文《比特币:一种点对点电子现金系统》,是以比特币为代表的去中心化点对点数字货币的核心支撑技术。近年来,随着比特币的火爆而逐步引起各类组织和学者的关注,区块链具有去中心化、不可篡改、可追溯等特性,彻底颠覆了传统中心化组织思想,未来有望引发商业模式创新乃至社会运行方式变革。

当前以联合国、国际货币基金组织、欧盟等为代表的国际组织和美国、英国、日本等多个国家政府高度重视区块链的发展。中国政府也积极部署区块链技术研究与应用创新,不断提升区块链研究的战略定位。2016年国务院印发《“十三五”国家信息化规划》,将区块链技术列为战略性前沿技术;2018年工信部印发《工业互联网发展行动计划(2018—2020年)》,鼓励区块链等新兴前沿技术在工业互联网中的应用研究与探索;2019年习近平总书记在主持中共中央政治局第十八次学习时强调:“要把区块链作为核心技术自主创新的重要突破口,加快推动区块链技术和产业创新发展”。

与官方政府组织的高度重视相呼应,学术界对区块链的研究也在如火如荼地开展。以中国知网核心期刊数据库为例,2015年发表的区块链相关文献仅有2篇,2019年达到了581篇,发文量呈指数级增长。作为新兴研究领域,了解当前研究进程、剖析未来研究趋势尤为重要。然而,随着发文量的增多,以及各学科领域的百花齐放,难以直观了解区块链研究框架、热点主题和未来趋势,因此有必要对区块链领域的研究文献进行系统梳理。

以往针对区块链文献进行梳理的研究可以分为两类:一是综述类文献,该类文献一般从定性分析的角度,论述区块链的有关概念、核心技术、研究现状、现存问题和未来趋势。如袁勇等阐述了区块链的基本原理、核心技术与应用现状,介绍了基于区块链的平行社会发展趋势[1];曾诗钦等阐述了区块链基本原理和概念,并设计了一个层次化区块链技术体系,将现有针对区块链的研究纳入该体系中[2]。二是计量类文献,该类文献一般以文献计量为主要手段,通过对现有文献的统计分析,从文献时间序列、主要研究机构、学科分布、热点主题挖掘的视角进行论述。如汪园等开展的都是这类研究[3-4]。

综述类文献以定性分析、归纳总结为主,容易受研究者主观观念、所处学科领域以及学术研究履历的影响,因此针对区块链的综述类研究经常出现客观性和凝练度不够的问题。计量类文献大都采用相似的视角进行分析,区别主要在于文献的时空范围、个别分析角度不同。如上文所述的学者中,有针对国内文献进行计量分析的,也有针对国内外文献进行对比分析的;检索文献有截至2017年的,也有截至2018年的,但主体研究内容大体都是按照“文献的时空分布→研究者合作关系→基于关键词词频和共现的热点分析→未来展望”思路展开。该类研究能够在一定程度上揭示区块链研究概貌,但以关键词的词频或中心度表征的研究热度只能代表研究者的关注点,却并不能有效聚焦凝练研究主题,更不能对主题内涵进行解读。

为此,本文从主题挖掘的视角对国内区块链相关文献进行分析,不同于传统的文献计量方法,本文采用系统聚类方法,以Jaccard系数进行文献相似度衡量,将文献进行主题聚类;采用信息增益法计算各关键词对各类主题的贡献度,进而利用高信息增益关键词揭示主题内涵;并根据各类主题相似性归纳构建区块链研究框架体系;最后,通过各主题的文献量及其时间序列,分析得出当前的热点主题和未来的研究趋势。

二、基于Jaccard系统聚类的主题分类

以主题为区块链且关键词中包含区块链为检索式,在中国知网期刊数据库中进行文献检索,期刊来源类别设定为核心期刊,检索年限截至2020年,检索时点为2020年3月1日,共检索出1 143篇相关文献;对初步检索文献进行筛选,去除新闻报道、评论短文、访谈及其他非学术论文,将剩余915篇精选文献作为本文研究对象。

运用Bicomb软件,提取915篇文献的关键词,对关键词进行同义合并处理,最终提取1 974个关键词,生成915×1 974的关键词词篇矩阵,以此作为系统聚类的数据来源。词篇矩阵见表1。

表1 区块链词篇矩阵

表中每一行代表一篇文献,每一列代表一个关键词,单元格中数字1代表相应行中的文献包含对应列中的关键词,0表示该关键词未在相应的文献中出现。

对词篇矩阵进行系统聚类分析。由于关键词词篇矩阵属于零值较多的稀疏矩阵,研究中主要关注关键词在词篇中的出现情况,即取值为1的情形,因此词篇矩阵数据属于典型的非对称二分类数据。结合词篇矩阵上述典型特征,采用系统聚类的组内联接聚类方法,利用Jaccard系数进行文献相似度衡量。

对词篇矩阵来说,Jaccard系数是两篇文献包含的关键词交集大小与两篇文献包含的关键词并集大小之比,Jaccard系数越大说明文献相似度越高。Jaccard系数见式(1):

(1)

其中,a表示一篇文献的关键词集合,b表示另一篇文献的关键词集合,|a∩b|表示两篇文献共同包含的关键词数量,|a∪b|表示两篇文献包含的所有关键词数量。相较于常用的简单匹配系数法,Jaccard系数不考虑两篇文献同时不含有的关键词,避免了词篇矩阵稀疏性对文献相似性度量的影响,因此能够取得较为理想的聚类效果。系统聚类树状图见图1。

图1 区块链文献聚类树状图

在进行主题聚类时,主题类别的数量应当适中,类别太少,文献分布则过于集中,类别太多,文献分布则过于分散,都不便于探索区块链领域研究的规律及特征。由图1可知,当聚类距离阈值界于24~25时能够将当前国内区块链领域的研究文献合理地划分为21类主题,本文取阈值为24.5,聚类结果见表2。

由表2可知,不同类别所包含的文献数量有较大差异,其中第2类和第7类文献量均在100篇以上,属于热点主题;除此之外,其余主题类别所包含文献数量相差不大,最少的为第19类的11篇,最多的为第21类的72篇,这一现象说明当前区块链研究领域相对分散,多个主题尚处于起步探索阶段。

表2 区块链文献聚类结果

三、基于信息增益的主题特征提取及内涵描述

在聚类分析的基础上,为准确地解析每一类研究主题的内涵,需要提取最能反映该类主题特征的关键词,在此基础上进行主题凝练。

(一)基于信息增益的主题特征提取

本文采用信息增益(IG)方法进行主题特征词提取,该方法依据特征词能够为分类系统贡献的信息量大小来选择主题特征词。这一思想不仅符合人们的认知习惯,易于理解,且具有较好的特征提取效果。本文根据每个关键词为相应类别带来的信息量来衡量该关键词对相应类别的重要度;如果某关键词带来的信息增益越多,则其对该主题就越重要,越能够区分该类主题与其他主题,体现类别主题特征。通常,某关键词(tk)的信息增益等于不考虑该关键词时类别X的信息熵H(X)和考虑该关键词后该类别信息熵H(X|tk)的差值。

类别X的信息熵H(X)见式(2):

(2)

为计算考虑关键词tk后类别X的信息熵H(X|tk),假定a表示关键词tk在X类文献中出现的篇数,b表示关键词tk在非X类文献中出现的篇数,c表示关键词在X类文献中未出现的篇数,d表示关键词在非X类文献中未出现的篇数。则H(X|tk)见式(3):

(3)

关键词tk的信息增益见式(4):

IG(tk)=H(X)-H(X|tk)

(4)

计算1 974个关键词与21类主题的信息增益,并选取每一主题中信息增益排序前10的关键词,具体运算结果见表3。

表3 前十位高信息增益关键词及主题定义

(二)基于特征关键词的主题描述及定义

将信息增益显著高于其他关键词的特征词称为核心特征词,通过每一主题的核心特征词对该主题进行定义,并结合其他高增益关键词对每类主题的研究内容进行归纳描述。具体如下:

第一类主题的核心特征词为“大数据”。该主题主要针对区块链与大数据的融合应用开展研究,以期破解以往大数据应用实践中的弱数据可用性与数据安全问题、大数据交易中的权益保护问题[5]。故将该主题定义为“区块链+大数据”研究。

第二类主题的核心特征词为“智能合约”。智能合约是区块链的核心技术之一,该主题主要围绕智能合约的技术原理、合约设计及优化、合约应用等问题展开研究[6]。故将该主题定义为“智能合约”研究。

第三类主题的核心特征词为“隐私保护”。隐私保护问题具有两面性:首先,区块链的匿名特性使得其在用户隐私保护方面大有用武之地;但同时隐私保护又是区块链自身发展中亟需解决的问题。因此,该主题一方面运用区块链的匿名性和加密保护特性解决医疗数据共享、物联网数据共享、共享经济发展等领域的隐私保护问题[7];另一方面,则是针对区块链交易信息全网广播、私钥丢失、“伪匿名”等可能导致的个人隐私泄漏问题开展研究,逐步完善区块链隐私保护功能[8]。故将该主题定义为“隐私保护”研究。

第四类主题的核心特征词为“供应链”。供应链是由供应商、制造商、分销商、零售商及最终消费者多主体共同构成的复杂网络结构,需要处理物流、信息流、资金流等多类型核心数据。该主题针对区块链与供应链融合应用模式,基于区块链的供应链生态圈搭建、物流信息共享等核心问题展开研究[9]。故将该主题定义为“区块链+供应链”研究。

第五类主题的核心特征词为“电子文件”。电子文件范围广泛,电子档案、数字音乐、数字出版物等知识产权载体都可以纳入电子文件的范畴;其他高增益特征词包括档案管理、版权保护、真实性、电子档案等。综合来看,该类研究主要针对各类电子文件的真实性和版权保护展开研究,运用区块链的不可篡改性保护电子文件的真实性,解决可信任问题;运用区块链的可追溯性解决侵权和版权保护问题[10]。故将该主题定义为“区块链+电子文件保护”研究。

第六类主题的核心特征词为“信息安全”。结合其他高增益特征词,不难发现:该类主题主要运用门限环签名、属性基加密和访问控制等手段实现数据保护和数据安全追溯,确保数据一致性,实现信息安全[11]。故将该主题定义为“区块链+信息安全”研究。

第七类主题的核心特征词为“金融创新”,其他高增益特征词包括区块链、智能合约、数字资产、去中心化、电子商务、电子证据等。综合来看,该主题主要基于对区块链技术特性的分析,研究基于区块链的金融创新问题,具体包括区块链在金融领域应用的可行性分析,区块链金融模式、架构创新,以及区块链金融安全分析等[12]。故将该主题定义为“区块链+金融创新”研究。

第八类主题的核心特征词为“人工智能”。该主题主要针对区块链和人工智能的融合应用展开研究,认为区块链4.0可能是区块链+人工智能的融合,两者融合能够相互赋能,人工智能有助于解决区块链的效率问题、安全问题和优化问题;而区块链有助于促进人工智能所依赖的数据共享和智能设备的协作。区块链与人工智能、云计算、互联网+等新一代信息技术的融合发展最终将促进数字经济的发展[13]。故将该主题定义为“区块链+人工智能”研究。

第九类主题的核心特征词为“跨境电商”。从其他高增益关键词看,该主题的研究视角包括与跨境电商紧密相关的跨境物流、跨境支付、出口供应链、国际贸易、结算风险等,旨在运用区块链技术破解跨境电商在上述方面存在的难题[14]。故将该主题定义为“区块链+跨境电商”研究。

第十类主题的核心特征词为“图书馆”。该主题主要研究区块链在图书馆场景中的应用,其他高增益特征词包括:风险、关联性、读者个人信息、服务转型、资源重构等,结合其他高增益特征词可知:当前主要围绕图书馆服务模式转型、数字资源建设与共享和读者个人信息保护等相关问题展开研究[15]。故将该主题定义为“区块链+图书馆”研究。

第十一类主题的核心特征词为“互联网金融”。互联网金融是互联网技术与金融业融合而形成的新兴业态,互联网金融在发展过程中面临着譬如征信管理、风险防控等亟待解决的问题;而区块链为这些问题的解决带来了契机。该主题围绕区块链与互联网金融融合发展开展研究,研究视角主要包括:区块链+互联网金融应用模式分析、互联网金融征信管理、风险防控等[16]。故将该主题定义为“区块链+互联网金融”研究。

第十二类主题的核心特征词为“去中心化”。去中心化是区块链最典型的特征,它彻底颠覆了以往的中心化组织思想,有望构造一种全新的社会关系结构。区块链去中心化的实现依赖于智能合约、信任机制和数据不可篡改等技术。该主题围绕区块链去中心化这一本质特征开展技术原理与应用创新研究[17]。故将该主题定义为“去中心化”研究。

第十三类主题的核心特征词为“能源互联网”。能源互联网借助电网技术和新一代信息技术的融合,实现多主体共同参与的分布式能量采集、存储和交易,是区块链的典型应用领域。该主题主要围绕能源互联网的多主体协同自治,用户偏好匹配、需求响应,及交易效率提升等核心议题开展研究[18-19]。故将该主题定义为“区块链+能源互联网”研究。

第十四类主题中各特征词信息增益差异不大,没有明显占优的核心特征词,但不难发现激励机制、纳税遵从、税收管理、税收风险管理、税收征管模型等关键词都是税收领域相关的研究内容。可见该主题主要围绕税收管理问题,运用区块链技术加强税收征管,降低税收风险,实现纳税遵从[20]。故将该主题定义为“区块链+税收政务”研究。

第十五类主题的核心特征词为“比特币”。比特币是区块链应用最早也最为成熟的领域,当前主要围绕首次币发行(ICO)融资方式、特点与监管,比特币扩容及比特币交易溯源等问题开展研究[21-22]。故将该主题定义为“比特币”研究。

第十六类主题的核心特征词为“金融科技”。金融科技(FinTech)是以区块链、大数据、人工智能等为代表的新一代信息技术在金融领域的应用,金融科技的应用促使了金融创新,但同时也衍生出诸多金融风险,使得金融监管面临全新挑战。该主题的其他高增益特征词包括:监管科技、金融监管、监管沙盒、法链、监管沙箱等,不难发现该主题主要围绕金融科技与监管展开[23]。故将该主题定义为“金融科技与监管”研究。

第十七类主题的核心特征词为“身份认证”。该主题针对传统中心化环境中身份认证方式暴露的安全问题和弊端,探讨基于区块链的身份认证方式、认证效率优化及匿名身份认证监管等问题[24-26],并将其应用于车联网、电力系统及电子商务等场景下的身份认证中。故将该主题定义为“区块链+身份认证”研究。

第十八类主题的核心特征词为“联盟链”。联盟链是一种介于公有链和私有链之间的区块链形态,其效率相较于公有链显著提升,同时又避免了私有链仅适用于机构内部,数据可能被机构修改的风险。联盟链在确保数据安全和隐私保护的前提下,打破了信息孤岛,能够实现有限主体内数据可信共享。联盟链在科学研究领域数据共享、数字图书馆信息资源共享、学习数据存储等有限参与主体场景中应用广泛。故将该主题定义为“联盟链”研究。

第十九类主题的核心特征词为“供应链金融”。供应链金融是依托供应链上的真实交易,以整体供应链信用为依托,为供应链融资企业提供灵活运用金融产品和服务的一整套融资方案。区块链为供应链金融的创新实践提供了可能。该主题围绕基于区块链的供应链金融模式创新、融资服务平台构建等问题开展研究[27-28]。故将该主题定义为“区块链+供应链金融”研究。

第二十类主题的核心特征词为“数字货币”。区块链促进了以比特币、天秤币为代表的数字货币的发展,结合该主题的其他高增益特征词可知,该主题主要围绕数字货币的发展演化及数字货币的匿名性和可监管等议题展开研究[29-30]。故将该主题定义为“区块链+数字货币”研究。

第二十一类主题的核心特征词为“共识机制”。共识机制是区块链的核心支撑之一,决定了区块链的性能效率、安全性和可拓展性。针对共识机制的研究主要集中在两个方面:一是对现有共识机制和共识算法的综述和应用,二是对共识机制和共识算法的优化、改进和创新[31-32]。故将该主题定义为“共识机制”研究。

四、区块链研究框架构建及热点趋势分析

(一)区块链研究框架构建

对区块链21类研究主题按照性质相似原则进行归纳以构建区块链研究框架体系。其中,去中心化、智能合约、共识机制、联盟链等主题都是围绕区块链自身理论和核心技术开展的研究,区块链+大数据、区块链+人工智能则是从融合赋能的角度研究大数据、人工智能与区块链的融合发展,因此这六类主题可归纳为区块链基础研究。隐私保护、电子文件保护、信息安全和身份认证这四类主题,是基于区块链去中心化、去信任化、匿名性和可追溯等特性进行的功能性研究,将这四类主题归纳为区块链功能研究。金融创新、供应链、跨境电商、互联网金融、供应链金融、能源互联网、金融科技及其监管、数字货币、比特币、税收政务和图书馆等11个研究主题是区块链在不同场景下的应用,称之为区块链应用研究。

由此形成了区块链“基础层、功能层、应用层”三层研究框架,基础层研究是针对区块链自身理论和技术问题进行的研究,是功能层拓展和应用场景创新的基础;功能层研究联结基础性研究和应用性研究,一方面结合区块链基础理论和技术创新,衍生挖掘更多的实用功能,另一方面,功能拓展又为应用场景创新提供了支撑;应用层研究是区块链在各应用场景的落地实践,同时实践中的需求痛点又会促进区块链基础创新和功能拓展。

区块链研究框架体系见图2。

图2 区块链研究框架体系

(二)区块链研究热点主题及趋势分析

区块链研究框架中各层面及各主题2015—2020年文献分布及各主题年均增长率见表4。

表4 区块链各层面及各主题文献年度分布

为准确把握各主题的研究热度和未来趋势,参照波士顿矩阵思想,依据主题文献量和文献增长率两个维度构造主题分布矩阵。考虑到2020年文献不是全年的数据,因此在计算各主题累计文献量和文献年均增长率时采用的时间区间为2015—2019年。文献量的临界值设定为各主题均衡发展状态下的文献量,即2015年至2019年文献总量除以主题数,计算可得文献量临界值为39.62;增长率的临界值设定为各主题文献年均增长率的均值,计算可得临界值为1.37。依据文献量和增长率的阈值,将文献量划分为多和少两个区域,增长率划分为高和低两个区域,构造区块链研究四象限分布图。

其中,第一象限为(高发文量,高增长率)组合,该象限内的主题发文量高,且增长率也高,表明相关主题受到学者的广泛、持续的关注,称之为当前热点区。第二象限为(低发文量,高增长率)组合,该象限内的主题当前累计发文量不高,但表现出高速增长的态势,是未来研究的焦点,称之为未来趋势区。第三象限为(低发文量,低增长率)组合,处于该象限的主题研究成果较少,且没有明显的增长态势,表明相关主题还没有进行深入研究,受关注度不高,称之为初始探索期。第四象限为(高发文量,低增长率)组合,处于该象限的主题前期累计研究成果很多,但增长率较低,属于成熟稳定区。根据以上四象限划分,结合各主题累计文献量和文献增长率构建区块链主题分布矩阵见图3。

图3 区块链主题分布矩阵

依据表4和图3进行区块链热点主题及未来趋势分析如下:

从总体上看,区块链研究可以划分为两个阶段:第一个阶段为2015—2016年,该阶段区块链相关文献较少且增长缓慢,处于初步发展期;第二个阶段为2017—2020年,该阶段区块链研究迅速升温,研究成果呈线性增长态势。

从三个层面上看,区块链基础研究和应用研究均衡发展,文献量均为394篇,表明当前国内学者既关注区块链基础理论和核心技术的突破,同时又不断探索区块链的应用场景创新。而区块链的功能层研究则相对薄弱,文献量仅为127篇,表明学者对区块链可以解决哪些现实问题、如何解决这些现实问题关注较少;这将不利于区块链在各应用场景中的深度应用,可能会导致应用层研究的浅尝辄止。这是后续研究需要关注的问题。

从具体研究主题上看,第2类主题“智能合约”、第5类主题“电子文件保护”、第7类主题“金融创新”和第21类主题“共识机制”处于当前热点区,是当前区块链领域的研究热点。第6类主题“信息安全”、第8类主题“人工智能”、第16类主题“金融科技与监管”、第17类主题“身份认证”处于未来趋势区,这四类主题文献增长迅速,是未来研究的趋势所在。第12类主题“去中心化”和第15类主题“比特币”处于成熟稳定区,针对这两类主题的研究已有较多的文献成果,文献增长放缓,表明这两类主题的研究在一定程度上相较于其他主题较为成熟。第1类主题“大数据”、第4类主题“供应链”、第9类主题“跨境电商”、第10类主题“图书馆”、第11类主题“互联网金融”、第13类主题“能源互联网”、第14类主题“税收政务”、第18类主题“联盟链”、第19类主题“供应链金融”及第20类主题“数字货币”处于初始探索期,这十一类主题累计发文量较少,且文献增长率较低,其原因可能是此前相关主题没有引起研究者的重视,也可能是相关主题的研究遇到一些短时难以突破瓶颈,或者是相关主题并不是社会需求痛点所在;针对初始探索区的相关主题,要结合社会现实需求、当前技术条件等综合考虑,有些主题可能会演变到未来趋势区,成为未来研究的热点,而有些主题则可能由于不符合现实需求或囿于现实条件逐步停滞,淡出研究者视线。

五、结 论

区块链作为一项颠覆式技术和创新型模式,未来有可能改变传统社会和各行各业的运行方式。中国在以蒸汽动力、电气为代表的科技革命中远远落后于西方国家,在以电子计算机、互联网为代表的信息革命中通过改革开放赶上了时代的末班车,通过不断追赶和自主创新,在信息通讯领域已跻身科技强国之列;而以区块链为代表的新一代科技革命已然在世界范围内拉开帷幕,只有不断加强区块链基础理论、核心技术和应用模式创新,才能站在浪潮之巅,走在理论最前沿、占据创新制高点、取得产业新优势。

本文以CNKI核心期刊数据库中区块链相关主题的915篇文献为研究对象,采用Jaccard系统聚类方法将当前文献进行主题分类;运用关键词信息增益方法解读各主题内涵,最终归纳构建了一套三层二十一类的区块链研究框架体系。结合文献时间序列分析,提出区块链研究四象限矩阵,分析认为当前中国区块链基础理论、技术创新和应用探索的研究协同发展,后续需要增强隐私保护、信息安全等区块链功能拓展研究。从具体主题上看,“去中心化”“比特币”主题的研究已相对成熟,热度有所减退;“智能合约”“共识机制”“金融创新”等主题是当前研究热点;“信息安全”“人工智能”“金融科技与监管”“身份认证”等主题或可成为未来研究趋势;“联盟链”“数字货币”等十一类主题处于初始探索期,其后续的演化依赖于社会现实需求和技术支撑程度。

猜你喜欢

特征词区块文献
Hostile takeovers in China and Japan
基于类信息的TF-IDF权重分析与改进①
区块链:一个改变未来的幽灵
一种面向财务文本分类的TF-IDF改进算法
区块链:主要角色和衍生应用
《红楼梦》的数字化述评——兼及区块链的启示
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
一场区块链引发的全民狂欢
基于改进TFIDF算法的邮件分类技术
OPEN:一个基于评论的商品特征抽取及情感分析框架