APP下载

我国大数据应用研究热点统计及趋势

2020-02-21聂恒辉陈大春

电子技术与软件工程 2020年13期
关键词:可视化聚类人工智能

聂恒辉 陈大春

摘要:本文运用Excel和CiteSpace软件绘制了作者、机构、关键词等相关知识图谱,对我国自2010年起在知网(CNKI)刊载的大数据应用研究性文献进行分析并得出结论。研究发现:各研究机构及作者之间的联系较少,缺乏沟通合作;研究热点主题有云计算、人工智能、大数据技术、数据挖掘等等,其中人工智能为我国大数据应用研究的主要研究趋势。

关键词:大数据应用;可视化分析;关键词聚类分析

随着科技和社会经济的发展,“大数据”的概念应运而生,它的出现开启了大规模应用、分享、储存数据的时代。大数据的特点是体量大、种类多、速度快、价值高,能让我们通过对大量数据的处理统计去分析事物的其他方面,它代表了一种新的数据管理与统计分析的技术,同时也打开了另一种全新的思维方式和角度。

大数据的发展经历了三个阶段:一是萌芽时期(20世纪90年代到21世纪初),1997年美国国家航空航天局在研究数据可视化中首次提出了“大数据”的概念,1998年《science》杂志上发表了一篇名为《大数据科学的可视化》的文章,“大数据”作为一个正式的公共名词出现在大众的视野里。二是发展时期(21世纪初期至2010年),随着信息技术和互联网行业的兴起,大数据也进入了快速发展时期,其特点和概念得到进一步丰富。三是繁荣时期(2010年至今),专家们根据大数据分析预测未来、指导实践的深层次应用将成为发展重点[1]。

近年来,随着人们对大数据的深入研究,越来越多的研究者将大数据技术应用于不同的专业方向,该领域的论文数量也大大增加。为了更全面的把握大数据在目前各行业中的应用进展,本文采用可视化工具分析了大数据技术应用方向的研究热点和前沿。

1 研究方法

本研究采用CiteSpace作为主要研究工具,同时使用Excel表格作为辅助研究工具。在CNKI的高级检索中选择“文献”的主题检索,检索条件为文章主题、文章关键词、文章篇名均为“大数据应用”“大数据研究”的文章,检索文献发表时间为“2010年一2020年”,共获得文献1975篇(2020年9月10日检索)。将目标文献全部选中,按CiteSpace所需参考文献格式Refworks进行导出并转码储存,并进行Excel的可视化处理,得到本文所需要的研究数据。

2 数据研究分析

2.1 基本概况分析

图1显示了我国大数据的相关研究性文献在知网( CNKI)发文量随年代变化的情况。由表可看出,2010-2014年期间,文章整体的发文量较少,均在200篇以下;自2015年起,相关文献的发文量呈现出可观的趋势,2020年发文量达到顶峰。由此可知大数据的研究在我国的关注度持续上升,并且可以预计在未来几年内其热度仍然不会减少。

2.2 关键词聚类分析

关键词聚类分析是将关键词共现网络关系通过聚类统计学的方法简化成数目相对较少聚类的过程[2]。通过对关键词进行聚类分析,来得到我国大数据的研究方向趋势。

运行CiteSpace,设置节点类型为关键词,选取cluster选项,设定呈最大的现12个聚类集合,得到如图2所示关键词聚类网络图谱。图中呈现了“大数据”“大数据研究”“云平台”“大数据技术”“医疗健康”“存储系统”等12个聚类,反应了我国大数据领域的研究热点。通过分析不难看出,大数据几乎存在于所有的社会领域,背后隐藏着复杂的新理念和应用价值[3]。

2.3 关键词突现分析

关键词突现是指在一个特定的时间内被引用的频率爆炸式增长的情况,运行CiteSpace,参数设置“Burstterms”,选取最具有代表性的七个关键词突现,得到关键词突现图(见图3)。

由图中可看出,最早出现的突現词为“物联网”,说明物联网行业是近十年来最早的大数据应用案例,但是13年以后突现率消失,说明迅速被大数据的其他应用领域所取代;2012-2014年间的突现词为“云计算”、“大数据时代”“数据挖掘”;2017-2018年间突现词为“应用”“城市规划”;2018-2020年间突现词为“人工智能”。目前“人工智能”的突现率一直延续至今,可说明该突现词是目前我国大数据研究的主要方向。

2.4 关键词时序分析

关键词时序图能够在一定程度上反映某一时间段内的研究趋势,因此运行CiteSpace,在关键词共现分析基础上,按时间片段生成关键词时序图谱(见图4)。

该图连接节点为516个,连线数为1385条,说明虽然大数据的研究机构、研究作者之间联系较少,缺乏沟通。但是大数据的研究方向之间联系非常密切,各项技术的应用和变革都是依次展开,紧密相关的。从图中可看出在不同时期的关注点不同,自2010年以来,大数据首先用在“物联网”和“电力”上,随着时间推移渐渐地向“云计算”、“Hadoop"数据挖掘”“电信”“农业”等不同方向发展,说明了大数据技术正在逐步渗透到各个行业领域。

3 结论与展望

文章基于知网( CNKI)数据库,运用相关的可视化分析软件,对2010-2020这十年间大数据的应用研究情况进行了较完整的分析。从发文量来看,在该领域发表的文章总体上升,并且在2014年以后出现程度较大的增长,这表明大数据的相关研究关注度会越来越高;从高产机构和核心作者来看,各机构和各作者之间的研究缺乏合作交流,关联性较小;从文献突现来看,虽然近十年来最先走入人们视线的大数据研究方向是物联网,但研究热点正逐渐转到人工智能上,并还可能会持续一段时间;从关键词聚类和时序分析来看,前期的研究,尤其是2012-2014年这段时间,大多集中在大数据分析、物联网、云计算上。后期出现了关键词人工智能、云平台和其他大数据产业,表明了研究者的关注点也随着生产生活方式的变化正在逐步转移。总之,大数据技术是一种新型技术,其应用情景广阔,大数据技术在应用过程中,不断完善,不断革新技术,以适应现代社会发展需要[4]。

大数据是将大量的原始数据汇集在一起以预测以后事物的发展趋势,有助于人们做出正确的决策,取得更大的收益[5]。目前大数据的相关研究正处于井喷式增长期,具体的应用已经在各个领域取得了许多突破性的进展,毫无疑问,大数据的应用研究将在很大程度上改变人们的工作生活方式。大数据时代,倘若能够更加有效地组织和使用数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用[6]。我们期待在未来几年能够出现更多重大突破。

参考文献

[1]梅宏.大数据发展现状与未来趋势[J].交通运输研究,2019,5 (05):1-11.

[2]林德明,陈超美,刘则渊,共被引网络中介中心性的Zipf-Pareto分布研究[J].情报学报,2011 (1):76-82.钟伟金,李佳,杨兴菊,共词分析法研究(三)一共词聚类分析法的原理与特点[J].情报杂志,2008 (7):118-120.

[3]曾雷.大数据研究综述[J].软件导刊,201 5,14 (08):1-2.

[4]唐国宇,陆文成,大数据应用的现状与展望[J],电子技术与软件工程,2017 (19):156-157.

[5]刘智慧,张泉灵,大数据技术研究综述[J].浙江大学学报(工学版),2014,48 (06):957-972.

[6]杨京,王效岳,白如江,祝娜,大数据背景下数据科学分析工具现状及发展趋势[J].情报理论与实践,2015,38 (03):134-137+144.

作者简介

聂恒辉(1993-),男,山东省济南市人。硕士研究生。研究方向为训练评估。

陈大春(1971-)(通讯作者),男,浙江省东阳市人。副教授。研究方向为军事教育。

猜你喜欢

可视化聚类人工智能
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
人工智能与就业
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例