人工智能发展态势的文献计量分析与研究

2023-11-11王佳星周武源李甜甜

小型微型计算机系统 2023年11期

王佳星,周武源,李甜甜

1(浙江工业大学计算机科学与技术学院,杭州 310023)

2(浙江省科技信息研究院,杭州 310006)

1 引言

计算机科学与众多学科有着广泛的交互作用,其知识结构跨越了应用数学、决策科学、统计学、社会科学、材料学、生物化学、化学、遗传学等众多学科;建立在计算机科学和统计学基础上的机器学习和数据科学通过向其他研究领域输出知识,正在成为推动工业和科学创新的主要学科领域[1,2].人工智能(Artificial Intelligence,AI)作为应用计算机科学的子领域,以机器为载体部分实现人类智能,表现出强大的学习、推理和规划能力,为增强和替代人类任务和活动提供了变革潜力,因而成为全球新一轮科技革命和产业变革的核心战略产业与“强化国家战略科技力量”的核心技术要素[3].AI在教育、医疗、交通、金融、制造、物流、化工等几乎全部行业领域的关键决策中得到了广泛的应用,并已形成了知识流动紧密的学科集群[4-10].交叉学科的意义在于通过整合多学科技能和观点的研究来发展新的知识[11],AI与众多学科的交叉融合将极大地促进众多学科的飞跃式发展[12].

发展AI对于我国高质量可持续发展、应对人口红利下降、转变经济增长方式及国家治理现代化具有重大意义[13,14].我国AI的发展战略是将现有的地方性AI举措提升到国家层面,体现了自下而上的发展[15].同时,我国宽松的创新制度体系极大地促进了市场、企业家、数据和数字平台的耦合,塑造了数据驱动产业的形成[16].可以说,我国成为AI先进国家是国家创新体系和企业共同演化的结果[17].但是,我国AI的发展虽然具备良好的基础,在基础理论研究方面与国际先进水平仍有一定差距[18].我国于2017年发布了《新一代人工智能发展战略规划》,指出AI是引领未来的战略性技术,必须放眼全球,把AI发展放在国家战略层面系统布局、主动谋划,打造竞争新优势,开拓发展新空间,有效保障国家安全.这是涉及产业面的整体性战略部署,但规划中的建设重点还不够突出[19].《2021年政府工作报告》提出,基础科技发展的重点领域将涵盖新一代AI等战略性新兴产业.《中华人民共和国国民经济和社会发展第14个5年规划和2035年远景目标纲要》进一步指出,发展以AI为代表的新一代信息技术是强化国家战略科技力量的重要举措.

AI研究备受全球关注,但是人们对全球AI研究总体发展态势的认知仍然不够清晰:谁在关注AI?中、美、欧谁更热?AI的科研绩效如何?主要研究方向有哪些?研究热点前沿在哪里?本文结合Scopus和Web of Science(WOS)数据源开展2011～2020年全球AI领域的文献计量学研究,从文献发表的时间分布、地理分布、研究机构和学者分布、高频关键词分布、研究主题分布等方面进行了统计分析,尝试对上述问题进行分析讨论,展现近10年来全球AI的发展态势,以期为相关科研人员把握AI发展方向、加强战略谋划和系统布局提供参考.

2 研究数据源与研究方法

AI领域海量的文献对检索、数据采集与处理及文献计量构成了重大挑战.可以从技术层(算法)、数据层、功能层与应用层4个方面开展AI的检索.本文在参考世界知识产权组织(WIPO)发布的《人工智能技术趋势:2019》等相关出版物的基础上[20,21],提出以AI算法为人工智能研究的基本特征,所得检索词如表1所示,供AI文献计量学研究之用.

表1 人工智能检索词Table 1 List of search keywords in terms of AI

选择合适的数据库与分析工具,精准开展AI研究,可为我国科研管理决策工作提供文献计量学的技术支撑.当前许多研究在文献检索与数据库选择方面存在不足,特别是选择WOS作为单一数据源,对后续研究结果的全面性与可信度造成了一定影响.许多学者早已认识到数据库及研究工具对文献计量研究至关重要,而WOS数据库由于未收录许多重要的计算机会议论文,因而在计算机科学文献中作为引文来源存在一定的不足[22].Scopus不仅在引文分析方面提供了比WOS多20%左右的覆盖率,也显著改变了许多学者的相对排名[23,24].因此,以Scopus数据库为数据源开展计算机学科的文献计量学研究是更好的选择.

本文采用SciVal科研管理平台开展文献计量研究,以期为我国科研管理工作提供更科学、更便捷的决策支持.SciVal是基于Scopus数据库开发的具有高级分析功能的科研分析平台,包含来自全球5000多家出版社出版的23,500余种同行评审期刊所刊登的超过5000万条数据记录[25].SciVal有着30多种设计精良的计量指标,包括发文量、领域加权引文影响(FWCI)、高被引期刊百分比、高被引文献百分比、学术出版物的专利引文、显著性指数(Prominence percentile)等,已被广泛用于科技评价与管理决策.

从Scopus获得与AI相关的同行评审论文,检索策略基于表1中的关键词,检索范围限于1996～2021年10月27日,利用SciVal及其内置的Elsevier AI Classifier分析了包含863,415篇文献的数据集[26],其中2021年由167,116位作者发表了61,828篇文献(这部分数据在分析2018～2021年文献的学科领域分布时用到).以此数据集为基础,采用SciVal评估全球AI研究的学术表现,包括国家、机构、学者、出版年份、发文量、引用、学科分布与综合科研绩效等,并通过文本聚类挖掘领先的关键词与研究主题,揭示出技术发展趋势和研究热点前沿.

ESI高被引论文是各学科近10年内发表的且被引次数排在相应学科领域全球前1%以内的论文,ESI热点论文是近2年内发表的且在近2个月内被引次数排在相应学科领域全球前1‰以内的论文,是最具突破性和影响力的论文.上述检索策略在Web of Science核心合集共检出457,691篇文献(1966～2021年),其中高被引论文4,042篇,热点论文182篇,合计4,048篇,其时间跨度为2011-2021年.采用VOSviewer构建和可视化文献计量网络,该软件采用文本挖掘技术构建和可视化从科学文献中提取的重要术语的共现网络,可揭示科学知识的结构、研究热点和发展趋势[27],并与SciVal分析结果相互验证.

3 国内外AI学术研究现状分析

本章将从全球AI学术研究发展态势、发表论文国家/区域分布、AI研究机构分布以及AI学者分布这几个方面来分析国内外AI学术研究现状.

3.1 全球AI学术研究发展态势

2011～2020年10年间发表的AI论文累计560,231篇,如表2所示,可分为两个发展阶段:2011～2015年间全球AI研究已处于较为活跃的水平,年发文量徘徊在3万多篇.2016年可视为AI发展的分水岭,标志性事件为谷歌AlphaGo击败世界围棋冠军李世石,这一大事件引发了深度学习这种革命性机器学习技术的研究热潮[28].此后,通过训练神经网络进行预测这一机器学习的重要分支得到了长足发展,出版物数量总体呈现爆发式增长.2015年之前,从事AI研究的学者不超过85686人,发文量不超过37902篇;2016年学者人数猛增至112891,到2020年已经达到惊人的245072,发文量则在2016年一举达到5万篇,并在2020年飙升至将近10万篇.预计AI论文发表数量在未来还将继续迅速增长.可以认为,深度学习推动了AI从以专家系统为代表的第一代AI发展到了以统计机器学习为代表的第二代AI,并深刻影响了科学、工业和社会的发展[29,30].

表2 研究领域概述和全球AI学术表现的趋势Table 2 Overview of research areas and global trends in AI academic performance

引文可用以表征研究成果的影响或质量.AI的引文次数在2011～2018年均保持在47万次/年以上,且没有发生明显的随时间递减趋势,这在一定程度上说明了该领域研究的活跃度.

Field Weight Citation Impact(FWCI)作为SciVal中最重要的指标之一,可用于评价一个研究领域的活跃度与学术声誉.该指标表示研究领域的出版物被引用的次数与Scopus中所有其他类似出版物被引用的平均次数的比较,并考虑了各学科研究行为的差异,可表征论文质量,衡量引文影响力,其基值为1.00.2011～2020年AI领域的平均FWCI为1.07,仅比世界平均学术绩效水平略高7%.

Field-Weighted Views Impact(FWVI)是一个使用影响力指标,表示一个实体的出版物与世界平均水平相比所获得的浏览量,它提供了较早的学术读者地位测度.AI研究的FWVI平均为1.06,年度浏览量在2015年以前在85万次以下,而2016年以后均达到了100万次以上(2020年略低).这说明AI研究论文被持续高频使用,领域内的科学活动非常活跃.

科学研究的专利引用长期被用于知识继承和创新价值研究,科学研究的经济影响可用学术成果的专利引用指标来量化,以表征学术成果被用于创造专利的数量.2011～2017年,该指标均有500篇次/年以上,表明存在持续的基础研究向工业应用的知识流动.

如图1所示,AI科学研究所属学科领域包括计算机科学(45.5%)、工程学(18.6%)、数学(12.9%)、决策科学(6.6%)、社会科学(2.9%)、能源(2.8%)、物理和天文学(2.4%)和其他(8.3%).但2018年后,AI学科向决策科学、医学、社会科学、能源、物理与天文学、数学的知识流动极为显著,这些交叉学科领域的发文量比例显著提高,表明正在发生显著的多学科交叉融合.

图1 AI出版物学科领域分布Fig.1 Distribution of AI publications by subject area

如表3所示,国际合作占全部学术论文的17.6%,但篇均被引14.6次,FWCI达到1.66.而仅国家合作与仅机构合作的篇均被引分别仅为8.1次和6.5次,FWCI仅为1.03和0.95;单一作者发文则更受冷落,FWCI只有0.66.由此可见,国际科研合作交流显著提升了AI学术研究的科研绩效.

3.2 发表论文国家/区域分布

统计结果显示,当前已有159个国家/地区开展了AI研究并有文献发表.2011～2020年AI研究引文总量前20国家/地区分布如表4所示,中国在发文量和引用次数上已完成对美国的超越,位居第一,但FWCI代表的科研绩效仅为1,美国则达到1.73.英国紧随其后,总被引次数达到38万次.德国、印度、澳大利亚、法国、加拿大和西班牙处于相近的水平,总被引次数均在20万次以上.加拿大、法国、韩国、荷兰和澳大利亚紧随其后.

表4 引文总量前20国家/地区的科研绩效Table 4 Research performance of the top 20 countries/regions in terms of total citations

从FWCI指数来看,美国、英国、欧盟国家、澳大利亚和加拿大均在1.22以上,瑞士和新加坡特别优秀,达到2以上.相反,印度、日本、韩国和巴西低于1,这表明其学术成果未受到学术界的重视与引用.总之,美欧发达国家之外的国家和地区在发展高质量AI科学方面存在较大差距.

此外,2011～2020年,全球AI出版物的国际合作平均水平为17.6%.美国是最大的AI研究发源地,其国际合作比例达到36.2%.中国的国际合作比例处于较低的20.7%,但绝对数量已超过美国.同时,英国、澳大利亚、法国、加拿大、新加坡、瑞士和荷兰的国际合作程度较高,达到50%以上,可以说它们更依赖与美中等AI大国的合作.国际合作比例在20%左右的国家/地区还有日本、韩国、伊朗、土耳其和巴西,而印度仅为9.8%.

校企合作可促进AI研究的质量,加速科研成果转移转化.美国、德国、瑞士的校企合作比例达到9%左右,英国、法国、日本、新加坡、荷兰达到6%左右,欧盟国家普遍在4%以上,而我国仅为3.3%.

综上所述,我国AI科研绩效整体上处于世界平均水平,国际科研合作与校企合作比率偏低.基于“破五唯”的政策精神,应通过加强国际科研合作与校企合作提升科研成果质量,我国的AI研究仍有巨大的提升空间.

3.3 AI研究机构分布

2011～2020年引文量前20名科研机构如表5所示,美国5家,中国7家,新加坡2家,法国3家,瑞士、加拿大和中国香港各一家.按发文量排名,中国科学院达到8,233篇,显著高于其他机构;法国国家科学研究中心也达到6,239篇.虽然中法两国机构的发文量普遍较高,但从FWCI体现出的科研绩效较低,我国最高的中科院自动化研究所为2.18,清华大学为1.61,法国最高的国家信息与自动化研究所为1.78.新加坡两所大学的FWCI均在2.0以上,麻省理工学院、卡内基梅隆大学、斯坦福大学、加州大学伯克利分校等美国机构普遍在3.0以上,美国微软公司更是达到4.36.美国机构普遍重视校企合作,比率普遍在10%以上,微软公司更高达85.1%,而我国这一比例最高的为清华大学(9.4%).

在学术刊物上发表论文的主体为高校和研究所,企业发表学术论文的比例不高,在引文量前100的机构中,企业除美国微软公司外,仅IBM(发文1,957篇,被引32,676次,FWCI为1.97)和中国国家电网(发文1,352篇,被引10,963次,FWCI为0.44).

我国科研机构的国际合作和校企合作比例与美国机构相比偏低,这在一定程度上说明我国研究机构需要加强国际交流与合作,促进AI领域内科学知识在全球范围内的流动,并通过校企合作促进科学知识向产业技术与应用的转化.

3.4 AI学者分布

与机构分布相比,引文量排名前20的学者的地理分布更为广泛,来自12个国家/地区,如表6所示.我国高被引作者达到7人,西班牙和新加坡各2人,澳大利亚、中国澳门、德国、韩国、加拿大、卡塔尔、美国、日本、瑞士各1人.从FWCI体现的科研绩效看,延世大学的Seyedali Mirjalili、南洋理工大学的Erik Cambria突破了10,我国学者也都达到了3以上.这一情况说明,我国在AI领域已经培养了一批重量级的学者;同时美国以外的AI学者应当得到重视,是加强国际科研合作的对象.

表6 引文总量前20学者的科研绩效Table 6 Research performance of the top 20 scholars in terms of total citations

4 AI研究热点分析

本章综合应用WOS热点论文的关键词共现网络、基于自然语言处理的文本挖掘、研究主题的增长率、FWCI及显著性指数,深入挖掘AI领域的知识结构、研究热点与前沿.

4.1 AI学科的知识结构

本小节采用VOSviewer分析2011～2021年间4,048篇WOS高被引/热点论文的关键词共现网络,以展现AI领域的知识结构,如图2所示.

图2 AI热点文献关键词共现网络Fig.2 AI hot literature keywords coexist on the web

AI研究可分为以下4个主要方向:

1)深度学习.重要算法包括卷积神经网络(Convolutional Neural Networks,CNN)[31]、循环神经网络(Recurrent Neural Network,RNN)[32]与长短期记忆在内的各种神经网络(Long Short-Term Memory,LSTM)[33],主要用于特征提取、图像识别、物理检测、遥感监测、故障检测.在近两年的COVID-19大流行中,利用数据和信息技术来帮助控制和缓解全球大流行病成为人们关注的焦点,深度学习已被广泛用于(远程)疾病诊断等用途[34,35],是一个非常显著的研究热点.

2)AI与大数据.当前处于第4次工业革命,在工业领域的数字化转型升级中,基于(工业)物联网在智能制造等典型场景中产生了海量数据,迫切需要AI帮助分析与管理,同时也助推了AI自身的发展[36].数据和用于数据分析的算法的应用[37]也可以提高公共部门的现代化,提高行业竞争力[38].

3)模型、算法的设计、优化与预测功能.大数据分析、机器学习等与优化问题密不可分,算法的设计与优化是发展先进AI的重要引擎,预测[39]是AI最重要的功能之一.遗传算法(genetic algorithm)[40]、粒子群优化算法(particle swarm optimisation algorithm)[41]、进化算法(evolutionary algorithm)[42]是相当突出的关键词.

4)人工神经网络(Artificial Neural Network,ANN)[43]、支持向量机(support vector machine)[44]、模糊逻辑(fuzzy logic)[45]、随机森林(random forest)[46]等方法,主要用于地理信息系统与空间预测等.其中,神经网络居于共现网络的中心,体现了算法的核心地位;而疾病诊断与工业互联网是新兴的研究方向.

4.2 关键词分析

基于SciVal内置的文本挖掘功能确定AI研究中的热门关键词排名.该文本挖掘技术将多种自然语言处理技术应用于文献的标题、摘要和作者关键词,并通过加权算法克服仅仅通过词频来计算研究热点的不足.由此确定的前50个关键词云如图3所示(基于2011～2020年间的560,231篇文献).

图3 2011～2020年AI研究前50个关键词词云Fig.3 Top 50 keyword word cloud for AI research 2011～2020

关键词的发文量增长率体现了学术研究的流变.分析2011～2020年关键词的变化,如表7所示,可获得如下趋势:

1)深度学习研究的增长无疑最为惊人,相关的深度神经网络[47]、卷积神经网络[31]、递归神经网络[48]是科研人员产出最多的领域之一.机器学习[49]、支持向量机[50]、强化学习[51]也获得了许多增长,而控制论、学习系统、模糊系统、本体论却出现了下降,这体现了近10年学术研究的动向.

2)物联网[52]是研究热点,作为全球第4次工业革命(Industry 4.0,智能制造)的底层技术,增长率达到6,505%.物联网的大规模部署与应用产生了大数据及大数据分析的需求,其增长率达到57,683%.与之相关的数据挖掘、云计算也获得了增长.

3)AI最显著的应用对象无疑是机器人,这是它的内在属性.研究较多地集中于无人机[53]、面部识别[54]、图像识别[55]、智能电网、人机互动、计算机视觉等.

4.3 研究主题分析

Scopus中的显著性指数融合了引用(Citation Count)、浏览量(Scopus Views Count)与期刊影响力(Average CiteScore)3类参数,权重采用基于STAR METRICS的美国科研资助数据进行拟合优化,并经美国国家科学基金会(NSF)和美国国立卫生研究院(NIH)资助数据验证,显著性越高的研究主题获得基金资助的程度越高[56].最新的显著性指数是基于2019～2020年发表的论文计算的,通过显著性指数可筛选AI领域的研究前沿,可帮助研究人员了解最新的研究趋势.综合主题文献占比增长率为正、FWCI>1和显著性指数>99%,筛选出2011～2020年AI研究中领先的30个主题,如表8所示,这些主题主要分布于信息系统、计算机视觉、人机交互、智能制造、自然语言处理、模式识别等领域,涉及对象检测、动作识别、医学图像处理、意见挖掘、推荐系统、人机互动、脑机接口、轨迹跟踪、自动驾驶、物联网、工业4.0、故障检测、网络安全、区块链、交通流预测、机器翻译等重要的研究方向.

5 总结

本文旨在对近10年AI的发展状况进行全面深入的分析.为此,本文采用计量学方法分析了国家、机构和作者在AI研究方面的贡献,以及AI的知识结构、研究热点和技术趋势.通过分析可以得出:1)深度学习引领的第二代AI研究热潮自2016年兴起并还将持续下去,将深刻影响科学、工业和社会的发展.AI学科向决策科学、医学、社会科学、能源、物理与天文学等学科的知识流动极为显著,正在发生显著的多学科交叉融合,促进了这些学科的飞跃式发展;2)AI学术力量主要分布于中国、美国、欧盟、英国、印度、澳大利亚、加拿大、日本与新加坡等,国际科研合作交流显著提升了AI学术研究的科研绩效.我国AI发文量已居世界第一,并培养了一批一流学者,但科研绩效整体上还处于世界平均水平;3)AI领域的知识结构大致可分为4个方向:深度学习、大数据与物联网、模型算法设计优化、用于空间技术的人工神经网络、支持向量机、模糊逻辑、随机森林;4)与人工智能相关的研究热点前沿包括图像识别、工业4.0、意见挖掘、推荐系统、人机互动、脑机接口、轨迹跟踪、自动驾驶、故障检测、网络安全、交通流预测、机器翻译等.

AI引导的数字革命将深刻改变人类社会的可持续发展模式.为应对气候危机与人类社会可持续发展的挑战,应继续深入探索与发展AI科技,重视基础学科前沿.同时,也要开展更为广泛的跨学科合作,从脑科学与人类智能机理等交叉学科角度继续探索下一代AI技术.

目前,中美之间在AI领域的竞争正趋于白热化,美国于2021年通过了《美国创新与竞争法案》,有可能对中美科研合作交流产生重大影响.由于美欧发达国家之外的国家和地区在发展AI科学方面存在较大差距,我国应重视AI人才的教育、培养与引进,促进校企合作,进一步推动科学开放与国际合作.在探索继续与美国深化合作交流的可能性的同时,也要加强与欧盟国家、英国、澳大利亚、加拿大、新加坡等的合作交流,同时通过帮扶AI研究弱势国家树立有担当的大国形象.

还有许多问题严重制约着AI的发展:1)数据和机器学习算法驱动的AI在技术上的局限日益凸显,其发展与治理面临着算法层面、数据层面与应用层面的不足,如过于依赖大规模训练数据、场景适用范围窄、模型欠缺可解释性、稳定性和公平性;在数据传播、采集和使用中产生了巨大的商业、法律和道德风险,存在模型可解释性与泛化能力差、安全性低等技术问题,数据挖掘欠公平、隐私泄漏、数据确权、技术滥用等科技伦理问题[87],给社会公共治理与产业智能化转型带来严峻挑战,对未来人类社会结构产生不良影响.因此,需要发展安全、可信、可靠、可扩展和负责任的下一代AI技术[88,89];2)我国AI的发展虽然具备良好的基础,产业发展取得显著成绩,但在基础理论研究及科研绩效方面与国际先进水平仍有一定差距,AI与其他学科的交叉融合不够紧密.《人工智能标准化白皮书(2021版)》指出,我国AI底层技术存在较大欠缺,能够实现商业价值的应用较少,与实体经济的融合存在较高门槛,需要加快推动基础研究向产业技术与应用的转化,解决AI技术规模化推广和市场化普及等应用性难题,使社会更易接触和使用AI以创造商业价值.

综上所述,本研究综合多数据源和计量工具,对全球AI研究态势开展文献计量与可视化分析,为AI研究提供了一个全景式的视角,所揭示的AI发展趋势与研究热点,可为AI学术发展提供思路,为科学进步和人类社会可持续发展作出贡献.但本文研究中也存在不足之处,例如,在AI文献的检索上有可能还不够全面,同时AI研究文献的海量特征,对数据采集与分析构成了重大挑战.在未来研究中,将努力探索更为科学合理的海量文献数据的采集与分析方法,以期为相关科研管理提供更清晰的情报支撑.AI研究中的问题远不止本文提及和讨论的部分,文章内容难免有不当之处,恳请国内外专家和同行批评指正.