APP下载

我国区域科技产出水平的差异性研究
——基于稳健主成分分析

2022-02-23何春雨柴啸龙李雄英

中小企业管理与科技 2022年1期
关键词:离群沿海地区省份

何春雨,柴啸龙,李雄英

(1.广东财经大学会计学院,广州511300;2.广东财经大学统计与数学学院,广州510000;3.广东财经大学经济学院,广州510000)

1 引言

科技是国之利器,国家赖之以强,企业赖之以赢,人民生活赖之以好,这是习近平总书记在中国科学技术协会第九次全国代表大会中强调的,说明科技水平的提高对国家、企业、人民的发展尤为重要。科技产出作为科学研究的最终目的,其发展水平的高低在很大程度上也代表了该国家、企业的经济发展水平。因此,如何提高我国各省份的科技产出水平成为一个值得关注的话题。国内已有许多学者对其进行了深入的探讨。刘闯、高琴琴(2011)针对科技综合评价方法的缺陷,提出了一种新的科技产出评价方法,即在因子分析的基础上构造了FA-AHP 组合赋权模型,结果表明:我国大多数省份的科技产出绩效未能达到平均水平。王庆丰(2013)收集了评价区域科技绩效的相关指标,并使用偏最小二乘通径模型对我国科技绩效进行综合评价,实证结果表明:我国各省份之间的科技绩效存在较大的差异。

当前,人们获取的数据中通常存在离群值,而离群值的存在往往会使利用传统方法计算得到的结果不符合实际情况,传统主成分分析也同样存在这一问题。针对这一现象,国内外学者将传统主成分分析与稳健统计的思想相结合以抵消或削弱离群值的影响,如Hubert、Rousseeuw(2005)通过模拟实验和实证分析均表明通过稳健方法更能得到贴近实际情况的结果。

因此,本文首先引入稳健统计的思想,借鉴Hubert、Rousseeuw 提出的ROBPCA 算法与传统主成分分析方法相结合,构建出稳健主成分分析方法,以达到减少或者消除离群值影响的目的,从而使得主成分分析的结果较为贴近实际情况;其次,通过稳健综合主成分得分可以更直观地反映我国区域科技产出水平的不平衡问题;最后结合结果提出提高我国科技产出水平和减少我国各省、自治区和直辖市的科技产出水平差异的相关政策建议。

2 区域科技产出水平不均衡的研究

2.1 传统主成分分析的不稳健性及稳健主成分分析的原理

2.1.1 传统主成分分析的原理及其不稳健性

主成分分析是一种有效的降维方法,它能够较为充分地提取高维数据中的信息,假设有1 个n×p 的数据矩阵Xn×p,其中,n为样本容量;p 为数据维度。主成分分析的基本步骤如下:

①将数据矩阵Xn×p标准化,即,其中,μi为第i 个样本的均值;σi为第i 个样本的方差。

②求标准化矩阵Z 的相关系数矩阵R=ZTZ。

③计算样本相关系数矩阵的特征方程|R-λx|=0,得到从大到小排列的p 个特征根,并按的原则,选取前m 个主成分。

④将标准化后的指标变量转化为主成分。

⑤通过各个主成分的得分来计算m 个主成分的综合得分,即:score=

从传统主成分分析的基本步骤可以看出,模型的计算中最重要的一个步骤是计算样本的均值和协方差矩阵,而这两个统计量是不稳健统计量,即对离群值比较敏感,从而导致传统主成分分析方法对离群值的抗差性较差。换言之,当数据中存在离群值时,应用传统主成分方法得到的结果与真实情况之间会产生较大的偏差,而人们获取的社会科学的数据中普遍存在离群值。因此,相关人员有必要对传统主成分分析进行稳健改进。

2.1.2 稳健主成分分析的原理

由上文分析可知,传统主成分分析方法易受离群值影响,从而导致计算结果与实际情况不符。针对这一现象,本文将传统主成分分析方法与稳健统计的思想相结合,使用前人所构建的稳健主成分分析方法(ROBPCA 算法),以达到抵抗离群值的影响的作用。同时,使用此方法分析我国区域科技产出水平不均衡的原因。ROBPCA 算法的主要原理如下:

①采用投影寻踪算法(Project Pursuit),在不损失信息的情况下,对数据矩阵进行降维。

②使用Fast-MCD 算法得到降维数据矩阵的稳健协方差矩阵和稳健均值向量。

③计算稳健相关系数矩阵,并计算稳健样本相关系数的特征方程,得到前n 个稳健主成分。

④计算前n 个稳健主成分的稳健综合主成分得分。

2.2 影响科技产出的指标选取

科技产出是通过科技活动产生的各种形式的科技成果,是进行科学研究的最终目的,各个省份的科技产出也反映了各个省份的科技实力。影响区域科技产出水平的因素有很多,主要包括经过授权的专利、发表的论文和著作,等等。因此,本文选取了2011-2016年的R&D 项目(课题)数(单位:项)、出版科技著作(单位:种)、国内专利申请授权数(单位:件)、核准注册商标(单位:件)、科普图书出版总册数(单位:万册)以及发表论文数(单位:篇)这6 个指标数据,并运用稳健主成分分析来综合反映各个区域科的技产出水平,数据来源于EPS 全球统计数据平台。

2.3 基于稳健主成分分析的区域科技产出水平不均衡的研究

为说明我国各个地区科技产出水平的不平衡,首先采用稳健主成分分析方法对各区域科技产出水平的总体情况进行阐述,随后通过稳健主成分分析得到的各个稳健主成分的累积方差贡献率,如表1 所示。

表1 稳健主成分的累积方差贡献率

由表1 可知,根据累计方差贡献率大于等于80%的原则,本文选择第一主成分来反映总体信息,前一个主成分得分情况如图1 所示。

图1 各省份的主成分得分情况

由图1 可知,北京、江苏、广东、浙江、上海等省市均在第一主成分上有较高的得分,这些省份主要分布在东部沿海地区,这说明东部沿海地区有较高的科技产出水平,而相对落后的西部地区,如西藏、青海、宁夏等地区的第一主成分的得分较低,因此,通过图1 可大致判断我国各省份的科技产出水平存在着不均衡的现象。

在此基础上,通过各个稳健主成分的得分来综合评价各个省份的经济发展情况,各省份的稳健主成分综合得分及排名如表2 所示。

由于原始数据矩阵经过了标准化,因此,当稳健主成分的综合得分大于0,说明该区域的科技产出水平在全国平均科技产出水平以上,若稳健主成分综合得分小于0,则说明该区域的科技产出水平在全国平均科技产出水平以下。由表2 可知,有17 个省份在全国平均科技产出水平以上,而有14 个省份在全国平均科技产出水平以下。同时可以发现北京的综合评分排名第一,其综合得分为5.72,即北京的科技产出水平最高,这主要是北京自身得天独厚的因素使然,与北京作为我国的文化、政治、经济中心,且拥有着较高的资源优势休戚相关。综合排名较高的地区还有江苏、广东、浙江、上海等,这些省市主要分布在东部沿海地区,这说明我国东部沿海地区的科技产出水平较高。科技产出水平较低的地区主要有西藏、青海、宁夏等,其综合得分分别为-1.63、-1.58、-1.43,而这些省份主要分布在西部地区,这说明了西部地区科技产出水平相对较为落后,需要进一步提高这些省份的科技发展水平,值得重点关注。其余省市,如安徽、湖南、重庆等主要分布在我国的中部地区,科技产出水平适中。因此,综合上述分析可知,我国区域之间的科技产出水平存在着不均衡且科技产出水平有从东南沿海地区到西北地区逐渐递减的趋势。

表2 2016年稳健主成分的综合得分及排名

考虑到稳健主成分分析只能反映我国31 个省、自治区、直辖市的科技产出水平,并没有对我国各地区科技产出水平进行划分。因此,本文通过“自然间断法”将我国科技产出水平划分为5 个水平,分别为-1.6~-0.7、-0.7~-0.1、-0.1~0.5、0.5~1.9、1.9~5.7。

具体来说,处于科技产出最高水平的省市有北京、江苏、广东、浙江、上海、湖北、山东,其稳健主成分综合得分为1.9~5.7;处于科技产出较高水平的省份有四川、河南、辽宁、陕西、湖南、安徽,其综合得分为0.5~1.9;处于科技产出第三水平的省市有河北、福建、重庆、黑龙江、吉林、天津,其综合得分为-0.1~0.5;科技产出水平相对落后的地区有江西、云南、广西、内蒙古,其综合得分为-0.7~-0.1;科技产出水平最为落后的省份有甘肃、山西、贵州、新疆、海南、宁夏、青海、西藏,其综合得分为-1.6~-0.7。同时可以发现处于科技产出第一水平的省市有6 个,并且大部分布在东部沿海地区,而处于科技产出第五水平的也有6 个地区,主要分布在西部地区。我国科技产出水平总体上呈现出从东南沿海地区到西北地区递减的趋势,与我国经济水平提升情况基本相一致,这也符合我国经济现状和基本国情。

3 结论及政策建议

本文通过稳健主成分分析得到各区域之间的科技产出情况,并基于稳健主成分得分直观反映我国区域科技产出水平存在不均衡的现象,且发现科技产出水平有着从东南沿海地区到西北地区逐渐递降的趋势。

综合以上研究,为提高我国各地区的科技产出水平和减少我国各省份之间科技产出水平的差异,可以从以下方面入手:

①根据各区域的科技产出水平可知,西部地区的科技产出水平相对落后于其他地区,因此,为提高西部地区的科技产出水平,国家有必要采取相应政策来加强和扶持西部地区科技产出水平的提高,从而提升西部地区的科技产出水平。

②根据各区域的科技产出水平可得,东部沿海地区具有较高的科技产出水平,且大部分地区具有较高的经济发展水平,因此,对于东部沿海地区,可以通过加强对高科技人才的培养、加强高新技术的内外交流等方式来提高科技产出水平。同时,东部沿海地区应该起到带动科技产出活力的作用,并多与邻近省份进行科技合作,从而促进我国科技产出水平的提升。

③从总体上看,仍有较多的省份处于我国平均科技产出水平以下,为提高我国各省份科技产出水平,我国可以加大科技创新的投入力度,大力发展高等教育进行人才培养,从而提高我国各省份的科技活力。

猜你喜欢

离群沿海地区省份
一种基于邻域粒度熵的离群点检测算法
论民国沿海地区渔业发展困境及其应对路径
海陆风对广东沿海地区秋冬季污染物的影响研究
谁说小龙虾不赚钱?跨越四省份,暴走万里路,只为寻找最会养虾的您
一种相似度剪枝的离群点检测算法
16省份上半年GDP超万亿元
北京冬奥会背景下沿海地区冬奥项目发展的研究
从数学的角度初步看离群点检测算法
候鸟