APP下载

基于我国疫情期间农林牧渔业总产值的聚类分析

2022-01-08张静

商业2.0-市场与监管 2022年1期
关键词:总产值聚类分析

摘要:本文对我国2020 年疫情期间31省份农林牧渔业总产值数据进行了梳理, 运用SPSS对这四个指标进行聚类分析,先进行系统聚类,然后运用K-means方法继续聚类,得出了一些结论和思考。

关键词:农林牧渔;总产值;聚类分析;SPSS

1.论文的背景与意义

农林牧渔业总产值指以货币表现的农、林、牧、渔业全部产品的总量,它反映一定时期内农业生产总规模和总成果。农业总产值的计算方法通常是按农林牧渔业产品及其副产品的产量分别乘以各自单位产品价格求得;少数生产周期较长,当年没有产品或产品产量不易统计的,则采用间接方法匡算其产值;然后将四业产品产值相加即为农业总产值。

农林牧渔业总产值在国内总产值中占有重要地位,其发展对我国国民经济稳定快速发展有着深远的意义。2011-2020年中国农林牧渔业总产值呈直线增长趋势,至2020年底,中国农林牧渔业总产值13.78万亿元,较2011年增长5.9万亿元。

疫情影响下各地的农林牧渔业发展稳定性尤为重要,本文主要以2020年疫情下全国31个省市自治区农林牧渔业总产值为研究对象,通过系统聚类和快速聚类法(K-means聚类)把31个地区分为三类比较合适,对全国31个省、市、自治区的农林牧渔业总产值水平进行了地区差异分析。

2.数据的来源与数据的介绍

數据来源于国际统计局。其中该数据是按照现行统计制度,农林牧渔业总产值的核算范围是本辖区内一定时期内生产的农业、林业、牧业、渔业产品的价值量和对农林牧渔业生产活动进行的各种支持性服务活动的价值的总和。

根据农业生产特点,农林牧渔业总产值的核算采用“产品法”进行计算,即用产品产量乘以价格求出各种产品的产值,然后把它们加总求得各业的产值,最后各业相加求出农林牧渔业总产值。当年生产的各种农产品都要计算产值,并且每种产品都按全部产量计算,不扣除用于当年农产品生产消耗的那部分产品的产值。以林业为例,其产值主要包括林木的培育和种植,木材、竹材采运产值,林产品产值等。其中林木的培育和种植采用以费用代替生长量计算,即按从事人造林木各项生产活动的成本计算,先取得育苗面积、造林面积、零星植树株数、迹地更新面积、幼林抚育面积、成林抚育面积六项资料,然后分别乘以上述各项生产活动的单位成本得到。

3.简单的描述性统计分析

运用SPSS对这八个指标进行描述统计分析,对数据进行过程处理,得到处理结果如下:

1. 四大类指标中农业总产值平均值最高为2314.4584,林业总产值平均值最低为192.3087。

2. 31省份指标差异性最大也就是离散程度最高(标准差最大为1614.18928)的为农业总产值,其次是牧业总产值;省份间差异性较小(标准差为147.11588)的为是渔业总产值。

4.实证分析

统计或计量方法的介绍:

系统聚类法(或层次聚类法,hierarchical clustering method)是通过一系列相继的合并或相继的分割来进行的,分为聚集的(agglomerative) 和分割的(divisive)两种,适用于样品数目n不是很大的情形。聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之 间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类, 计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类, 直至所有的样品合并为一类。常用的系统聚类方法有: 最短距离法、最长距离法、类平均法、重心法、离差平方和法(Ward方法),以上系统聚类方法的区别在于类与类之间距离的计算方法不同。

动态聚类法,只能用于对样品的聚类,而不能用于对变量的聚类。 动态聚类法有许多种方法,一种比较流行的动态聚类法为k均值法(k-means法) 。动态聚类法的计算量要比建立在距离矩阵基础上的系统聚类法小得 多。因此,使用动态聚类法计算机所能承受的样品数目n要远远超过使用系统聚类法所能承受的n。

k均值法(k-means法)的基本步骤:

1.选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然 后将这k个类的重心(均值)作为初始凝聚点。

2. 对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它 最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类 目前的均值,直至所有样品都归了类。

3. 重复步骤2,直至所有的样品都不能再分配为止。最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。 经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。

(2)数据与模型相结合分析

表1为我国2020 年31省份农林牧渔业总产值数据情况,我们想要用这四个指标来分析疫情发展一整年我国北京等31个省、直辖市、自治区农林牧渔业水平分别属于哪一个类别,哪几个省市农林牧渔业水平处在同一个水平。

运用SPSS对这四个指标进行聚类分析,先进行系统聚类,得到初始的聚类结果树状图,确定聚类的个数,然后运用K-means方法继续聚类。

第一步:先进行系统聚类,这里的系统聚类法,分别采用欧氏距离的类平均法、最短距离法、最长距离法把31个省市分类来得到我们需要的结论。对数据进行系统聚类过程处理,得到处理结果:

1. 其中三个方法得到的数据缺失值报告均一致:

数据的缺失值为0,很可观,可对其进行聚类分析。

2. 三个方法得到的树状聚类图结果显示:类平均法和最远近邻法这两种方法来看,聚类数分为3类较为合适,最近邻元素法最合适分类不太明显。

第二步:再利用K-means法对31个省、市、自治区的城镇居民消费水平进行聚类分析,其中聚类数分为3类。

K=3时的k-means输出结果如下:

1. 通过初始聚类中心表:可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。

2. 迭代历史记录表展示了3个类中心点每次迭代的偏移情况,第三次迭代3个类的中心点偏移达到指定判定标准。

3. 最终聚类中心表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。

4. ANOVA表可以看出渔业总产值对聚类分析影响较小,显著性大于0.05,农业、林业、牧业总产值等对聚类分析影响较大。由于已选择聚类以使不同聚类中个案之间的差异最大化,因此 F 检验只应该用于描述目的。实测显著性水平并未因此进行修正,所以无法解释为针对“聚类平均值相等”这一假设的检验。

5. 每个聚类中的个案数目表:给出了各类中的样品数目,第一类包括13个地区,第二类包括15个 地区,第三类包括3个地区。

5.结论

以上先针对八大指标先进行了系统聚类,得到每两个地区或类间的聚类过程,确定聚类数量为3,在此基础上在进行K-means聚类,通过这两种方法的结合,使分析更充分优化,得到疫情下2020年的全国31个省、市、自治区的农、林、牧、渔业各总产值的差异化分析,得到了这31个省、直辖市、自治区消费水平分别属于哪一个类别,哪几个省市消费水平处在同一个水平,其中:

第一类:山东省、河南省、四川省,這3个省份农业总产值尤其高,农业产出大省;

第二类:江苏省、黑龙江省、广东省、湖北省、河北省、湖南省、广西壮族自治区、新疆维吾尔自治区、云南省、陕西省、贵州省、安徽省、辽宁省、福建省、内蒙古自治区,这些省份农牧业总产值还可以,部分省份渔业总产值不错;

第三类:北京市、天津市、山西省、吉林省、上海市、浙江省、江西省、海南省、重庆市、西藏自治区、甘肃省、青海省、宁夏回族自治区,这些省份农、林、牧、渔业各总产值均较低,这些城市城市发展更多的不依赖于农业,比如北京、天津、上海等更多的依赖于科技、金融等。

6.分析与讨论

2020年新冠肺炎疫情对我国经济产生了重大冲击,此次疫情情对国民经济、农业和农业食物系统的冲击显著。与无疫情基期相比,全国 GDP 下降严重的情况下,农业下降的幅度相对小一些。特殊时期,保障国家粮食安全和重要农产品有效供给更是尤为重要,2020 年又是全面建成小康社会和“十三五”规划收官之年,也是脱贫攻坚决战决胜之年,面对国内外风险与挑战,我们稳住了农业,尤其是农业大省的农林牧渔业总产值。未来我们不仅要体量更要质量,更要坚持农业科技优先发展,深化农业科技体制改革确保粮食和重要副食品的安全。

参考文献:

[1]郭志刚.《社会统计分析方法——SPSS软件应用》中国人民大学出版社

[2]张启楠,张凡凡,曾咏梅.《我国城镇化率与农林牧渔业总产值之间的关系》江西农业

[3]魏后凯.《协调推进农林牧渔业现代化改革的核心内涵》 中国禽业导刊

[4]于超,江赛君,许光宇.《以企业产品法开展农林牧渔业统计的探索思考》统计科学与实践

作者简介:张静(1992.1-),女,满族,天津市,本科,对外经济贸易大学统计学院,研究方向:大数据科学与应用。

猜你喜欢

总产值聚类分析
线性盈亏平衡分析在TBM隧洞工程中的应用
浙江:农业增加值首破2000亿元
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
中关村延庆园总收入首次过百亿
浙江海洋经济年总产值2200亿元