APP下载

主成分分析法在大学生上网行为分析中的应用

2017-03-21徐勇杨佳梅段妮歌弋改珍

电脑知识与技术 2016年33期
关键词:主成分分析大数据

徐勇+杨佳梅+段妮歌+弋改珍

摘要:随着大数据时代的到来,大数据分析技术已经在各行各业得到了应用和发展。研究了数据分析技术中主成分分析方法的原理和数据建模方法。以咸阳师范学院大学生上网行为数据为数据源,借助SAS软件中的数据库和分析模块,对数据源进行采集、整理、清洗,建立分析指标,对预处理后的数据从购物、社交、科技等网址类别指标进行主成分分析,得到大学生上网的高峰期和不同类别对大学生上网情况的影响。最后,根据对大学生上网情况的分析提出合理的规划与建议。

关键词:大数据;主成分分析;大学生上网行为数据

中图分类号:G202 文献标识码:A 文章编号:1009-3044(2016)33-0018-03

Abstract: With the advent of the era of big data, big data analysis technology has been applied and developed in all walks of life. The principle of principal component analysis and data modeling methods are studied. Using the students online behavior data for data source in XianYang Normal University, using database and analysis module in SAS software, the data source collection, sorting, cleaning and set up the index, and the pre processed data from shopping, social, science and technology. The types of indicators for principal component analysis, University students' in Internet the peak and different categories of Internet influence on students, finally put forward the planning and reasonable suggestions for college students.

Key words: big data; principal component analysis; university students' Internet behavior data

隨着互联网的飞速发展,生活在信息时代下的大学生们,自然少不了对于网络的使用。根据中国互联网络信息中心发布报告中的数据,表明网民的规模在迅速增大[1]。为了研究网络对大学生的影响,利用主成分分析方法对大学生上网行为数据进行分析。

主成分分析方法先是由K.皮尔森针对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形,其实际应用十分广泛,比如人口统计学、数学建模、数理分析等学科中,是一种常用的多变量分析方法[2]。SAS作为统计分析的标准软件,被广泛应用于科研,教育,生产和金融等不同的领域,并且发挥着越来越重要的作用[3]。

本文通过研究主成分分析方法的原理和数据建模方法,以我校大学生上网行为数据为数据源,借助SAS软件中的数据库和分析模块,对数据源进行采集、整理、清洗,建立分析指标。并对预处理后的数据在一定时间段的上网人数,从购物、军事、科技、旅游、社交、体育、新闻、学习、音乐、影像、游戏、工具、其他等13个不同类别的网址指标进行主成分分析。通过数据分析得到大学生上网的高峰期以及不同类别对大学生上网情况的影响,最终针对大学生上网情况提出合理的规划与建议。

1 主成分分析方法的数学原理

在实际问题的研究中,往往需要考虑很多因素,由于每个变量彼此之间都存在一定的相关性,导致所得到的观测值所反映的信息在内容上存在重叠,而研究者往往希望变量越少越好,少量的变量所反映的信息量越多越好,主成分分析[4]正是解决了这类问题,是将多个指标化为少数互相无关的综合指标的一种多元统计分析方法。

2 数据预处理

利用主成分分析的降维思想,选取每天24小时作为变量,用主成分分析方法来处理一周中每天的时间段的数据,其分析结果将会为我们找到包含大部分信息的时间段,这样有助于进一步的分析。

2.1 数据预处理

数据源来源于我校大学生上网行为数据,由于原始数据是日志文件,不是数据分析需要的结构化数据。在数据分析之前,需要对数据进行预处理,即数据的整理与清洗。数据源选取时间为4月11号~4月16号一个星期的上网数据。数据的观测是按时间进行排序的,指标有日期、学号、网址等。

在运用主成分分析的分析方法进行分析大学生上网数据分析之前,要将数据进行预处理。数据预处理主要分为以下几个步骤:

① 数据的合并及导入

原始数据是每小时的数据,要利用(copy *.log 合并文件.txt)进行每小时数据的合并,合并成为一天的数据。接下来在SAS中利用IMPORT过程将一天的数据导入。

② 数据的整理

为了通过主成分分析上网高峰期,先选取学生作为指标,利用PROC SQL过程查找有效学号信息,并进行记录。通过SAS中DROP VARIABLE-LIST过程过滤掉缺省值,比如无效学号、教职工信息、网址等。

③ 数据的清洗

利用SAS中nodupkey函数对不完整的数据、错误的数据、重复的观测进行清洗。

2.2 建立指标

选取每一类网址([n])的每天作为样本指标([p]),分别用符号X0,X1,X2,X3,X4,X5,X6,X7来表示。其表示矩阵为[Mij] ([i=1,2,…,n;j=1,2,…,p])。

3 主成分分析法在大学生上网行为数据中的应用

1)计算指标的相关系数矩阵

利用SAS中的主成分分析函数,计算出2.2中建立的指标的相关系数矩阵,如图1所示。从系数矩阵中分析部分数据可知网址之间相关性都比较高,说明每个网址分类之间存在着的一定的相关性,他们内部有一定的关联。

2)计算相关系数阵的特征值,特征向量及碎石图

结合上节中的主成分分析的原理,利用SAS中主成分分析函数,计算相关系数矩阵的特征值、特征向量及碎石图,如图2所示。一周上网数据的特征值结果可以看出前5个特征值的累计贡献率达98.91%。前3个特征值的累计贡献率达91.06%,说明前3个主要成分基本包含了全部指标,则取前三个特征值,并计算出相应的特征向量,特征向量的结果如图3所示。从图3可以看出第一主成分的表达式中,各个指标系数之间有一定差距,其中x0,x8,x10,x11的系数均大于0.3,说明可以把第一主成分看成是工具,学习,影像,游戏的综合指标。第二主成分表达式中,x5,x9的指标系数大,故起主要作用,说明第二主成分可以看作音乐和社交的综合指标。第三主成分表达式中,x2,x6,x7的指標系数大,故可以看作军事,体育,新闻的综合指标。一周的和一天的主成分分析还是有一点差距的,从其差距中看出同学们对军事,体育,新闻还是有一定的爱好的。

图4是碎石图,前3个主成分占了全部的主成分的91%以上,也可以说,在主成分3左右出现一个拐点,在这个拐点之后,曲线变得平滑,所以可以用3个主成分来表示原有样本数据信息。

4 分析结果

通过分析我们发现,有一部分人经常熬夜上网,并且绝大多数人每天的上网时长都在两三个小时以上,而针对他们上网的类别,分析其特征值可看出影像,学习,社交,购物的影响比较大。其次游戏和使用工具的人数也占不少的比例。在科技、旅游、军事、体育、新闻等方面,也有不少学生进行浏览,说明这是一个健康的上网数据,但对于当代大学生来说,这些方面所占比例较少。

针对这些问题,我们提出以下建议:

1)大学生应减少上网时长,做到用电脑两个小时后休息一小时。培养良好的上网习惯。

2)大学生应多关注新闻,科技,军事等相关资讯,及时了解时事新闻,获取各种最新的知识和信息。

3)大学生应减少在购物以及娱乐上所花的时间,将其投入到学习中去,充实自己的知识。

4)学校应开设网络素质教育课程,培养学生良好的上网习惯。宣传正确的上网心态。

5 结束语

通过研究主成分分析方法,更加了解了数据分析的重要性,而主成分分析方法不仅消除了各变量之间的共线性,减少了变量的个数,还减少了指标选择的工作量,使后续分析在指标的选择上相对容易,在用主成分分析法作综合评估时,由于选择的是累计贡献率大于等于85%的成分,这样就不会因为节省了工作量,而把关键指标遗漏掉,从而在一定程度上影响了评估的结果。但当主成分的因子的符号有正有负时,综合评估的意义就不明确了,这也是主成分分析的缺点。

参考文献:

[1] 中国互联网络信息中心. 第37次中国互联网络发展状况统计报告[R]. 2016.

[2] 何晓群. 现代统计分析方法与应用[M] .北京:中国人民大学出版社, 2003 .

[3] 胡小平, 王长发. SAS基础统计实例教程[M]. 西安: 西安地图出版社, 2001.

[4] 谢龙汉, 尚涛. SAS统计分析方法与数据挖掘[M]. 北京: 电子工业出版社, 2012.

[5] 许淑娜, 李长坡. 对主成分分析法三个问题的剖析[J]. 数学理论与应用, 2011, 31(4): 116-121.

猜你喜欢

主成分分析大数据
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
大数据环境下基于移动客户端的传统媒体转型思路