APP下载

基于校园一卡通数据的用户行为分析

2019-08-31李陈依宿汉辰刘嘉青毛羽哲王泽坤李顺

中文信息 2019年8期
关键词:校园一卡通数据可视化数据挖掘

李陈依 宿汉辰 刘嘉青 毛羽哲 王泽坤 李顺

摘 要:在当下的大数据时代,数据挖掘应用十分广泛,对于校园一卡通数据的研究也更为广泛。本文以国际关系学院一年内的图书馆、食堂和浴室的一卡通刷卡记录为例,对学生的用户行为进行分析,为师生日常生活提供科学建议,为学校提出设施优化建议以提升校园生活质量。

关键词:校园一卡通 数据挖掘 数据可视化 关联规则挖掘 用户行为分析

中图分类号:TP311文献标识码:A文章编号:1003-9082(2019)08-0-02

一、引言

校园一卡通是记录师生行为轨迹、消费特点、行为偏好的有效信息集成系统,为师生提供信息化智慧校园服务的同时也存储了海量信息,对这些数据进行挖掘分析可以为教学、后勤和管理等多个领域做出十分有益的贡献。本文基于隐去学生个人属性信息的校园一卡通数据,涉及图书借还记录、餐饮消费和淋浴记录等,以数据分析为背景,得出学生总体的用户行为画像,涵盖多维度多层次并实现了数据可视化。对同学们日常生活做合理规划并提出有效建议,同时向学校相关部门提出改进意见,旨在提高校园生活质量,完善校园基础设施。

二、数据分析流程

我们的数据分析流程分为四步:

1.数据采集:经过与学校有关部门的协商,我们采集到2017~2018年度包括消费时间、地点、金额的食堂、浴室数据和包括借还书情况的图书馆数据;

2.数据处理与可视化:我们对拿到的数据利用Python、Excel的VBA等进行数据预处理,并用Python、Echarts和IBM Cognos对数据进行可视化展示;

3.数据分析:我们基于可视化的图表对各部分数据进行分析,用Weka对图书馆借还书数据进行关联规则挖掘。通过描绘师生校园轨迹、行为习惯与偏好,为师生提出科学的行为建议,并对学校各部门提出设施优化建议;

4.成果展示:我们将最终的结论结合可视化图表做成网页发布在Github上。

接下来我们将分别对图书馆、食堂和浴室数据进行的分析进行阐述,得出有益的结论。

三、图书馆数据分析

我们对图书馆的借还书种类、数量以及时间特点进行分析,并借助Weka按系对每位同学的借书种类进行关联规则挖掘,找出更有可能同时借阅的书籍。

1.关联规则挖掘

我们借助Weka应用Apriori和FP-Tree算法,分别根据如下公式得到最小置信度conf、杠杆率lev、确信度conv和提升度lift,并进行相互验证:

其中,P(X)为X项集在总项集中的概率,A、B为借阅书目的项集。conf,conv,lift,lev的值越高,表示A和B项集的关联度越高,四种计算方式可以在结果上相互印证。

根据关联规则挖掘结果我们发现,由于学校是一所政法类大学,信科学生在借阅计算机类书时往往会借阅文学类、政法类书籍;外院、国经、国政系在借阅本专业书籍时往往会借阅文学类书籍。本科生钟爱文学类,研究生则更偏爱政法类和史地类。

总的来说,政法类书籍往往和史地类一同借阅,哲学宗教类书籍往往和语言文字类一同借阅,而文学类书籍则更易和各类书籍一同被借阅。我们建议借书处据此来为图书类别位置的安排做出更为合适便捷的规划。

2.借还书院系、种类和时间特点

经过数据处理和可视化,我们发现的规律如下:

2.1院系上:外院和国政为借还书籍常客(可参考图2灰色柱状图部分);

2.2种类上:研究生主要借阅政法类书籍,本科生主要借阅文学类、政法类、语言文字类。

2.3时间上:一年中,本研借书高峰为3月和9月,对应每个学期的开始,而还书数量则越接近期末越多;教职工借书呈现波动分布,在12月达到高峰,他们往往倾向于在期末把书借回家看,开学归还。一天中,本研借书高峰约在15点,而教职工借书高峰在10点,反映出不同群体的借书习惯不同。

3.各院系借還书数量与种类数的多维探测

我们使用IBM Cognos对图书馆的数据进行分析,得到如图2关于各院系借还书数量与种类数的统计图。图中灰色柱状图(对应左纵轴)表示借还书总量,黑色方形(右纵轴)表示借还书种类数,横轴表各院系。

我们从本科生到研究生的变化看出,公管借还书广度明显增加,故建议公管系学生尽早博览群书,提升专业素养;法律系相反,借还书深度提升,建议法律系同学多借阅书籍来打好专业基础;信科系同学借还书量明显减少,结合实际我们发现由于信科属于时新技术,同学们更适合学会利用互联网学习时新技术提升专业技能,建议同学们不要太依赖书本。

四、食堂数据分析

对于食堂数据,我们将先根据各窗口销量与消费的三维图对比,向食堂提出菜系安排建议;再分别研究同学们的就餐时间分布和就餐规律性,为学校、师生提出有益的建议。

1.就餐菜系偏好

根据各窗口销量与消费的三维对比,我们重点研究了销量高但消费不低,销量高且消费低等窗口,和实地考察对应菜系相结合,分析出学生就餐菜系偏好,向食堂提出科学建议。

销量最大的是小卖部窗口,其消费水平低;最受学生欢迎的是黄焖鸡和中间的基本伙食窗口,由口味和便利性决定;价格高的菜若等待时间长,则容易销量低;价格相同的菜系,品种越丰富,越受欢迎。

2.就餐时间和规律性

学生就餐时间分布如图3左,结合学校课程时间安排,我们发现学生就餐时间和作息规律与课程时间息息相关,因此我们建议学校通过合理安排课程时间来促进学生的健康作息:

2.1早餐:主要集中在7:50,在9点和10点会有下课买早餐的小高峰;

2.2午餐:12:05~12:15为高峰,为第四节刚下课时间;

2.3晚餐:18:15~18:35为高峰,为下午课和晚课交锋的时间。

建议师生错峰就餐,建议食堂工作人员在峰值安排够人手,采取措施避免拥挤。

根据图3右的学生就餐平均方差分布图并结合研究知,多数同学就餐较规律,且都集中在高峰点就餐,由此看出教务处课程安排与食堂规划有密切关系,建议学校教务处和食堂部门充分协调,为学生就餐以及作息规划做出更合理的安排,此将有益于学生的身体健康。

五、浴室数据分析

对于浴室的数据分析,我们主要从三个方面进行阐述:不同单位时间内洗澡人数变化、學生洗澡的插卡及消费习惯和不同位置的喷头受欢迎程度。

1.淋浴时间特点

洗澡人数高峰的月份为12月,低谷期为5月。原因是夏季宿舍楼淋浴间可以使用,也造成了冬季锅炉的负担过大。建议学校将每日浴室开放时间延长,增加宿舍楼淋浴间的开放时间,且在冬天要尤其注意浴室锅炉的维修和正常运作。

2.学生淋浴消费特点

同学们单次洗澡的插卡次数集中在2~3次,单次插卡的消费金额约0.3~0.9元,故每个同学单次的洗澡消费约为1.5~2.7元,约7.5~13.5分钟。

插拔卡过程中卡易失手掉入阴槽和水费是造成同学分类的原因。建议学校设计放卡更保险的校园卡计时收费机并实行分段的计费标准,对单次插卡超过5分钟的校园卡增加收费力度。

3.浴室不同喷头的使用情况

我们根据可视化图表,实地考察浴室喷头分布,得出了图4的浴室各喷头使用频次分布图,发现了男女生在浴室的洗澡偏好特点:

3.1女浴室:热门喷头集中在空间较狭小的区域,冷门喷头普遍位置偏僻,私密性和路程是两大主要因素。

3.2男浴室:对喷头的偏爱程度与位置和私密性并无太大关联,爆热喷头主要由于该喷头出水充裕水温恒定且隐私性好,冷门喷头则是大多靠近过道或窗户,空气流动大温度低。

建议尤其加强男浴室的保暖防风工作,以及对各浴室冷门的喷头的及时维修检查。

结语

本文以数据为驱动,为图书馆书籍放置、食堂菜品优化、澡堂维护及课程安排等方面提出合理建议,有助于改善校园设施。同时,同学们可以更直观地了解大众校园踪迹,合理安排校园生活。我们也希望未来能有更多关于校园更全面数据挖掘的研究,不断完善校园规划布局,建设更美好的校园。

参考文献

[1]薛黎明,栾维新,李志淮,等.数据挖掘在校园一卡通消费数据分析中的应用[C] / /中国高等教育学会教育信息化分会:中国高等教育学会教育信息化分会第十二次学术年会论文集,2014:1-8.

[2]黄刚,刘蓉,刘合富, 等.基于校园一卡通数据的人群画像分析[J].计算机与数字工程,2018,46(9):1881-1886. DOI:10.3969/j.issn.1672-9722.2018.09.037.

[3]刘志宏,喻晓旭.基于数据挖掘的校园一卡通消费行为分析[J].信息记录材料,2018,19(12):89-90.

[4]韩伟,胡西民,付刚, 等.基于校园一卡通系统的餐饮消费数据分析[J].江苏科技信息,2018,35(24):26-29.

[5]谢康,吴记,肖静华.基于大数据平台的用户画像与用户行为分析[J].中国信息化,2018(3):100-104.

[6]廖强.基于关联规则挖掘的WEKA 数据挖掘应用[J].计算机光盘软件与应用,2012(19).

[7]JiaweiHan, MichelineKamber, JianPei, et al. 数据挖掘:概念与技术[M]. 机械工业出版社, 2012.

作者简介:李陈依,女,国际关系学院信息科技学院智能信息处理方向2016级本科生,

李顺,男,2013年博士毕业于北京大学计算机科学与工程系,现任国际关系学院信息科技学院硕导,副教授,研究方向为数据挖掘、大数据分析和人工智能。

猜你喜欢

校园一卡通数据可视化数据挖掘
基于并行计算的大数据挖掘在电网中的应用
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
校园一卡通模式下的校园安全管理
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究