APP下载

基于校园一卡通系统的数据挖掘研究

2018-03-14李珊珊焦宝臣曲申张玮杨阳张四海

中国教育信息化·高教职教 2018年2期
关键词:一卡通数据挖掘

李珊珊+焦宝臣+曲申+张玮+杨阳+张四海

摘 要:本文以一卡通数据库交易流水数据为研究对象,系统地对师生的消费习惯和行为规律进行探讨。采用Matlab2015b和Origin9.0对数据进行预处理,包括数据清洗、一致性检验、格式化、相关信息统计等。在对539376条食堂交易流水数据进行详细分析后,给出了本科生、硕士、博士和教工的整体就餐情况;讨论了师生在工作日和节假日不同的就餐规律;研究了在快餐和美食广场两种不同业态商户的就餐规律;最后分析了新校区搬迁对本部食堂的影响。

关键词:一卡通;数据挖掘;交易流水;消费数据

中图分类号:TP392 文献标志码:B 文章编号:1673-8454(2018)03-0077-04一、引言

校园一卡通系统是智慧校园的重要组成部分[1-5],是学校信息化建设的重要基础。目前,人们更多地集中在如何建设和运营一卡通系统,而对于系统中沉淀的大量消费、行为数据,通常缺乏有效的分析、整理和利用。随着一卡通应用的不断扩展,校园一卡通已由最初的小额消费卡,变为学生证、借阅证、门禁卡、考勤卡、公交卡,甚至能够应用于学籍注册、自助文印、学费缴纳、体育场馆预定、体能测试等场景[6-8]。可以说,一卡通已成为数字化校园生活最重要的载体和最直观的体现。

随着时间的推移,一卡通系统里累积了大量消费和行为数据。对一卡通数据进行深度分析,特别是基于大数据理论,从大量复杂、无序的原始数据中提取有价值的信息,找出数据之间的关联,具有非常重要的意义[9-12]。

本文首先对南开大学一卡通系统进行了简介,然后,以食堂交易流水数据为研究对象,采用抽样的方法对师生的消费模式和行为规律进行研究。在对539376条交易流水数据分析后发现,本科生的食堂就餐比例最高,在一层快餐和二层美食广场的就餐比例分别高达68.57%和77.88%;教工的就餐比例最低,分别为5.33%和4.55%;师生在工作日和节假日的就餐习惯有较大差异,节假日食堂就餐人数显著减少,时间更为分散,用餐高峰更为平缓;对于快餐和美食广场这两种不同业态的商户,师生就餐规律有较大差异,分别对其进行详细分析;最后探讨了新校区搬迁对本部食堂的影响。研究发现,搬迁前,食堂工作日午餐高峰时段人数偏多,F1、F2时段(11:00-12:00)的平均刷卡次数高达3706次,易发生拥挤现象;搬迁后,F1、F2时段平均刷卡次数减少为2373次。新校区搬迁有效缓解了食堂就餐拥挤的状况。搬迁后,虽然师生总人数减少了一半,但高峰时段就餐人数只减少了约1/3,这表明改善食堂就餐环境会吸引更多师生在食堂就餐。对一卡通数据进行深入研究,有助于学校实时掌握师生的行为规律、给出有效的趋势预测、优化资源配置,对学校相关管理部门进行科学决策具有重要意义。

二、南开大学一卡通系統简介

南开大学一卡通系统始建于2007年,系统经历了多年的发展和不断完善。图1给出了南开大学一卡通系统的网络拓扑图。它是一个运行在一卡通专用网络上、基于C/S架构的多应用集成系统。按照系统功能,可以划分为数据层、平台层、网络层和应用层。数据层是一卡通系统的数据存储中心。对内,它为一卡通系统提供基础数据支持;对外它负责与全校统一数据中心进行交互和同步,并为教务、人事、学工等系统提供预留接口,从而实现未来与各个系统数据库的对接。平台层是一卡通系统的运营管理中心,它包括电子支付和身份认证两大平台。一卡通专网为系统数据的传输和交互提供专用通道。

应用层是一卡通系统中最复杂、最贴近用户的一层,它为用户提供各种应用服务。具体包括充值系统、消费支付系统、身份认证系统以及其他第三方应用系统。南开大学一卡通充值系统能够为师生提供现金充值、银行圈存转账、网络、手机APP四种充值方式,方便广大师生的使用。消费支付系统支持在食堂、超市、浴室等场所的刷卡消费,同时还支持图书逾期的自动扣款,网费缴纳以及自助文印扣款等应用。身份认证系统包括所有需要身份识别的场景,包括宿舍/学院的门禁系统、图书馆的通道机系统、考试、车辆管理等场景。其他应用系统指的是在物理上使用一卡通卡片进行操作,而实际产生的数据不回传至一卡通数据库的系统。这种系统通过弱耦合或不耦合的方式与一卡通系统连接,间接应用一卡通的卡片信息。这类应用包括学生成绩单、在籍证明的自助打印、体能测试、体育馆场地预定、自助洗衣等等。随着10年来的建设和不断完善,南开大学一卡通系统已经形成了以专用网络为基础,以一卡通平台系统为核心,具有相当安全性、健壮性和扩展性的应用系统。

三、数据分析和结果

1.预处理——时间离散化

南开大学全校共有师生34771人,其中学生29830人,教职员工4941人。每天产生的消费交易流水数据在5万条左右,一年的数据量有几千万条,数据文件在10Gb以上。我们采用抽样的方法对一卡通食堂消费产生的交易流水数据进行详细分析。南开大学本部共有三个学生食堂,其中第二学生食堂是规模最大、业态最全、产生交易流水数量最多的食堂。因此我们选取该食堂的数据进行分析。共提取了539,376条交易流水数据,其中包括2015年4月的317,662条和2016年4月的221,714条。

数据处理采用Matlab2015b和Origin9.0。首先对一卡通系统导出的数据文件进行预处理,将数据转化为符合要求的CSV文件,采用Matlab编程进行数据清洗。包括格式化数据,检查数据一致性,清除无用数据,去掉学生姓名、电话、身份证号等敏感信息等操作。方便对数据做进一步的统计分析。

为研究学生的消费习惯和规律,我们首先对时间进行离散化处理,每半小时为一个时段,一天24个小时共分为48个时段。因为食堂的营业时间是从早6:00至晚21:00,我们仅对这期间的30个时间段进行统计。为研究方便,我们用字母编号来代表每个时间段。表1给出了将食堂营业时间离散化后,字母编号和相应时间段的关系。

这样,以每半个小时为一个时段,统计每个时段刷卡交易次数,制作次数分布表和次数分布图,就可以对师生在食堂的消费情况进行详细分析。

2.整体消费情况分析

南开大学二食堂一层为普通快餐,二层为美食广场,两层的业态、经营模式和营业时间都有所不同。因此我们对两层的数据分别进行统计分析。

图2给出了不同身份群体在食堂刷卡消费所占的比例。可以看出,本科生在食堂就餐的比例最大,一层为68.57%,二层为77.88%。硕士和博士在食堂就餐的比例接近,且在一层就餐的比例更大。而教工在食堂就餐的比例最低。这主要是因为教工群体总人数较少,且很多住在学校附近的教工会选择回家吃饭。表2给出了本科生、硕士、博士和教工在食堂的平均消费。可以看出,在食堂一层不同身份的消费群体平均消费非常接近,在6.03元-6.43元之间。在二层美食广场,本科生的平均消费最低,为9.35元;硕士和博士的平均消费接近,分别为10.32元和10.64元;教工的平均消费最高,为11.12元。

3.基于时段的食堂消费数据分析

前面我们已经将食堂交易流水信息按照发生时间进行离散化。统计不同时段食堂消费的刷卡次数,能够让我们清晰的看到食堂的就餐曲线图,找到每日的就餐高峰,分析食堂资源配置是否合理。

图3给出了食堂一层在不同时段刷卡的次数分布图。其中横坐标为时段,字母编号和时间段的对应关系如表1所示;纵坐标为在某一时间段内的平均刷卡次数,该值为2015年4月份30天刷卡的平均值。可以看出,在中午和晚上分别出现两个用餐高峰,中午为11:00-12:00(F1,F2时段),晚上为17:00-18:00(L1,L2时段)。午餐的用餐高峰更加尖锐,说明中午师生用餐更加集中,更容易发生拥挤。交易次数最多的时段为11:00-11:30,共刷卡1327次。晚上的用餐高峰较为平缓,说明师生晚上就餐较为分散。刷卡次数最多的时段为17:00-17:30,共刷卡798次,远少于中午高峰时段的刷卡次数。

图3同时也给出了每个时间段刷卡次数的标准差。可以看到,在用餐高峰,刷卡次数的标准差非常大。说明师生每天的刷卡次数有较大差异。这主要是由于工作日和节假日用餐人数和用餐时间会有较大差别。因此有必要分别对工作日和节假日的消费数据进行讨论。

图4给出了食堂一层工作日和节假日的消费数据。可以看出,两条曲线发生显著分裂,高峰时段刷卡次数数值有较大差异,且两组数据的标准差显著减少,这说明节假日和工作日的消费数据的确存在很大差距。由图可知,节假日和工作日的刷卡次数分布具有相同的趋势,在中午和晚上都同样出现了两个用餐高峰。中午刷卡次数最多的时段都为11:00-11:30,其中工作日平均刷卡次数为1567次;节假日平均刷卡次数为769次,约为工作日的一半。晚上刷卡次数最多的时段为17:00-17:30,其中工作日平均刷卡次数为912次;节假日平均刷卡次数为532次,同样约为工作日的一半。因此节假日的用餐人数更少,用餐高峰更为平缓,不会出现人多拥挤的情况。食堂可以少准备一些食材,或关闭部分窗口,以提高资源利用率。

对于二层美食广场,我们同样给出区分工作日和节假日的刷卡次数分布图。如图5所示,与一层快餐类似,二层美食广场节假日和工作日不同时段的刷卡次数分布具有相同的趋势,同样在中午和晚上出现两个用餐高峰。中午刷卡次数最多的时段为11:30-12:00,比一层晚半个小时,其中工作日平均刷卡次数为680次;节假日平均刷卡次数为423次,约为工作日的2/3。而在13点以后,节假日就餐人数略多于工作日。工作日晚上刷卡次数最多的时段为17:00-17:30,日均刷卡次数为535次;而节假日晚上用餐高峰较为平缓,在17:00-17:30,17:30-18:00,18:00-18:30三个时段的刷卡次数比较接近,分別为386,395和372次。这说明师生的晚餐时间更为分散,因此不会出现人多拥挤的情况。同样,在18点以后,节假日就餐人数也要略多于工作日。总体来说二层美食广场节假日的就餐人数只是略少于工作日,对商户没有显著影响。

接下来讨论师生在不同业态商户的就餐规律。图6给出了工作日二食堂一层快餐和二层美食广场的刷卡次数对比图。由图可知,在用餐高峰,一层的刷卡次数远大于二层美食广场。一层的用餐高峰更加尖锐,说明一层用餐更加集中。二层用餐高峰相对平缓,这说明二层用餐时间相对分散。在午餐时间,一层刷卡次数峰值出现在11:00-11:30,超过12:30刷卡次数急剧减小。而二层美食广场,在13:00-13:30平均刷卡次数仍然超过100次。这说明二层美食广场采取单点现做的方式,延长营业时间,能够为错过用餐时间,或想错峰就餐的师生更好的提供餐饮服务。这能够有效的缓解就餐高峰压力。晚间就餐情况也出现类似的趋势,一层18:30以后就餐人数非常少,而二层美食广场直到21点仍有人刷卡就餐。

最后,我们想讨论校区搬迁对食堂就餐人数的影响。南开大学于2015年9月开始部分搬迁到新校区。搬迁师生的数量约为师生总数的一半。统计2015年4月和2016年4月食堂工作日每个时段的平均刷卡次数(包括一层和二层),如图7所示。从图中可以看出,虽然本部有约一半的师生搬迁到新校区,但由于食堂就餐环境的改善,高峰时段就餐拥挤状况的缓解,食堂的就餐人数并没有减少为原来的一半。搬迁前,食堂午餐高峰时段F1,F2(11:00-12:00)的平均刷卡次数为3706次;搬迁后,刷卡次数变为2373次,人数减少了约1/3。搬迁前,晚餐L1、L2时段(17:00-18:00)的平均刷卡次数为2378次,搬迁后变为1481次,同样减少了约1/3。这说明搬迁后,由于本部食堂环境改善,就餐拥挤情况得到了有效缓解,使得一部分之前在校外就餐的师生重新选择在食堂就餐。

四、总结和展望

一卡通系统犹如一台日夜不停的采矿机,采集的数据就好比大量粗矿石,等待我们去从中提炼金子。原始数据都是孤立和无序的,需要采用科学合理的算法构建数学模型,找到数据之间的关联。在此基础上,如果能进一步开发出一套有效的决策支撑系统,将会为校领导和相关部门的科学决策提供非常有力的数据支撑。这些工作值得我们付出大量时间和精力去深入研究。

参考文献:

[1]许鑫.南京大学数字化校园建设架构[J].中国教育信息化,2002(8): 44-45.

[2]徐为民,徐兵,朱显灵.校园一卡通和数字化校园[J].中国教育信息化, 2002(1):50-51.

[3]苏文胜,马千军.基于数字化校园的校园一卡通构建[J].武汉理工大学学报(信息与管理工程版),2005,27(1): 99-101.

[4]顾金娣,席琳琳.校园一卡通系统的应用与思考[J].上海第二工业大学学报,2005,22(3): 71-76.

[5]张升平. 数字化校园之校园一卡通的建设[J].重庆工商大学学报:自然科学版,2008,25(1): 56-59.

[6]李淑娟,周伟强,宓泳.如何实现校园一卡通高效的运行管理探索[J].实验技术与管理,2011,28(6): 7-10.

[7]张九娟.校园“一卡通”在学校管理中的应用研究[J].高校后勤研究,2014(2).

[8]王彬,刘群.校园卡系统的现状[J].才智, 2015(31).

[9]李珊娜.基于校园一卡通平台的数据挖掘应用研究[J].铁路计算机应用,2010,19(6): 55-58.

[10]张兵兵,王建,张建威.数据挖掘在校园一卡通系统中的应用初探[J].数理医药学杂志,2009,22(5): 572-575.

[11]陈锋.基于校园一卡通系统的高校用户就餐消费行为分析与数据挖掘.中国教育信息化,2014(5): 47-49.

[12]薛黎明,栾维新,李志淮.数据挖掘在校园一卡通消费数据分析中的应用[D].中国高等教育学会教育信息化分会第十二次学术年会论文集, F, 2014.

(编辑:王晓明)

猜你喜欢

一卡通数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
一种基于Hadoop的大数据挖掘云服务及应用
“银医一卡通”在提高医院优质服务中的作用
住建部、交通运输部:“一卡通”互联互通应统—标准
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究