k-means算法在校园一卡通平台中的应用

2021-04-04张秀玲

信息记录材料 2021年4期

张秀玲

（长春金融高等专科学校现代教育中心吉林长春 130012）

1 引言

校园一卡通在校园卡中心储存了大量的数据信息，这些数据信息涵盖了餐饮、上机、借阅等。由于这些数据信息是学生自己使用产生的，所以对这些信息的研究分析有助于学校了解学生的需求，更有助于学校的建设和管理。下面对k-means算法在校园一卡通平台中的运用进行分析与论述。

2 k-means算法与校园一卡通概述

2.1 k-means算法

k-means算法出现于1960年，其也被人们称作K均值聚类算法，其是由MacQueen提出来的。伴随理论分析持续加深以及计算机技术的持续发展，这一算法发展成经典数据挖掘算法，随后出现了一部分聚类算法均是根据这个算法所提出改进的。由于此算法于数据结构、时间耗费、储存方面有着一定的优势，所以诸多聚类过程均使用此算法。k-means算法原则为：对给定数据对象集X，将数据对象至聚类中心点之距离和当成聚类准则函数，经过求准则函数极小值迭代，将数据对象划分至聚类个数时C的类内，同时促使各类内部数据对象相似性较高，而不一样的类中的数据对象不相关性较大[1]。

2.2 校园一卡通

由于受到时代发展所影响，学校需要使用适当的技术进行管理。对计算机管理系统为基本的卡片的使用十分普及，学生采用各种卡片于校园日常生活中很普遍。可是以往的校园卡片功能较少，学生日常生活要携带诸多卡片，例如餐饮、图书证、学生证等，为学生生活造成了不便，该校园管理模式具有很多不足：（1）未完成对现代化校园的管理；（2）为学校管理系统带来了负担；（3）学校管理成本增加；（4）为学生带来了麻烦。对现代化校园管理而言，其需要具有的特征是：信息传递效率高、管理相当精细，如此对高校教育教学而言是百利而无一害的。而校园一卡通的出现就有效解决了上述问题，可以促使校园管理水平提升，实现管理精细化，提高信息传输的速度。一卡通是经过把IC卡当成重要信息载体，非常适合在校园消费和开展管理网络系统。IC卡的出现为学生带来了方便，可以实现生活消费等多方面的功能，有效代替了以往多张卡的使用方式。与此同时，IC卡和银行互联，能够在学校中与学校之外的银行网点进行现金提取和消费，大大提高了校园信息化管理水平[2]。

3 k-means算法的不足与优化

3.1 不足

（1）k-means算法对初始簇个数K有一定的依赖性。因为不一样的K值对算法效率与聚类结果有影响，因此K值的确定必须要用户根据需要且通过很多实验才可以确定。

（2）k-means算法对选取的初始簇中心相当敏感。根本原因在于k-means算法为任意抽取初始聚类中心点的，如此一来很大几率会产生迭代次数大与迭代收敛最优解的现象，倘使真正发生这种事情，则统统无法获取到最优解聚类成效[3]。

（3）k-means算法对孤立和噪音对象较为敏感，该情况会将最后的聚类结果质量降低，一般在运用过程中，这一算法大部分使用在发现球状簇。

通过以上的分析，我们可以了解到，聚类成效好不好很大概率取决于簇内与簇间对象密集度，假使簇内对象密集度高，则聚类成效是很不错的。本次研究采取处理初始聚类中心优化方式，可以大大削弱由孤立点与噪音点带来的影响。与此同时，对点群中心聚类法加以分析，比较选取比较好的点群中心聚类优化k-means算法，这样一来，可以达到类内密集度高和类间密集度低的效果。

3.2 优化

于初始聚类中心选取问题方面，以往的k-means算法是于样本数据中心随机抽取K个对象当成初始簇中心，如此会产生初始簇中心太过集中或无法均匀分布于样本数据集中，最终造成数据收敛需要的迭代次数增多，进而陷进局部最优解，对最终的聚类效果带来不良影响。为防止出现该种情况发生，此次实验根据具体状况对初始簇中心选择进行了优化，让簇中心可以均匀分布样本数据集中，防止孤立点与噪音点影响，继而提高算法鲁棒性[4]。

优化以后的算法虽于CH指标中聚类成效未达到理想中的效果且低于别的优化前试验平均值，可是于Dunn指标以及XB指标分析过程中，优化以后的聚类效果明显。因而此聚类分析实验使用优化以后的k-means算法展开数据挖掘应用。

3.3 点群中心聚类方式

于聚类分析过程中，选取不一样的点群中心聚类法，那么聚类效果也是不同的。以往的k-means算法使用了Euclidean Distance度量对象彼此间的聚集程度，这一点群中心聚类法对噪音与孤立点有一定的敏感性，与此同时通常仅能发掘球状簇。因而，对不一样的数据，要根据实际情况使用不一样的点群中心聚类方式的k-means算法处理问题。此次实验对几种点群中心聚类法作了对比，按照原始数据的差异性，使用不一样的点群中心聚类法，如Euclidean Distance、CityBlock Distance、Minkowski Distance。

此次将在学生热水消费聚类实验过程中，合理运用基于以上三种点群中心聚类的优化k-means算法展开聚类分析。

4 实验与结果

4.1 数据预处理

（1）学生历年热水消费。现如今，校园一卡通平台系统中有很多刷卡记录，在这里诸多数据源自学生平时的热水消费刷卡记录，同时每天都在增加。根据这部分数据中挖掘隐藏规律，为优化学校资源配置提供重要依据，是当前高校有关部门的需求。因为数据库里面有很多数据，这些数据量大、冗余度较高，因而必须要展开数据预处理，挑选与整理出适于算法的数据集合。以某高校为例，对其在2015年—2017年学生热水消费金及其次数进行了分析。

（2）热水消费数据特点属性量化。按照需求分析，为有效提升数据挖掘质量，所见算法分析时间，提高实验结果精准度，因此本次实验选择2017年11月学生热水消费171330条记录作为样本数据，以此实现综上目标。

4.2 聚类选择

此次实验主要是针对校园一卡通内容之一，即学生热水消费数据情况的分析，经过合理采用点群中心聚类优化化k-means算法，全面分析高校学生热水消费实际情况，继而经过对比Euclidean Distance、CityBlock Distance、Minkowski Distance，我们可以从中发现，这些方法的迭代次数是一致的，没有差别，其中ED花时少，MD的P值最小。经过整理和归纳，可以得到ED方式在学生热水消费数据聚类成效好得多，故而选取采用ED优化K-means算法得到令人满意的结果。

4.3 结果分析

经过比较几种点群聚类方法可以了解到，此次实验将使用基于ED的优化k-means算法，分析与探索学生热水消费情况。根据业务需要，把聚类个数设置成五类，经过比较分析可以得到：一类热水刷卡行为80%分布于洗浴中心二、三层，刷卡行为多在当月中旬，时间多为中午。二类热水刷卡行为分布于二、三层，刷卡行为多在二层，行为发生于当月中旬。刷卡行为记录较多，刷卡行为概率大。三类刷卡行为分布于二层，当月刷卡行为在中旬，时间是下午，刷卡金额中等。四类热水刷卡行为分布于洗浴中心一、二层，当月刷卡行为在中旬，刷卡行为在下旬，时间为下午，刷卡金额中等偏上。

因此，按照以上分析可以知道，根据POS机使用状况，发现一、二层POS机使用率高，三层使用率较低，在当月中，全部的刷卡行为多出现在中旬，在每日中，全部的刷卡行为出现在中午。