APP下载

数据挖掘技术在高校图书馆个性化服务中的应用

2019-09-07王艳丽张素华商丘工学院

数码世界 2019年9期
关键词:关联数据挖掘聚类

王艳丽 张素华 商丘工学院

1 数据挖掘概述

简单来说,数据挖掘就是从大量数据中提取或者“挖掘”知识,但这些数据是不完全的、模糊的、含噪声的和随机的,而数据挖掘就是要在这些数据中挖掘出那些隐含的、人工难以识别的和有作用的潜在的信息。这种方法通过对各组织的海量数据进行分析,通过各种挖掘算法推理并从中挖掘出有用的信息,其结果将可为管理层的决策提供支持。随着海量信息时代的来临,数据挖掘技术在很多领域都得到了广泛的应用和发展,越来越显示出其强大的生命力。

数据挖掘的过程实际上就是一个知识发现的过程,通过运用各种数据处理技术从大量事实数据和观察数据的集合中挖掘出潜在的模式或规则,帮助我们真正理解这些数据的含义,并对数据之间所存在的关系产生更好的理解。通过数据挖掘,可以从大型数据库或数据仓库中的相关数据集中抽取出潜在的、有效的、新颖的、有价值的、最终可理解的知识信息,并从不同的角度显示,从而使存放有大量丰富可靠资源的大型数据库为知识归纳服务。因此,数据挖掘被认为是解决目前“数据丰富,但信息贫乏”问题的一种有效方法。

2 数据挖掘技术在高校图书馆建设中的意义

利用数据挖掘的图书馆个性化服务合时宜地运用到图书管理系统,使推荐功能为本系统提供增值服务,利用推荐系统这种最优方法帮助读者找出最想找的信息,让信息主动去寻找跟随读者。文献同时从本质上挖掘读者的内在个性化需求,针对不同读者的不同需求,向其推荐有针对性地个性化信息资源。通过这种方式,图书馆服务可向读者推荐刚好需要的图书资源,为所有读者提供刚需服务。

基于数据挖掘的个性化信息推荐服务系统主要实现两方面功能:一是挖掘功能,这里首先对图书馆读者根据其所借阅数据进行聚类群分,然后针对每个聚类群体中读者的借阅数据实现关联规则挖掘,寻找读者在借阅图书时潜在的借阅模式;二是个性化推荐功能,这里将挖掘出的关联规则应用到图书馆个性化推荐服务中。

图1 数据挖掘系统体系结构图

数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成。系统处数据库中原始数据存在如不一致、重复、含噪声、维度高等诸多问题,所以挖掘前需要对数据先进行处理,将未加工数据转换成适合分析的形式。预处理过的数据分类存放在各种数据库中,就可以运用各种算法进行数据挖掘,这是一个复杂的过程,并要进行数据挖掘模式评估,并将最终的挖掘结果推荐给用户。

3 挖掘技术在图书馆个性化服务中的应用

基于数据挖掘的个性化推荐技术,利用数据挖掘的算法,探究读者的读书倾向,从大量的图书馆信息库中运用各种挖掘方法,找到读者最感兴趣的信息,并推荐给他,并为管理员提供非常重要的业务信息。

数据挖掘的分析方法是利用数据来建立一些模仿真实世界的模型,利用这些模型来描述数据中的模式以及关系。数据挖掘可以建立六种模型:分类、回归、时间序列、聚类、关联规则以及顺序规则。

聚类分析:聚类分析(clusteranalysis)是一种探查数据结构的工具。聚类分析的核心是聚类,也就是将数据对象首先划分为簇 ,最后得到同一个簇内的所有的对象都相似,而不同簇的对象都是相异的。通过某些度量或与其他对象的关系都可以来描述所有对象。聚类不需要以先验标识符来标定数据类别的假定。

关联规则:关联规则挖掘是找出既定事件或数据中能同时出现的频繁数据(即高频项目组)的一种方法。本文所介绍的个性化图书推荐功能主要利用聚类和关联规则算法实现。

图2 个性化图书推荐流程

当用户成功登录系统后,系统将从用户聚类推荐和用户关联推荐两个方面开始进行个性化推荐处理。

(1)用户聚类个性化图书推荐

首先利用聚类算法对系统所有用户进行聚类处理,接着得到当前用户所属分类里的所有用户所借阅的图书,然后根据这些图书的借阅量对图书进行排序并且排除当前用户已经借阅过的图书,最终得到一个根据用户分类的推荐图书清单。

(2)用户关联个性化图书推荐

首先判断当前用户是否借阅记录,如果没有借阅记录那么无法提供关联推荐图书,流程结束;如果有借阅记录,那么找出所有借阅图书并且利用关联规则算法对所有借阅事务进行关联规则分析,得到当前用户关联的图书,然后根据置信度以及图书的借阅量对图书进行排序并排除用户己经借阅过的图书,最终得到一个基于关联规则的兴趣推荐图书清单。

4 结语

综上所述,通过数据挖掘技术的应用可以有效的提高高校图书馆管理工作的效率,将图书馆的作用更加充分的发挥出来。

猜你喜欢

关联数据挖掘聚类
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
“一带一路”递进,关联民生更紧
面向WSN的聚类头选举与维护协议的研究综述
奇趣搭配
改进K均值聚类算法
软件工程领域中的异常数据挖掘算法
智趣