基于2K?means算法的读者兴趣分类图书自动推荐系统设计

2020-10-22林艳凤苑吉洋

现代电子技术 2020年20期

林艳凤　苑吉洋

摘要：为了能够满足读者的个人兴趣特点和应用需求，提出基于读者兴趣分类的图书自动推荐系统设计思路。介绍了读者兴趣需求的图书自动推荐系统设计理论技术基础，包括数学挖掘、2K?means算法及UML语言。详细分析了基于读者兴趣分类的图书自动推荐系统需求和性能需求，将读者的兴趣与图书类别完成聚类分析，并提取最终聚类所获结果匹配图书类别，建立读者兴趣分类图书自动化推荐模型。引入聚类算法、关联规则算法实现读者感兴趣图书规律的统计分析，从而整合读者的图书信息源并充分发现具有较大价值的信息，最终将与相似性需求相符的图书，采用电子邮件或网页方式，自动推荐给读者。该系统设计能够为读者提供可能感兴趣的图书摘要、馆藏类相关信息，且运行性能良好，具有良好的推广应用前景。

关键词：读者兴趣分类; 图书自动推荐; 系统设计; 2K?means算法; 数据挖掘; 聚类分析

中图分类号： TN850.3?34 文献标识码： A 文章编号： 1004?373X（2020）20?0141?04

Design of 2K?means algorithm based book automatic recommendation system for readers′ interest classification

LIN Yanfeng， YUAN Jiyang

（Qingdao University of Science &Technology， Qingdao 266000， China）

Abstract： An book automatic recommendation system based on readers′interest classification is proposed to meet the individual interest characteristics and application needs of readers. The design theory and technical basis of book automatic recommendation system for readers′ interest needs are introduced， including mathematical mining， 2K?means algorithm and UML language. The requirements and performance requirements of the book automatic recommendation system based on readers′interest classification are analyzed in detail， the clustering analysis of readers′interest and book category is completed， and the results of the obtained final clustering are extracted to match the book category. The book automatic recommendation model of readers′interest classification is established. The clustering algorithm and association rule algorithm are introduced to realize the statistical analysis of the book rule that readers are interested， so as to integrate the book information sources of readers and fully discover the information of greater value. The books that meet the requirements of similarity will be automatically recommended to readers through E?mail or webpage. The design of the system can provide readers with the relevant information of book abstracts and collections that may be interested in. It has good operation performance and good application prospect.

Keywords： readers′interest classification; book automatic recommendation; system design; 2K?means algorithm; data mining; cluster analysis

0 引言

随着各种类型大量图书资源出版量的急速增长，读者可利用资源越来越多，但与此同时也给读者在图书阅读中，带来选择难度较大、无法抉择、图书类型多等问题。科技水平的进步发展给各行业带来较大的本质改变，以传统图书馆为轴心的被动式服务模式，已经无法更好地满足当前读者的个人需求[1]。由于专业、水平、兴趣、行为等各方面差异，不同的读者对于图书的兴趣需求点也就各有不同。并且，近年来为了更好地顺应信息技术飞速发展的需求，图书馆也在原本技术手段上提供了诸多新型技术服务，如目录查询、借阅服务、续借服务、书刊催还等技术，更是不断加大个性化服务力度，彻底改变了传统图书馆的服务模式及内容[2]。图书馆拥有海量图书资源，能够满足不同读者为其提供高品质差异化服务模式，但是在馆藏资源日趋增加的当下，怎样才能够真正从海量图书资源中，真正为读者提供感兴趣的图书和个性化服务，就作为目前需要迫切解决的关键问题[3]。所以提出基于读者兴趣分类的图书自动推荐系统设计思路，能够对图书馆图书资源充分合理利用的同时，还可以有效确保读者可以对相关信息进行针对性的有效检索，很大程度上提升管理读者的图书搜索效率，满足了读者的个性化便捷服务需求。

1 相关理论和关键技术

1.1 数据挖掘及相关理论

数据拥有大量、随性、含噪且不安全性等特点，数据挖掘是提取用户潜在且有一定价值的感兴趣知识信息的过程，决策管理人员可以分析处理相关信息的过程[4?6]。那么在数字图书馆中的数据挖掘技术是能够运用各类技术工具，在大型网络数据库中提取规律潜在信息，寻找信息中存在的关联规则性。目前，数据挖掘的主要技术包括了信息关联分析、聚类分析、分类、预测、时序模式、偏差分析等，比较常用的数据挖掘方法包括决策树、聚类、统计、遗传算法、神经网络、近邻预测等已被应用于不同区域。

1.2 2K?means算法

2K?means算法是以输入均值作为类中心，从而完成的一种聚类分割算法，假设K表示输入量，拥有n个聚类对象，具体计算流程如图1所示[7]。

1）结合相应需求完成K个对象的自动化生成，并视不同对象作为类中心[8];

2）根据“距离中心就近”这一原则，寻求最匹配每一个对象的类，并且完成各类对应，分配剩余对象;

3）完全划分后，对于各类对象均值逐一计算，并行形成全新的类中心;

4）重新以“距离中心就近”原则划分所有类对象;

5）对所有类进行判断，假如存在变化则从步骤3）重复，反之结束算法。

1.3 UML语言

想要成功研发一个系统达到预期目标，其关键在于能够实现需求者与系统开发者之间的沟通，那么UML语言即作为沟通工具，帮助系统开发者了解、掌握并发挥想象力。

UML作为可视化建模语言，能够实现系统开发者轻易理解且统一标准方式，成功建立系统开发设计蓝图，所提出的统一机制实现不同主体之间的交流共享。图2为UML语言视图。

由图2可知，通过用例描述功能行为，UML能够描述系统用户的观点，由此派生其他相关模型视图。目前比较常用的UML图包括了用例图、行为图、静态图、交互图、实现图[9?11]。通过建立UML语言视图，主要给出两类模型元素，分别包括了概念表述模型元素、元素关系表述。

2 系统设计分析