APP下载

基于文献挖掘的图书馆智慧化平台建设研究

2022-08-24河南中医药大学图书馆雷天锋

办公室业务 2022年15期
关键词:文献资料数据挖掘文献

文/河南中医药大学图书馆 雷天锋

文献挖掘是借助数据挖掘技术,从图书馆海量的文献数据库中挖掘和整合有用的文献资料的技术方法和行为过程。在教学、科研行动中,文献挖掘是精准获取文献资料信息的关键路径,也是高校在文献资料整合利用方面面临的“瓶颈”。在传统以纸质文献资料为主的图书馆运营管理模式中,读者对文献资料的挖掘更多依靠人工搜集,不仅效率低,最终获得的文献资料的可利用性也欠佳。随着智慧化图书馆平台的开发,借助数据挖掘技术,进行精准的文献挖掘已然成为一种高效的行为。近年来,已有高校图书馆开始将开发具有文献挖掘功能的图书馆智慧化平台作为重要关注点。

一、数据挖掘技术概述

数据挖掘技术是大数据技术在智慧化图书馆平台建设中深度应用的产物,其特点在于数据的精准检索和高效利用。虽然大数据技术的应用使得图书馆在文献资料获取、存储、分析、挖掘和可视化呈现等方面有了明显改善,但是,技术作用下产生的海量数据并不都是读者真正需要的数据,其中不乏一些干扰性的信息。在精准获取文献资料需求日益明显的情况下,有必要通过技术手段为读者提供短时间内获取准确文献资料信息的方法,而这就使得数据挖掘技术有了应用的需求。

(一)数据挖掘技术的概念。数据挖掘技术,是在专家系统、计算机信息处理技术等方法的支持下,从大量无规则的数据中提取出符合特定条件的,具有潜在指导性作用的数据信息的技术。数据挖掘技术的应用包括五个阶段:第一阶段为数据准备阶段,主要内容为确定数据挖掘的目标,并从数据库中采集大量原始数据;第二阶段为数据预处理阶段,主要内容是对采集到的原始数据进行科学选择和合成处理;第三阶段为数据变换阶段,主要是通过聚集、降维等方式将合成的数据进行格式转换,使数据在格式上呈现出统一性、规则性;第四阶段为数据处理阶段,主要是选择合适的模型和算法对数据进行分析处理,使数据以正确的方式表达出来;第五阶段为结果呈现阶段,主要是根据读者在视觉方面的个性化要求,对数据进行可视化的图表或者模型处理,使数据本身具有的规则能够更直观地显现出来。

(二)数据挖掘技术的特点。数据挖掘技术具有三方面的特点。第一,集成性。数据挖掘技术是在对海量数据进行挖掘、集成基础上的进一步应用,是从海量数据中挖掘和提取出符合特定规律的内容;第二,隐含性。数据挖掘技术的功能在于发现海量数据中隐藏的深层次信息和规律,而不是直接从数据的表征中提取相关规律;第三,规则性。数据挖掘技术是按照特定的规则或者算法对数据库中海量的数据进行检索、整合和处理的技术,其输出的结果具有明显的规律性。

二、基于文献挖掘的图书馆智慧化平台概述

图书馆智慧化平台,是以为用户提供泛在智慧服务为主的平台,是继数字图书馆、复合图书馆后,图书馆发展的一个更高级形态。图书馆智慧化平台主要依托传感器技术、云计算技术、大数据技术等要素,旨在实现图书流、人员流、物流、信息流的充分流动和融合,最终充分满足用户尤其是读者在智慧化方面的服务需求。基于文献挖掘的图书馆智慧化平台是其中的一项重要功能。在数据挖掘技术的支持下,高校图书馆可以为读者提供精准的文献资料信息检索服务。以下着重对该类平台的架构以及应用方向进行分析。

(一)基于文献挖掘的图书馆智慧化平台的架构。在原有的数字化图书馆系统和平台的基础上,加入数据挖掘技术内容,使原本以文献资料数据信息管理为主的平台转变为以文献资料数据信息精准检索和推送为主的平台。图1展示了基于文献挖掘的图书馆智慧化平台的架构。可以看出,基于数据挖掘技术开发的智慧化平台是通过该平台中的数据理解、分析和应用,来构建相应的文献数据模型,以模型为载体,借助精准、高效的数据挖掘技术,为读者提供更为精准、可靠的文献资料数据检索服务。在整个智慧化平台中,数据的理解和模型的构建是关键,其中,数据理解是模型构建的前提,模型构建是数据应用的结果。

图1 基于文献挖掘的图书馆智慧化平台架构

(二)基于文献挖掘的图书馆智慧化平台应用方向。目前文献挖掘的图书馆智慧化平台的应用主要体现在读者借阅行为模式分析、读者个性化文献资料服务和图书馆文献排架分析三方面。其中,读者借阅行为模式分析是平台借助数据挖掘技术,对读者在检索过程中留下的各种记录进行集中性的分析处理,从中获得关于读者对文献资料阅读习惯的数据信息,或者某一文献资料在读者群体中的受欢迎程度信息,然而根据这些数据构建相应的模型,作为精准化文献资料检索或者书籍资料推送的依据。读者个性化文献资料服务是通过对读者的身份信息与读者的文献检索、借阅信息进行关联性分析,并建立相应的模型,呈现读者在不同文献资料阅读方面的需求,便于图书馆或者智慧化平台为读者提供个性化的文献资料阅读服务。图书馆文献排架分析是通过对读者群体文献资料借阅行为模式和个性化服务内容进行分析,掌握不同类型图书在读者群体中的受欢迎程度和被借阅的记录情况,为图书馆进行文献资料的合理排架和陈设提供相应的数据支持。

三、基于文献挖掘的图书馆智慧化平台建设策略

从功能上看,基于文献挖掘的图书馆智慧化平台是在原有的智慧化平台中增加数据挖掘技术要素,实现文献挖掘的精准化和高效化。但真正的文献挖掘功能实现却需要有成熟、安全的技术作为支撑。基于上文提出的平台架构,相关主体要在现有技术框架内,结合数据挖掘技术的特点,科学推进智慧化平台文献挖掘功能的开发与应用。具体来说,在平台建设实践中,需要重点采取以下几方面的策略:

(一)做好数据挖掘引擎的开发。通过图2可以看出,基于文献挖掘的图书馆智慧化平台建设的关键在于第二层次,即数据挖掘引擎的开发。一方面,数据挖掘引擎是将当前已经形成的图书馆数据库中的文献数据进行集中性的管理和挖掘的重要抓手,只有具备在海量数据信息中进行文献资料数据关联性分析的引擎功能,才能够为读者提供简洁、快速的文献挖掘功能支持;另一方面,前期的智慧化平台建设实际上已经为基于文献挖掘的图书馆智慧化平台建设提供了相应的数据库支持,目前需要做的就是结合相关文献资料服务需求,开发具体的算法,赋予智慧化平台更强大的数据整合、挖掘和分析处理能力,进而实现更精准的数据挖掘功能。因此,在当前的智慧化图书馆平台建设中,相关工作的开展应当重点放在数据挖掘引擎的开发与应用上。

图2 基于文献挖掘的图书馆智慧化平台的技术层次结构

(二)注重用户行为数据的清洗。基于文献挖掘的图书馆智慧化平台的用户包括管理者和读者两类,不同用户在平台上的操作行为存在个性化的差异。在平台运行过程中,虽然用户的行为都会产生相应的记录,并被存储到图书管理数据库中,但这些信息中不乏一些格式不规范、内容不完整的数据信息,对文献挖掘会产生一定的干扰性影响,需要重点剔除和清洗。因此,在平台建设中,技术人员要注意对用户行为数据进行有效清洗,将采集到的用户行为数据进行规范性处理,并在核实数据完备性的基础上,过滤垃圾数据或者冗余数据,提高文献挖掘的精准性。在大数据清洗过程中,技术人员可以使用技术手段与人工操作相结合的方式,以确保清洗行为的规范性和科学性。

(三)增强平台数据转换集成能力。基于文献挖掘的图书馆智慧化平台的运行是基于海量用户尤其是读者数据的基础上实现的。如果无法保证平台拥有足够的数据资源,则很难实现深度的文献挖掘目的。但是,在实际的平台运行中,由于用户使用终端设备的多样性,以及用户行为数据类型的差异,使得最终录入到数据库中的数据的结构和类型存在明显的差异,难以完全匹配数据挖掘技术应用的要求。因此,在平台数据库的运维中,技术人员要注意对平台的数据转换集成能力进行优化和提升,形成统一的、标准的数据,供智慧化平台文献挖掘时使用。

四、结语

随着图书馆服务的智慧化发展,开发基于文献挖掘的图书馆智慧化平台,逐渐成为高校图书馆发展中重点落实的任务。在数据挖掘技术的支持下,图书馆智慧化平台可以围绕读者借阅行为模式分析、读者个性化文献资料服务和图书馆文献排架等进行高效的文献资料信息挖掘与利用,进而提高图书馆文献资料使用的效率和效果。当前,智慧化平台建设尚处于探索和深化阶段,需要在做好数据挖掘引擎开发的同时,注重用户行为数据的清洗和平台数据转换集成能力的增强,以保证基于文献挖掘的图书馆智慧化平台建设工作能够有序推进,发挥实效。

猜你喜欢

文献资料数据挖掘文献
基于数据挖掘探讨慢性肾衰竭处方规律
Hostile takeovers in China and Japan
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
用信息技术搜集文献
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
数据挖掘综述
The Role and Significant of Professional Ethics in Accounting and Auditing
信息时代高校院系资料室的管理与建设研究
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究