APP下载

基于机器学习的图书馆用户流失影响因素研讨

2020-03-23刘桂琴许新华

新世纪图书馆 2020年1期
关键词:用户服务智慧图书馆机器学习

刘桂琴 许新华

摘 要 论文针对图书馆用户流失问题,基于图书馆用户数据,构建用户特征矩阵,利用深度神经网络预测用户流失风险;将存在流失风险的用户作为重点研究对象,根据用户特征,结合S-O-R理论设计图书馆用户流失影响因素模型。采用扎根理论方法设计问卷,提取影响图书馆用户流失的指标因素,并构建结构方程模型进行分析,将技术研究与质性研究相结合,挖掘影响用户流失的核心因素,并在此基础上,构建了图书馆智慧型服务空间设计模型,为图书馆创新服务提供决策支持。

关键词 用户流失 影响因素 机器学习 用户服务 智慧图书馆

分类号 G250

0 引言

随着新媒体时代的到来,图书馆用户流失一直是学者所重点关注的问题,如何最大限度地减少用户流失,采取措施留住老用户并吸引新用户成为图书馆亟需解决的问题。针对用户流失问题,学者们从不同角度进行了探討,如徐孝娟等人基于S-O-R理论构建了社交网站用户流失行为整合模型 [1]。邹卫韶等人针对经济不发达地区公共图书馆用户流失问题,在调研的基础上,分析了用户流失的原因[2]。赖院根等人对信息用户流失分析中的相关问题展开了研究,提出基于客户价值的流失预测模型[3]。郭顺利等人构建高校图书馆微信公众平台用户流失行为模型,为高校图书馆微信公众平台运营推广提供理论依据和参考建议[4]。王继华基于S-O-R理论,构建了公共图书馆微信公众平台用户流失行为模型[5]。分析发现有些已有研究主要集中在图书馆微信公众平台用户流失行为的探讨,而没有着眼于从预测流失可能性到探寻影响因素的完整过程。因此,本文从技术研究和质性研究两个角度出发,以黄石市图书馆为例,基于用户的借阅数据、到馆数据以及资源数据,通过深度学习技术,构建图书馆用户流失预测模型,并在流失预测的基础上,以存在流失风险的用户作为重点研究对象,根据用户特征及S-O-R理论设计调查问卷,采用扎根理论方法抽取影响因素,然后借助解释结构方程模型分析影响因素,探寻影响用户流失的根本原因。最后根据分析结果,为黄石市图书馆智慧型服务构建空间设计模型,以此提高其智能化技术的应用能力,创新用户服务提供理论参考与决策支持。

1 用户流失预测分析步骤与模型构建

1.1 用户流失预测模型构建

在数据预处理方面,本研究首先获取用户的借阅数据、到馆数据以及资源数据,对用户指标进行判别,经过特征工程算法处理得到训练数据,选定用户特征生成特征矩阵,并确定目标数据。其次,将特征矩阵中的类别信息进行数值转化,通过多个变量组合进行类别表示,并对变量组合进行处理,避免陷入“虚拟变量陷阱”。第三,对特征矩阵进行标准化处理,消除不同类别数据之间的差异。最后,分割特征矩阵,以20%的数据作为测试集,80%的数据作为训练集。

在搭建神经网络层方面,依据神经网络理论,首先搭建输入层,根据特征矩阵的维数确定输入层神经元数量;其次搭建隐藏层,根据输入层和输出层的神经元数量推测隐藏层中每层的神经元数量,并尝试搭建不同的隐藏层数(>=3层),为了加快模型训练收敛速度,在隐藏层采用relu 函数作为激活函数;最后搭建输出层,为实现二元分类功能,选用softmax作为激活函数,获取分类结果。

为了更好地保证研究数据具有准确性,先对用户流失进行预测。首先将作为训练集的用户特征矩阵作为原始输入,输入到深度神经网络模型中进行模型训练;再根据精准度和损失度来调整隐含层的层数,确定最优预测模型;最后将测试集输入到已训练好的模型中,经过Sigmoid 激活函数进行二元分类输出之后,得到每位用户流失可能性的判别结果,对其精准度进行统计。具体实践过程见图1。

1.2 图书馆用户流失影响因素分析模型

基于深度神经网络的预测结果,将流失概率超过50%,但没有退卡的用户作为重点研究对象。针对这些用户构建用户特征矩阵,并基于S-O-R理论设计图书馆用户流失影响因素模型,见图2。其中,图书馆的刺激主要包含信息资源、馆员服务、图书馆环境、基础管理与服务、外部环境五方面;有机体的变化主要包括情感、认知和物理等三个方面;反应是指用户受到刺激后作出的反应和决策,主要为用户申请退借阅卡,不再到馆享受服务。基于图书馆用户流失影响因素模型,通过专家咨询,结合扎根理论方法设计调查问卷,对存在流失风险的用户进行调查,根据调查结果,继续通过专家咨询的方式,提取影响因素的指标,通过构建结构方程模型分析图书馆用户流失行为的影响因素。

2 实验数据来源与处理方法

本文数据来源于黄石市图书馆的用户,统计近三年办理借书卡的用户信息,选取其中的3000名用户作为样例数据,经过特征工程算法处理,选择具有代表性和重要性的用户特征,包括年龄、性别、地区、到馆次数、借书数,续借数,预约数、期刊阅览次数、电子资源使用次数、是否退卡等。按照用户流失预测模型的构建过程,首先对数据进行预处理,利用用户数据的前9项构建特征矩阵,将是否退卡作为目标数据,判断用户是否流失的依据;进而利用python 的pandas和numpy包进行数据清洗,将性别、地区等类别数据转化成数值;为了消除量纲,对特征矩阵进行标准化处理;对特征矩阵进行分割。考虑到数据量原因,本文在实验过程中仅构建训练集和测试集,以80%的数据用来训练机器学习模型,以20%的数据用作测试,不设置验证集,只通过测试集实现神经网络的参数调整以及性能检测的功能。

在构建深度神经网络模型之前,首先采用Scikit-learn中的支持向量机模型和决策树模型作为baseline进行预测评估。相比于神经网络,支持向量机和决策树也是模型预测中的有效方法。支持向量机是一种有坚实理论基础的新颖的小样本学习方法,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题;而决策树的突出优点是可以抽取可读性规律,从训练集数据中自动地构造决策树,从而可以根据这个决策树对任意实例进行判定[6]。在利用支持向量机和决策树模型预测之后,采用建立在Tensorflow之上的高度抽象框架Tflearn构建深度神经网络模型,逐步搭建神经网络层,其中输入层包含9个神经元,输出层包含2个神经元,依据工程学的通用做法,输入层和输出层的神经元数量相加除以2取整,就作为隐含层的神经元数量,因此在搭建隐藏层的过程中,每层神经元数量确定为5,而层数分别取3至9,以获得最高的预测准确率。

3 实验用户流失预测分析

神经网络的深度与用户流失预测准确率之间的关系如图3所示,当隐藏层层数达到4层时,对应模型的预测准确率最高,因此在搭建神经网络层的过程中,尝试增加隐藏层提高预测的准确率。

本文的实验样例中的3000名用户,其中2400名用户用作模型训练,而另外600名用户作为测试集数据输入到预测模型中,进行模型评估,通过参数调整,确定最优预测模型,获取每位用户流失的概率。在评估深度神经网络的预测效果时,使用Tflearn框架内的evaluate函数评价模型,获取模型测试准确性。根据测试结果,通过多次模型调整比较,统计模型的预测准确率达到89%。

为了验证本文所提出的深度神经网络模型在图书馆用户流失预测中的有效性,通过Python中Scikit-learn提供的决策树和支持向量机模型分别进行用户流失预测。利用训练集训练模型,将数据输入测试集,通过调用Scikit-learn的classification_report模块评估预测效果,生成分析报告,获取查全率、查准率及F值,见表1。通过对比,基于决策树和支持向量机进行的预测,F值分别为81%和71%,低于深度神经网络的预测准确率,验证了基于深度神经网络的图书馆用户流失预测模型具备较高的预测准确率。可以说通过深度神经网络得到的预测结果可用于用户流失影响因素的分析中。

4 实验用户流失影响因素分析

根据深度神经网络的预测结果,查看测试集中600名用户的预测结果,其中流失概率达到50%以上,但仍没有退卡的用户,共337位。将这部分用户作为重点调查对象,用于挖掘影响图书馆用户流失的因素。

研究问卷设计采取开放式编码定义原则,首先从馆内选择两位专家,通过上述图书馆用户流失行为模型,对每个因素进行分散式问题采集,每个因素下提供 6~10 个参考问项。收集专家的提问项后,对两名专家共同采集的问题予以采纳,对单个专家提出的问项,再次由两位专家共同商议后,再决定应用或放弃。经过 30分钟时间的专家编码后,最终得到 6 个维度 2个问题的问卷项。问题项确定后,根据研究情境,经过专家小组讨论,对相关量表的测量项进行调整和完善。最后对存在流失风险可能性的用户进行电话访谈,问卷采用李克特5分量表编制,其中,1 表示 “非常不同意”,3表示“中立”,5表示 “非常同意”。问卷针对模型中的 6 个潜变量[7],共设立21个题项。调查结束后,经筛选,有效访谈记录305份,访谈的有效率为90.5%。两位专家分别根据问卷中设置的问题,对他们认为重要的要素进行抽取解码,用最简短的词语或词组表示抽取的要素。由于采用开放式编码抽取方式,两位专家所表示的要素存在重复项、个别词组较长、同一概念采用不同的表达方式、抽取要素不够精炼等问题。

本研究利用小组讨论方式对两位专家抽取的表达图书馆用户流失的影响因素进行归纳和精炼,并将要素返回原访谈材料验证和比较,验证抽取要素的可靠性,最终合并两位专家抽取到的要素和关系,总计得到 21个影响要素。依据解释结构方程模型方法的步骤,首先根据要素之间关系构建邻接矩阵,并根据邻接矩阵的矩阵运算,求出可达矩阵;进而对可达矩阵进行分解,分别进行抽取层级,建立层级结构模型;然后根据层级结构模型建立系统问题的解释结构模型;最后计算各影响因素对用户流失行为的影响比重,计算结果见表2。

根据解释结构方程模型理论,层级结构模型可以分为表象层、中间层和根本原因层三层,而分析表2发现,21项用户流失影响因素根据其对用户流失行为产生影响的比重也明显分为三个层级。其中根本原因层包括A3、B1、C1、D1;中间层包括A1、C2、C3、D3、E2、E4、F2;表象层主要包括E1、F1。

5 实验结果与讨论

通过以上分析发现,为用户开放网络资源、馆员有效为用户提供服务、图书馆为用户提供干净优美的环境以及开展多样的活动是影响黄石市图书馆用户是否流失的关键性因素,而根本原因层中的其他三个因素,也为黄石市图书馆提升服务水平提供了借鉴。需要说明的是,本文在构建模型时,数据量较小,构建的用户特征矩阵并不完善;而访谈的对象重点仅限于存在流失可能性的用户,样本较少;并且模型并没有推广实施,其适用性还有待进一步确认。以上这些都会对本文结论产生一定影响,下一步我们将扩大数据样本,改进当前存在不足,将技术和质性研究更好的结合。

综合考虑以上因素,黄石市图书馆在构建智慧型服务空间时,还应从数据分析、特色服务、创客空间、空间再造四个方面入手设计空间模型,具体见图4。

圖4 智慧型服务空间设计模型

5.1 通过数据互联服务提高图书馆服务效率

技术是图书馆发展的驱动性因素,也是图书馆智慧服务的基础。图书馆在寻求技术突破时,要充分考虑人与人之间、人与物之间、物与物之间的智慧互联互通,基于人工智能、情景感知、深度学习等方法,实现图书馆内外部数据资源对用户的智慧化服务模式[8]。首先可借助Hadoop、Spark等大数据分析平台,对门禁系统的进馆数据进行采集、加工、分析,生成可视化报表,为图书馆工作人员提供准确时段数据和用户画像,有利于图书馆根据读者类型制定服务策略,根据到馆人流量的变化趋势进行工作人员的调配和管理,合理安排人员工作,避免人员闲置,提高图书馆的服务质量。其次开发功能全面的移动端APP,用户通过在个人移动终端安装图书馆网站提供的相应软件,即可实现书目检索、读者服务、你问我答、图书借阅等服务功能;在此基础上,基于图像识别技术,使用户拍摄书籍条形码即可查询书目是否借出及书评信息。最后重视对人工智能技术的应用,将图书馆海量资源与前沿技术结合,大力打造人工智能引擎,进一步升级学习语料库与行业知识智能,开展“智慧虚拟馆员”服务,为用户提供智能咨询、聊天、检索等服务,提升用户体验与服务效率。

5.2 通过空间环境再造提供多元化学习场所

以用户需求为导向,对图书馆传统空间格局进行改造,精心打造新型的图书馆互动体验学习区,提升用户粘性。整个学习区可分为四个主题,每个主题展区各有特点,具有不同的功能,其中共享空间体验区用于读者自我展现与交流,内设若干功能舒适的个性化定制桌椅,提供使用方便的互联网络和电脑;阅读体验区可展示图书馆多媒体数字资源,包括数字化形式的图书、期刊、报纸、论文等,并通过屏幕展示和试听体验的方式向读者演示各类数字资源的获取和使用,使广大读者能够了解馆藏各种数字资源;信息共享空间展示区可提供屏幕、投影仪等设备,定期播放教育资料和电视节目,内容可为新闻、财经、地理、重大事件和重要赛事;学科服务体验区通过引进数字学科服务平台来实现其功能,用户可在此进行自主学习,自我成长。

5.3 通过推广特色服务满足用户个性化需求

在智慧环境下,公共图书馆要在传统个性化服务的基础上,借助大数据、云计算、移动互联等方法技术采集更多的读者特征和行为数据,关注用户焦点诉求,不断更新形式、丰富内容,提高服务水平,增强用户与图书馆的互动性。通过用户数据采集,了解用户关注的图书资源和数据库,并根据反馈结果制定个性化的服务方案。在向智慧图书馆发展的过程中,黄石市图书馆首先可考虑在凸显 “用户至上”原则下,深度推动信用借阅、在线借阅,逐步构建“互联网+O2O+图书馆”在线借阅服务圈;其次与政府市民信息数据库对接,进一步完善读者基本信息,以通过用户分类、画像来实现个性化推荐服务;最后,构建馆内智慧感知系统,根据用户在馆内的活动轨迹,进行数据分析,开展有针对性的服务推荐,以打造全方位的图书馆“智慧服务”。

5.4 通过构建创客空间实现图书馆向上生长

随着智慧时代的来临,公共图书馆智慧服务对空间价值的要求更高,公共图书馆在传统空间服务的基础上,需进一步将线下的物理空间与线上的虚拟空间进行融合,以体现图书馆作为信息共享与创新空间的重要地位。因此,黄石市图书馆可考虑为读者用户提供动手实践、实现创意想法的创客空间,增强图书馆与社区的互动性,提升图书馆的社会价值。为满足创客群体的需求,在空间服务上应具备实时感知、资源分析、个性化定制、及时反馈等一站式功能。在空间设置上,合理布局,提供信息技術区域、学习讨论区域、学习讨论区域和产品设计区域,以此吸引更多用户回归图书馆。

猜你喜欢

用户服务智慧图书馆机器学习
口碑信息传播对图书馆服务创新的启示
科学数据共享平台的建设与服务探讨
“互联网+”时代学术期刊的转型路径分析
大数据时代图书馆用户服务保障模式探讨
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
Beacon技术在图书馆信息服务中的应用研究
基于支持向量机的金融数据分析研究
论智慧图书馆的三大特点
RFID技术在我馆的应用及其局限性探讨