APP下载

基于用户画像的阅读推荐研究

2024-02-24王雯霞许丹鞠昕蓉

河南图书馆学刊 2024年1期
关键词:用户画像个性化服务

王雯霞 许丹 鞠昕蓉

收稿日期:2023-12-01

作者简介:王雯霞(1990—  ),中国医科大学图书馆馆员;许丹(1985—  ),中国医科大学图书馆副研究馆员;鞠昕蓉(1996—  ),中国医科大学图书馆助理馆员。

* 本文系2021年度辽宁省社会科学规划基金项目“基于Faculty Opinions最新评分的生物医学科技论文多元评价指标体系建立研究”的阶段性研究成果之一,项目编号:L21BTQ009。

摘  要:文章以中国医科大学2020年入学的本科生为样本对象,运用RFM模型提取特征变量,结合K-means算法将其划分为三类,构建了借阅观望型、理性阅读型、重要发展型三种类型的用户画像,并依据不同类型的用户画像提出了相应的服务对策,以期满足不同类型用户的需求,提升图书馆服务水平。

关键词:用户画像;阅读推荐;个性化服务

中图分类号:G250.7    文献标识码:A    文章编号:1003-1588(2024)01-0081-03

1  相关研究

用户画像技术最早由交互设计之父Alan Cooper提出,首先应用在软件工程领域,能够将抽象信息描述成具象实体。在图书馆的各项服务中,用户画像技术为参考咨询服务、视觉搜索服务等业务提供理论支撑[1,2]。例如,Al Shboul等针对雅尔穆克大学的人文学者进行深入分析,利用用户画像清晰描绘学者们的信息寻求行为,以便图书馆为其提供更适合和满意的服务[3];Mao J等发现将标签共现网络应用于用户画像分析既能提供更准确的个性化推荐,又能预测用户的检索行为[4]。在阅读推荐方面,赵岩构建了基于用户画像的智慧阅读推荐系统,从理论层面详细阐述了系统推荐流程[5];李晓敏等从用户自然属性、兴趣属性、社交属性出发,实现基于相似读者和相似图书的虚拟图书推荐[6];解娜结合读者的位置信息和图书访问行为数据为其提供周边好书推荐服务[7];盛琳涵从读者、资源、情境等维度构建了阅读推广模式[8]。梳理现有研究结果发现数据支撑下的阅读推荐服务实证研究较少,笔者以中国医科大学图书馆读者借阅数据为实例,尝试以用户画像理论方法构建不同类别用户画像,在此基础上开展阅读推荐,以期提高图书馆服务水平。

2  理论基础与数据收集

2.1  RFM模型

RFM模型最早由Arthur Hughes提出,其基本思路是通过近度R、频度F、值度M三个行为指标划分不同类型的用户[9]。为评估图书受欢迎程度,张海、李杭等将RFM模型指标定义为图书最近被借阅时间(R)、被借阅次数(F)、被借阅总时间(M)[10,11]。在此基础上,陈宇奇等引入图书首次借阅间隔时长(Beginning)指标,构建了BRFM模型[12];乐承毅等将续借行为也考虑在内,构建了改进版的RFM模型[13]。笔者借鉴上述研究中的RFM模型指标含义,以进一步细分读者类型为目标,根据读者借阅行为数据的差异性重新调整了RFM模型的指标含义,即调整后的近度R表示在观测时期内每位读者最近一次借阅图书时间与观测截止时间的间隔,以天为时间单位;频度F表示在观测时期内每位读者累计借阅图书的总次数;值度M表示每位读者借阅图书间隔天数的平均值。

2.2  数据收集与处理

本研究的样本对象是中国医科大学2020年入学的本科生,对有近三年图书借阅记录的大学生进行深入分析具有一定的可行性和必要性。笔者以1,968位本科生读者的姓名和学号为检索点,通过中国医科大学图书馆的图书管理系统获取其图书借阅情况,共获得14,921条相关记录,数据收集时间为2023年3月2日。

利用图书管理系统采集借阅信息比较繁杂,需要分两步完成数据处理:第一步是删除正在借阅的图书,这部分图书尚未归还,无法进一步分析其借阅行为特点。经过数据筛选,共有526本图书是外借状态,留存的已归还图书借阅记录为14,395条。第二步是提取特征变量,根据RFM模型的指标含义,累计借书次数(频度F)能够通过借书日期和应还日期计算出图书的借阅间隔天数,而通过不同读者的借书记录能够分析出每位读者最近一次借阅时间间隔(近度R)和借阅时间间隔平均值(值度M)。

3  用户画像的构建与展示

3.1  特征变量描述

聚类分析是基于距离测度将样本对象按照特征变量进行分类的统计方法,由于距离测度对特征变量有一定的要求,因此在特征变量聚类前需要检验其分布状态与独立性。笔者利用SPSS软件对样本对象的指標数据进行统计性描述和K-S检验,得出近度R和频度F的标准差分别为18和26.3,值度M具有较大的标准差,数值为35.8,结合指标含义可发现部分读者的图书借阅时间间隔均值为0。同时,显著性sig均小于0.05,说明近度R、频度F、值度M三个特征变量都不呈正态分布。

合理的特征变量指标还需具备较低的相关性,以避免同类变量导致的重复计算,从而影响聚类分析的最终结果。本研究采用Spearman相关分析方法,得出频度F和值度M呈现微弱正相关,相关系数为0.198,近度R与频度F、值度M的相关系数分别为0.331、0.262,具有一定的独立性。

3.2  样本对象划分

两步聚类法根据BIC或AIC等指标自动确定最佳聚类个数,能够灵活展示不同分组数量的聚类质量[14]。本次分类依次选择聚类数为3~5,利用SPSS软件实现两步聚类并观测聚类效果:当分组数量高于3时,两步聚类的聚类质量比“尚好”的标准高一些,约为0.55;当分组数量为3时,聚类质量约为0.65,说明聚类结果可信。笔者据此将1,968名样本对象划分为三类,再结合K-means算法对其进一步聚类,聚类结果见表1。表1显示,群体一频度F、近度R、值度M的最终聚类中心都为0,人数为587人;群体二频度F、近度R、值度M的最终聚类中心分别为14、14、29.55,人数最多,共有1,292人;群体三频度F、近度R、值度M的最终聚类中心分别为6、131、219.35,共有89人,人数最少。

3.3  用户画像构建

1,968位读者的图书借阅记录共有14,395条,根据三类群体的聚类结果进行划分:群体一借阅图书0本,群体二借阅图书13,515本,群体三借阅图书880本。为进一步区分群体二和群体三的借阅行为差异性,笔者从索书号中提取图书分类号,将群体二和群体三按照图书借阅次数进行排序,排序结果显示两类群体前9名的图书分类号完全相同,能够体现群体差异的是第10名和第11名,群体二的第10名和第11名是D类、Q类,而群体三的第10名和第11名是Q类和F类。根据所借图书题名,笔者利用Python分词工具包制作了两类群体的图书词云图:群体二的詞云图中的显著关键词是系统解剖学、生理学、笔记、图谱、大学英语、组织学、胚胎学等;群体三的词云图中的显著关键词是学习指导、彩色图谱、妇产科、病理学、等级考试等。

4  用户画像描述及阅读推荐

4.1  借阅观望型

群体一的频度F、近度R、值度M都为0,说明该群体自入校以来就没有借阅过任何图书,可将其归属为借阅观望型。借阅观望型读者在某种程度上是图书借阅的潜力军,图书馆针对他们开展借阅服务大有可为,一方面要针对这一类型读者的专业特性进行点对点资源推荐;另一方面要优化图书借阅流程,拓宽读者荐书渠道,加大馆藏资源宣传推介力度,吸引借阅观望型读者的目光,激发他们的阅读热情。

4.2  理性阅读型

群体二的近度R为14、值度M为29.55,说明该群体自入校以来平均每个月借阅一次图书,最近一次借阅时间是在半个月前。群体二的词云图显示了英语四级和习题集等关键词,说明该群体阅读目的明确,可将其归属为理性阅读型。理性阅读群体的图书借阅积极性和活跃度较高,图书馆可为其聚集志同道合的同伴,为他们提供相应的交流讨论空间,既可以相同专业进行聚合,也可依据读者相似度算法进行聚合[15]。在阅读推荐方面,图书馆应侧重专业图书的新书推荐,尤其是各种题集、笔记,为读者提供获取最新辅助资料的渠道,同时加强读者信息素养培养,提升其资源查找和获取能力。

4.3  重要发展型

群体三的近度R为131、值度M为219.35,说明该群体自入校以来平均每学期借阅一次图书,最近一次借阅时间约在4个月前。群体三有过借阅历史,但活跃度明显低于群体二,具有发展潜力,可以将其归属为重要发展型。重要发展型群体人数只有89人,该群体词云图中的关键词“学习指导”异常明显,说明该群体在学习指导方面亟须得到帮助。基于此,图书馆一方面要针对这一群体提供更精准的阅读指导,提升读者阅读能力和学习能力;另一方面要利用图书相似性算法挖掘馆藏同类资源,打造专业性强的系列阅读指导服务体系,提升自身服务能力。此外,群体三的图谱需求量明显高于群体二,图书馆可为其推荐图谱电子书以及包含图谱的各种数据库,同时举办专项图谱深度讲座,满足其阅读需求。

参考文献:

[1]  程秀峰,周玮珽,张小龙,等.基于用户画像的图书馆智慧参考咨询服务模式研究[J].图书馆学研究,2021(2):86-93.

[2]  曾子明,孙守强.基于用户画像的智慧图书馆个性化移动视觉搜索研究[J].图书与情报,2020(4):84-91.

[3]Al Shboul,Abrizah A.Modes of information seeking: developing personas of humanities scholars[J].Information Development,2016(5):1786-1805.

[4]Mao J,Lu K,Li G,et al.Profiling users with tag networks in diffusion-based personalized recommendation[J].Journal of Information Science,2016(5):711-722.

[5]  赵岩.基于用户画像的数字图书馆智慧阅读推荐系统研究[J].图书馆学刊,2018(7):121-124.

[6]  李晓敏,熊回香,杜瑾,等.智慧图书馆中基于用户画像的图书推荐研究[J].情报科学,2021(7):15-21.

[7]  解娜.基于用户画像的读者周边好书推荐服务研究[J].情报探索,2020(8):104-108.

[8]  盛琳涵.基于用户画像的经典阅读推广模式构建:以高校图书馆为例[J].河南图书馆学刊,2022(10):2-4.

[9]Hughes A.Strategic database marketing[M].Chicago:Probus Publishing,1994:302-318.

[10]  张海营.基于RFM模型的图书馆图书评价系统研究[J].图书馆,2012(3):60-62.

[11]  李杭.RFM模型在图书质量评价系统中的应用[J].农业图书情报学刊,2014(2):54-57.

[12]  陈宇奇,施国良,张潇潇,等.基于修正RFM模型的高校图书馆热门图书评价体系及影响因素研究[J].图书馆学研究,2020(10):58-68.

[13]  乐承毅,王曦.基于改进RFM聚类的高校图书馆用户画像研究[J].图书馆理论与实践,2020(2):75-79.

[14]  汪存友,余嘉元.SPSS两阶聚类法如何自动确定聚类数[J].中国卫生统计,2010(2):202-203.

[15]  郑祥云,陈志刚,黄瑞,等.基于主题模型的个性化图书推荐算法[J].计算机应用,2015(9):2569-2573.

(编校:徐黎娟)

猜你喜欢

用户画像个性化服务
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
浅析移动时代的图书馆发展策略
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究
移动用户画像构建研究
基于微博的大数据用户画像与精准营销
山西自驾游发展的问题与对策研究
新形势下饭店服务业发展存在的问题及对策建议
移动互联网下手机用户使用行为特征的研究