APP下载

基于用户画像的图书精准推荐服务

2020-03-28徐傲雪

文教资料 2020年35期
关键词:用户画像大数据

徐傲雪

摘   要: 新冠肺炎疫情防控期间,基于用户画像的图书精准推荐服务,有利于提高服务质量,优化运营管理,进一步培养用户阅读兴趣,具有极高的社会效益和经济效益。本文分析了图书用户画像的构建方法,以及如何应用于图书精准推荐服务,以为相关工作的开展带来一些启示意义。

关键词: 用户画像   图书推荐   大数据

一、引言

互联网时代,信息不再是稀缺资源,人们利用搜索引擎,可以在短时间内获取海量信息。但伴随着网民数量的增多,互联网在日常生活中不断深入,互联网上各类广告信息、垃圾信息逐渐泛滥,人们通过搜索引擎虽然可以轻松获取大量信息,但其中夹杂着大量无效信息,真正对用户有价值的信息寥寥无几,也就是说传统搜索引擎技术效率低下,遇到瓶颈。面对这样的困境,基于大数据的精准推荐服务应运而生。精准推荐服务将对用户过往使用搜索引擎的行为、习惯、兴趣爱好进行挖掘、整理和分析,从中总结用户特点,形成用户画像,基于用户画像对用户进行相关信息的推荐,提高用户信息搜索的匹配度,提高用户搜索的效率和准确性。

基于用户画像的精准推荐服务在互联网行业应用广泛,最早使用精准推荐服务的是各类电商网站,通过收集用户的商品浏览信息、购买信息、收藏信息等数据,总结出用户喜好,对用户进行商品推荐,以进一步提高用户对电商网站的使用率和购买率。随后,精准推荐服务被运用于新闻网站、娱乐网站、社交网站,今日头条、抖音等新兴社交App是精准推荐服务应用的典型代表,通过分析用户以往的浏览数据、点赞数据、留言数据等信息,为用户源源不断地推送合乎用户画像的新内容,从而实现用户积累。可以说,当今时代,用户数据、用户画像的价值已经被发掘得淋漓尽致,基于用户画像的精准推荐服务涵盖生活的方方面面,基于用户画像的精准推荐服务成为当今互联网行业最核心的技术之一。

然而,在图书信息系统领域,基于用户画像的精准推荐服务的应用并不是十分广泛。一方面,图书馆等机构每年耗费大量资金、资源购买新书、维护图书,但传统宣传渠道效率低下、精准度差,图书资源的利用率仍有待提高。另一方面,目前传统的图书检索系统只能通过关键词搜索图书,用户在使用过程中往往需要花费较长时间筛选,才能准确找到相关书籍,面临用户体验差、效率低下的问题。在以往经营过程中,图书馆已经积累了大量的读者和图书借阅、浏览记录,这部分数据可以帮助图书馆构建用户画像、分析用户行为,具有极高的利用价值。目前这部分数据的开发、利用程度并不高。如果能够充分利用用户数据,基于用户画像开展图书精准推荐服务,那么一方面可以帮助图书馆提高服务质量,进一步激发和培养用户对于阅读的兴趣,另一方面可以提高图书资源的利用率,实现降本增效。因此,基于用户画像的图书精准推荐服务具有极高的社会效益和经济效益。新冠疫情防控时期,作为大量师生读者聚集的场所,高校图书馆的疫情防控任务刻不容缓,既要减少人与人之间的接触,又要推广图书资源提高服务质量。如何直接通过用户数据的处理达到图书精准推荐尤为重要。

二、现有的图书推荐模式

图书推荐并不是一个新鲜名词,具有较长的发展历史。目前图书推荐模式主要分为两种:一种是“无差异图书推荐”,常见形式包括“新书推荐”“借阅排行”“热门推荐”“每周推荐”等。这类推荐模式对所有用户的推荐内容都是一致的、无差异的,与用户行为无直接关联。这种图书推荐模式的优点是简单易行,运营人员只需要编辑一个网页或者一条信息,推送给用户即可,而且具有一定的普适性,推荐图书大多经典或者熱门,足以满足用户的一般性需求。

“无差异图书推荐”的弊端显而易见,就是为所有用户推荐的内容是相同的,无法满足用户的个性化需求。伴随着大数据和用户画像技术的不断发展和成熟,“差异化图书推荐”逐渐兴起,通过挖掘和分析用户行为,描绘用户画像,预测用户喜好,对用户进行个性化的图书推荐。“差异化图书推荐”可以分为“个性化用户推荐”和“群体化用户推荐”。其中,“个性化用户推荐”以某一个体用户为单位,通过挖掘、分析该用户的行为进行图书资源的匹配和推荐。“群体化用户推荐”以某一群体为单位,挖掘、分析该用户群体的行为习惯,进行图书资源的匹配和推荐。“差异化图书推荐”的常见形式包括“猜你喜欢”“根据浏览记录推荐”“根据收藏记录推荐”等。与传统“无差异图书推荐”模式相比,“差异化图书推荐”的优势是进一步提升图书资源与用户需求的匹配度和匹配效率,提升用户体验,但“差异化图书推荐”需要进行用户画像的构建和图书推荐系统的开发,无疑需要更高的技术要求和成本投入。

数据化时代,用户在使用图书资源的各个环节都会产生数据,因此用户不再是过去单纯的资源使用者,更是资源创造者。如何在用户产生的海量数据资源中发掘价值、创造价值,更好地为用户服务,是当下需要解决的问题。通过挖掘用户在利用图书资源过程中的各种行为,构建用户画像,对用户的潜在需求进行预测,形成图书精准推荐服务,正是利用数据驱动服务变革的典型应用。

三、图书用户画像及其构建

1.用户画像的相关概念

用户画像这一概念来自互联网行业,最早由美国软件设计师Alan Cooper提出。Alan Cooper认为,用户画像是对于用户特征的一种虚拟描绘,方式是通过该用户的真实数据构建模型。早期,用户画像的构建还需要借助问卷调研等形式完成,随着互联网的兴起,如今越来越多的用户画像构建通过互联网大数据进行,并将其分为两个层次:第一层是指用户的静态画像,或者称为用户属性画像,主要包括用户的年龄、性别、住址、家庭状况、专长、兴趣爱好、文化程度等;第二层是用户的动态画像,或者称为用户行为画像,主要收集用户的动态行为数据,例如用户的点击、浏览、购买、页面停留时长等信息。

用户画像的一大特征是具有非常强的更新和迭代性,一方面随着时间的变化,用户的动态行为将发生变化,引发用户画像的改变,另一方面同一个用户在某一领域形成的画像,换成另一个领域可能无法适用,因此,用户画像绝非一蹴而就,需要根据用户行为的变化实时更新和迭代,并对其相应的服务进行调整。用户画像的另一大特征是具有一定的知识性,也就是说用户产生的大量行为数据往往隐藏一些知识和经验,如果对其总结和归纳,就形成有价值的信息。

一般而言,用户画像的构建需要以下几个流程:第一步是用户数据的收集,其中,用户的静态数据,可以通过用户注册的形式获取,用户的动态数据,则可以通过系统日志的形式获取。第二步是数据的预处理,因为采集而来的原始数据中往往夹杂大量错误、异常、多余数据,无法直接使用,因此需要对数据进行清洗和处理,实现数据的标准化,从而用于建模。第三步是建模,根据业务需求,确定用户画像模型中的各个维度及权重,从而构建符合业务需求的算法模型。第四部是用户画像的形成,在完成用户数据的收集、处理、建模之后,最终输出用户画像,并在后续持续输入用户数据,更新用户画像。

2.图书用户画像的构建

(1)数据收集

由于用户画像有两个层次:静态画像和动态画像。数据收集分为两部分:静态数据和动态数据。其中,静态数据可以分为两部分:读者信息和书籍信息。读者信息包括以下内容:姓名、性别、年龄、文化程度、专业、所在城市、兴趣爱好,这部分信息往往可以在用户注册过程中获取。书籍信息包括以下内容:图书名、作者、主题词、出版社、丛书名、ISBN、ISSN、ISRC、索书号、MARC号等。动态数据包括用户借阅记录、用户检索记录、用户浏览记录、用户的操作记录和用户反馈信息四部分。其中,用户借阅记录包括用户所借圖书信息、借阅时长、是否续借,可以根据借阅时长和是否续借判断用户对于这本书的喜好程度高低。用户检索记录包括用户检索词和用户检索时长,通过对检索词词频的统计和用户检索时长的统计,可以对用户感兴趣的检索词及内容进行排行。用户浏览记录主要包括用户的浏览页面、跳转页面、浏览时长和点击次数,可以推断出用户感兴趣的页面及内容。用户的操作记录包括用户的关注记录、分享记录、预约记录、收藏记录、是否感兴趣记录等信息,通过用户的操作判断用户喜好。用户反馈信息主要包括用户好(差)评记录、评论记录、反馈时间和反馈内容等,根据用户的直接反馈判断用户的喜好及需求。

(2)数据预处理

初步收集来的用户数据往往掺杂大量异常、重复、残缺、多余数据,不能直接用于建模,因此需要对数据进行清洗和处理,使数据满足后续用户画像建模的需求,在此以用户借阅记录信息为例。

图书借阅具有一定的不确定性,用户借阅图书的时候,往往会出现以下典型情况:用户对于自身需求并不明确,在浏览图书时往往会随机借阅一些书籍,在后续阅读过程中发现对这本书并不感兴趣,读了几页内容便不再阅读。单纯从数据角度来看,用户借阅了这本书,产生了借阅记录数据,就表示他对此类书籍有兴趣,实际上恰恰相反。这一类借阅记录信息对于用户画像的准确性造成了一定的干扰,在数据处理的时候需要将其剔除。对此,笔者建议可以对用户的借阅时长进行设定,借阅时长小于24小时的借阅行为,很有可能是用户随机借阅了某本书籍之后,发现内容不感兴趣,立即归还,这类借阅记录数据可以被归类为异常数据而删除,不会在后续的用户画像构建中采用。

(3)图书用户画像模型构建

图书用户画像模型的构建需要解决两方面问题:一是一个完整的图书用户画像应该包含哪些维度,二是各个维度之间的权重应该如何决定。

基于对电商、社交App等行业用户画像模型的研究和观察,笔者建议,图书用户画像模型的构建应该包括以下几个维度:自然属性维度、兴趣属性维度、社交属性维度和价值属性维度。

自然属性对应的是读者的静态数据,包括读者的姓名、性别、年龄、文化程度、专业、所在城市、兴趣爱好等信息,通过自然属性可以勾画出一名用户最基本的画像轮廓。

兴趣属性对应的是读者的借阅数据、检索数据、浏览数据等,根据这些数据可以描绘出读者感兴趣的图书类型,对读者进行图书推荐。

社交属性对应的是读者的一些交互行为所产生的数据,例如读者的收藏、评论、分享等数据。通过分享、评论等社交行为,可以找到图书偏好相类似的读者,形成兴趣群体,以群体为单位挖掘图书偏好,进行图书推荐。

价值属性对应用户的反馈信息,因为有些用户对于图书信息系统的使用不仅仅是借阅、浏览,可能喜欢表达对于图书的观点,反馈对于图书服务的意见,这类行为是用户主动参与图书信息系统的表现。对于用户价值属性的描述,一方面有利于进一步挖掘用户感兴趣的专业和方向,另一方面可以帮助图书馆进一步提高服务质量和运营效率。

上述四大维度在图书用户画像中的权重应有所不同,权重越大,意味着对用户画像的影响程度就越高,具体的权重设置可以根据不同机构的具体业务需求而有所不同,但在图书用户画像中,兴趣属性最能体现用户需求的最直观表现,因此权重应占据最核心的位置,其他属性处于辅助位置,四者之间相互影响。

四、图书精准推荐服务方法

构建完成图书用户画像,需要将图书用户画像与图书资源进行匹配,实现图书精准推荐。目前主流的推荐方式包括协同过滤推荐、基于内容推荐、基于知识推荐和混合推荐。

1.协同过滤推荐

现实中,不知道读什么书的时候,往往更倾向于询问一个与自己兴趣爱好类似的朋友,听听他的推荐,正是协同过滤推荐方法的基本逻辑。因此,在获得某用户的用户画像之后,需要将他与画像类似的读者像匹配,然后将这部分类似读者借阅频率高、评价高的图书推荐给该用户。对于图书信息系统而言,首先要将目标用户的用户画像进行量化,然后根据量化结果,列出与目标用户画像相似度最高的5名读者,获取他们的借阅书单,再根据目标用户的兴趣属性,对借阅书单进行筛选,并根据借阅次数进行排序,剔除目标用户已经借阅过的书籍,最终形成精准的图书推荐书目。

对于没有借阅记录的新用户、没有被翻阅过的新书籍,协同过滤推荐方法往往无法做出推荐,这也是该方法的主要缺陷。

2.基于内容推荐

基于内容推荐方法,是根据用户的历史动态信息,为用户推荐与过去借阅、检索、浏览书籍相类似的其他书籍。例如,目标读者喜欢读《明朝那些事儿》《万历十五年》等关于明朝历史的书籍,基于这样的内容判断,系统就会为用户推荐以“明朝”“中国历史”为标签的书籍;如果用户喜欢读《爆款文案》《文案创作完全手册》等讲述文案写作的书籍,那么系统就会为用户推荐以“文案”“广告学”“写作”为标签的书籍。

基于内容推荐方法的实现,一方面是通过用户数据构建用户画像,以此代表用户的行为偏好,另一方面是通过分析提取图书的内容特征,建立图书的物品画像,然后对比用户画像和物品画像的相似度,从而进行匹配。

基于内容推荐方法可以避免协同过滤推荐存在的无法推荐新书的问题,这种推荐方法有缺点:一是需要建立物品画像,图书内容往往比较复杂,物品画像的构建工作庞大、效率低,并且会面临不够准确的问题;二是基于内容推荐方法推荐的都是用户感兴趣的内容,无法激发用户新的兴趣方向。

3.基于知识推荐

在现实中,给一名用户推荐最合适的商品,最简单的方法是直接问用户的需求,这便是基于知识推荐方法的逻辑所在,通过交互、会话等方式推理出用户的需求,进行图书资源的匹配。

例如,目标用户最初以“文案寫作书籍”为需求进行搜索,图书信息系统会根据这一偏好提供一组书目,目标用户看后,将需求修改为“快消品相关的文案写作书籍”,系统对此作出推荐书目的调整。通过用户与系统之间的交互,用户不断完善自己提出的需求,最终需求可能为“近3年出版、快消品、评分8分以上、文案写作书籍”,系统需要根据用户需求的变化不断推导出用户需要的图书。

基于知识推荐方法的优势是不依赖用户数据和用户画像也可以做到图书精准推荐,但是缺陷显而易见。基于知识推荐方法往往涉及比较专业的知识领域,需要根据用户的提问推导出相应的推荐书目,因此知识的定义和获取比较难。

4.混合推荐方法

所谓混合推荐方法,就是将上述推荐方法进行融合,充分利用用户画像、物品画像、知识模型、群体信息等数据,吸收各种推荐方法的长处,避免各自的缺陷,达到更精准的推荐效果。

五、结语

利用数据驱动服务变革是大数据最主要的应用价值,图书领域也不例外。作为大量师生读者聚集的高校图书馆,持续做好疫情防控工作,排除防疫漏洞,克服麻痹、厌战、侥幸等心态,防范疫情“此伏彼起”是重要课题。基于用户画像的图书精准推荐服务,有利于图书馆疫情防控工作,提高服务质量,优化运营管理,进一步激发用户对于阅读的兴趣,具有极高的社会效益和经济效益。本文对图书用户画像的构建方法进行阐述,并对目前主流的图书精准推荐方法进行分析,以对基于用户画像的图书精准推荐服务的实践有所启发。正如文中所说,用户画像的最大特点是更新和迭代性,基于用户画像的图书精准推送服务研究并非一蹴而就,未来需要更多的探索和研究,进一步增强图书推荐的效果,更好地为广大读者服务。

参考文献:

[1]邵方舒.基于协同过滤及关联规则的个性化图书推荐[D].杭州:浙江工商大学,2018.

[2]杨玲.图书推荐服务系统构建与应用研究[D].广州:华南理工大学,2014.

[3]白雪阳.个性化图书推荐系统的设计与实现[D].哈尔滨:哈尔滨工程大学,2012.

[4]刘海鸥,姚苏梅,黄文娜,张亚明.基于用户画像的图书馆大数据知识服务情境化推荐[J].图书馆学研究,2018(24):57-63+32.

[5]何娟.基于用户个人及群体画像相结合的图书个性化推荐应用研究[J].情报理论与实践,2019,42(01):129-133+160.

[6]贾伟,刘旭艳,徐彤阳.融合用户智能标签与社会化标签的推荐服务[J].情报科学,2019,37(10):120-125.

[7]张若兰.基于用户画像的智慧图书馆情景化知识推荐服务研究[J].图书馆学刊,2019,41(11):123-126.

[8]俞奕.基于用户画像的个性化图书推荐研究[J].办公室业务,2020(01):158-159.

[9]张晗.基于用户画像的数字图书馆精准推荐服务研究[D].长春:吉林大学,2019.

湖北科技学院校内培育项目(2018-19x012),项目名称:信息行为导向的微信嵌入式学科服务平台建设研究。

猜你喜欢

用户画像大数据
大数据环境下基于移动客户端的传统媒体转型思路