APP下载

图书类别的多层表示学习*

2018-08-08

图书馆论坛 2018年8期
关键词:中图法分类号类别

随着移动互联网和移动阅读的发展,高校馆纸质图书借阅率下滑,如何提升馆藏纸质资源建设和个性化图书推荐服务成为高校馆研究方向之一。精准的学科化图书推荐,依赖于宏观上洞察馆藏结构和资源分布,更需要微观上把握读者学科学习需求、使用偏好、借阅心理和借阅行为等因素。若能通过读者借阅行为揭示馆藏纸质资源的利用与需求,挖掘隐含的借阅关联演变过程,将对个性化图书推荐非常有参考价值。故此,本文从图书的主题表示法出发,提出基于读者借阅序列的多主题表示方法,在中图分类法的基础上将一个图书类别转换为多种图书类别表示的向量。通过基于序列的方式展现图书类别的变化过程,提高各类别之间关联变化的可解释性。以期探索高校图书馆个性化图书推荐的新服务途径。

1 研究回顾

近年基于图书主题法实证研究高校馆藏资源个性化图书推荐的研究较多。彭博[1]提出引入包含用户属性和图书分类信息的三部图推荐方法,实现针对不同读者提供满足不同专业需求的借阅推荐。侯银秀等[2]使用情感分析方法对用户图书评论进行属性层文本挖掘,得到细粒度的用户偏好信息,并通过与图书属性的得分进行匹配,提升图书个性化推荐的效果。王连喜[3]通过挖掘用户的背景信息构建用户特征模型,研究多种不同的图书推荐方法,以挖掘用户的潜在信息需求,从而实现用户与图书相互关联的个性化图书推荐服务。漆月等[4]则以图书分类号为依据,构建用户个性化兴趣库及图书综合推荐库,并通过分类号的匹配形成个性化的图书检索信息及图书推荐结果。蒋小峰[5]提出结合专业需求、阅读倾向和阅读心理等进行精准的个性化图书推荐服务。郑祥云等[6]针对传统推荐算法精准度不高的问题,通过对目标借阅者的历史借阅数据与其他图书数据进行内容相似度分析,得到与目标借阅者历史借阅图书内容相似度较高的其他图书,提出了新的适用于图书推荐的数据挖掘模型。林泽鸿等[7]挖掘读者在社交论坛所在的版块、交互次数和评论等方面的喜好,实现精准图书推荐。李树青等[8]将读者借阅行为特征和图书借阅关系相结合,设计一种测度图书可推荐质量的迭代算法,提出三种不同类型的个性化图书推荐服务。然而,基于图书主题法的高校图书馆个性化推荐系统的实用性还不尽如人意,如需要读者加入标签信息;对读者需求细化不足,停留在大类和主题层次;或者以图书类别作为读者兴趣表示和推荐的依据,这些做法都没展现外借图书的序列借阅关系演变。为探索基于读者借阅行为的图书推荐模型,本文通过读者借阅图书分类、兴趣偏好和读者学科专业属性等多方面特征值构建图书类别多层表示学习方法,从而探索出更为有益和精准的个性化图书推荐方式。

2 问题定义

个人借阅数据由一段时间内个人借阅序列构成,每次的借阅行为包含多种图书相关概念,如图书分类号、图书描述词汇、读者所在专业。该层次结构提供了两类关联信息:借阅序列和同一次借阅中并发出现的图书概念。

在借阅数据集中,用C1、C2、...C|C|构成的集合C表示图书概念编码。每位读者的借阅序列(每次借阅)可用V1、V2、...VT表示,每次借阅包含图书类别概念的子集,即Vt⊆C。Bib2Vec算法的目的是学习图书类别的两类表述:(1)编码表述。目的是学习一个嵌入函数fC∶C->R+M,即将每个类别编码映射到一个维度为m的非负实数向量;(2)借阅表述。任务是学习另一种嵌入函数fV∶V->Rn,该函数将每次借阅(图书类别的集合)映射到一个维度为n的实数向量。此处集合V是编码集合C的幂集。

2.1 Bib2Vec的结构

图1描述了Bib2Vec结构。给定一次借阅vt,使用一个多层感知机(MLP)生成对应的借阅表述vt。借阅Vt表示为一个二元向量xt∈{0,1}|C|,当且仅当ci∈Vt时,第i项的值为1。这样xi可以转换为借阅的中间表述ut∈Rm,见公式(1)。

其中,Wc∈Rm×|C|是编码权重矩阵;bC∈Rm是偏置矩阵;使用ReLU函数作为激活函数以提高交互性,其定义为ReLU(v)=max(v,0)。此处的max()是个向量函数,基于各元素进行计算。

为提高学习的准确性,需要加入读者基本信息,如年龄、性别、籍贯、专业、班级等。通过将ut与读者基本信息连接,得到最终的借阅表述vt∈Rn,见公式(2)。

其中,rt∈Rd表示读者基本信息,d是读者基本信息向量的大小;借阅权重向量Wc∈Rn×(m+d);偏置权重bv∈Rn;此处的n为借阅表述的预定义大小;激活函数仍使用ReLU。

图1 Bib2Vec的结构

2.2 基于借阅文本表述的参数训练

利用借阅的序列信息,能训练借阅和潜在编码的表述。在训练MLP过程时,可将读者借阅经历当作一个持续过程,而一次借阅便是其中的一个状态。因此,给定某次借阅的表述,可以用之预测过去的借阅信息,也可以用之预测未来的借阅信息。换句话说,给定一次借阅表述vt,可以训练一个softmax分类器,用来预测该读者在前后借阅窗口中所借阅书本的类别。可通过公式(3)所示的方法最小化交叉熵代价函数。

WS∈R|C|×n和bS∈R|C|分别是softmax分类器的权重矩阵和偏置矩阵;w是预定义的前后借阅窗口大小;exp是向量的指数函数,返回向量每个元素对应的exp次方值;而1表示全1向量。

2.3 基于分类编码表述的参数训练

除了借阅序列信息外,图书借阅历史隐含的另一个重要信息是图书编码同时出现信息,即每次借阅中同时出现的图书类别。本文拟在Bib2Vec引入Skip-gram方法以获取图书类别在同一次借阅时的共现信息。Skip-gram方法是许多概念表述学习方法的基础。基于预定义大小的上下文窗口中单词的共现信息,该方法可在给定单词序列w1,w2,...,wT中学习单词的表述。具体做法是训练Wc∈Rm×|C|,使其第i列能表示对应的第i个图书类别。为使习得的编码表示更易于理解,编码表示应为非负的。因此,如公式(4)(5)所示,在使用Skip-gram算法时,本文训练的是非负权重ReLU(Wc),而非Wc。这样,所学的权重变成Wc'=ReLU(Wc)∈Rm×|C|。当存在借阅序列V1,V2,...,VT,可通过最大化下列似然函数得到基于编码的概念表示:

2.4 联合训练

合并公式(4)和公式5)的目标函数,可以得到一个联合的训练框架,见公式(6)。通过两个目标函数的结合,可以从同一个借阅记录学到基于中图法和基于主题法的图书类别表述,以便同时利用借阅内部的类别号并发出现信息和不同次借阅之间的序列信息。

3 实证分析

本节在厦门理工学院图书馆历年借阅数据的基础上进行实验,评估Bib2Vec算法的有效性。笔者对实验数据集和评价指标进行描述,并对基于编码表述和借阅表述的实验结果进行讨论,总结算法的适用性。

3.1 实证数据获取与分析

(1)数据集描述。实验数据集来自厦门理工学院2010年1月1日~2013年12月31日的读者借阅数据。为对实验结果进行更准确的分析,本文从中抽取计算机相关院系的学生借阅记录作为实验数据集,包括计算机与信息工程学院、电气工程与自动化学院、光电与通信工程学院、应用数学学院。其中,用前三年的数据作为训练集,用最后一年的数据作为测试集。对于类别编码,文中使用两种,一种是中图法分类号,另一种是图书标题中所出现主题词的聚类id,总共200个聚类。中图法分类采用多层级编码,为了统一各类的细分度,笔者将编码定为5级,5级以下的分类号统一合并到第5级。比如,程序设计的分类号是TP311.1,为便于与其他类别作比较,将其归并到TP311。数据集的统计信息如表1所示。

表1 训练集和测试集的基本统计

(2)评价指标描述。鉴于分类号级别的评价需引入该领域的知识专家,对习得分类号进行相关性验证,工作量大。本文仅采用基于借阅的评价,根据习得分类号对未来借阅类别的预测性,评价Bib2Vec算法的准确度。以两次连续借阅Vi和Vj为例,以Vj的中图法分类号作为预测目标y,Vi的图书类别表述(中图法和标题对应的主题聚类)作为输入x,即上下文窗口大小为1的情形。

笔者采用命中率指标HR作为预测性能的评价指标。所谓命中指预测的图书类别与用户欲借阅的图书类别一致。鉴于大学生思想活跃,容易受外部影响,借阅兴趣不够稳定,可预测性较低,实验中不使用完全命中的定义,改为topk命中:即当推荐的topk个图书类别在用户欲借阅的图书类别中,则认为本次推荐命中。这样,HR变成HR@k,具体描述见公式(7)(8),文中取k=5和k=10两种情况。

表2 术语聚类结果例示

为增加可推广性,本文将把上下文窗口大小设为1、2、3等情形,以分析上下文窗口大小的变化对预测精度的影响。同时,将实验分为两部分,一类是仅使用中图法类别作为类别表述;另一类的类别表述中除用到中图法类别外,还附加图书主题的聚类信息。

3.2 术语聚类描述

大多数读者基于标题内容检索图书,因此,主题词选择对用户检索具有较强的指导意义。主题词是通过对训练集和测试集的图书标题进行文本分词得到,聚类时考虑主题词同时出现在一本图书的次数,通过k-means聚类方法(实验将k设为200),得到主题聚类信息。术语聚类结果如表2所示,因篇幅问题,仅显示两个。从中可以看出,聚类较为明显地体现了用户的兴趣和图书的类别。第3个聚类显示了计算机技术方面的术语,该聚类的术语偏重于操作系统和硬件方面的内容。即便是防火墙、入侵、修复、监控等词也与网络安全相关,而网络安全方面的研究更多从操作系统层面实现。而第10个聚类体现了对考研数学资料的检索需求,如gct(硕士专业学位研究生入学资格考试)、lingo(数学建模中的常用软件)、李永乐(考研数学辅导专家)、同济(同济大学出版的高等数学教材是高校的主流教材)。由于术语聚类体现了一定的语义,因此,拟将其与分类号相结合,帮助图书馆人员更准确地对书本进行编码,提高图书推荐的准确度。

3.3 基于多层编码表述的预测

图2和图3显示随着上下文窗口大小的变化,基于中图法的多层表述、基于中图法+主题聚类的多层编码表述在借阅预测上的实验效果。区别在于前者用HR@5评价准确率,而后者用HR@10。横轴为用HR表示的预测准确度,纵轴是预测的类型。实验数据集中,由于缺乏高性能的推荐系统,用户无法迅速找到要借阅的书,其实际需求可能在多次借阅以后才发现。因此,在评价预测准确性时,要取未来多次借阅的结果作为评判依据。图中所述对下两次的预测,评判结果包括了紧接的第一次和第二次借阅的书籍。每个类别都有三个实验,分别对应上下文窗口大小为1、2、3时HR@5和HR@10的值。图中反映了多种现象。

图2 基于多层分类号表述的预测结果(HR@5)

图3 基于多层分类号表述的预测结果(HR@10)

现象1:相同条件下,基于中图法和主题聚类的预测结果较仅基于中图法的预测结果要高得多,基本都能提升10个百分点,最高能达到20个百分点。一方面说明增加了词汇信息对提升准确率有较大帮助;另一方面也说明,加入多层表示后,能展示图书的交叉学科属性,提高其描述准确度。

现象2:对未来两次借阅的预测精度较未来一次有大幅提升,提升幅度接近20%。该现象说明多主题表示图书的适应性。因为比较对未来两次借阅的预测和对未来一次借阅的预测,其预测内容是一样的。从HR@k指标值的计算公式来看,{推荐的前k个图书类别}是相同的。之所以预测精度提高,是由于对未来两次借阅的预测将用户未来两次借阅图书的类别作为{用户欲借阅的图书类别},因而所预测图书类别的命中率也随之提升。这说明图书推荐系统没有将学生所需的图书一次性推荐给学生,导致学生需要多次借阅才能满足其需求。因此,加入多层学习表示有助于精确地捕获学生借阅兴趣,提高推荐准确度。

现象3:上下文窗口大小的变化与预测准确度并无直接关联。从图2和图3看出,很多情况下,窗口大小为2时,预测准确率反而比1的时候差。这种现象在纯基于中图法学习编码表述的时候最为明显。根据常理,上下文窗口越大,考虑因素越多,预测精确度会越高。此种情况更能说明采用多层主题表示的方法更能全面描述读者的图书借阅需求,有助于提升个性化图书推荐的准确率。

现象4:采用基于中图法和主题聚类的多层表示学习,预测精度最高能超过70%。这说明该方法具有一定的有效性。但是,需要注意的是,图2中HR@5体现出的推荐准确度较图3的HR@10要低得多,这说明只推荐5个的效果还比较差,需引入更多的信息,使得多层主题表示的结果能更好反映用户的需求。

3.4 多层编码表述的解释

通过bib2vec多层编码表述,每次借阅都被转化为由分类号和术语聚类表示的向量。每个分量对应一个分类号或主题聚类,分量的值为该次借阅与分类号和术语聚类的关联,从而根据上次借阅的信息推导出下次可能借阅哪些类别的图书。根据得到的借阅向量,进行处理后可以发现:引入聚类信息后,得出借阅过程中紧密相关的分类号和主题聚类,发现被关联到一起的分类号在中图法分类体系上不再仅仅是祖先-后代关系,还出现了横向关联。具体的例子如表3所示,因篇幅所限,仅选出若干最具有代表性的分类号集合。这说明随着学科交叉的深入和发展,传统的树型分类体系越来越不适用,引入多层表述对图书编目和图书推荐将越来越重要。

表3 多层编码表述学习得到的相关分类号组

如表3的第一层所示,该组分类号与表2的术语聚类3紧密相关,体现了计算机安全方向的借阅需求;第二层体现了软件金融方向学生的借阅需求(厦门理工学院为更好地培养金融软件系统的开发人才,特别在软件工程专业下设立该方向,要求学生既要掌握软件开发能力,又要了解金融、会计相关知识);第三层则体现了空间信息工程专业学生的借阅需求,该专业属于计算机类,学生还需要学习测绘、遥感等知识,以便解决无人机航拍数据的结构化、可视化和分析等问题。由此可见,基于多层编码表述学得的分类号群与学生的学习需求紧密相关,因此不仅能提升图书的推荐精确度,还能有效识别学生的新需求。

4 研究局限及展望

本文将多层表示学习方法引入高校图书馆的图书推荐中,它采用一个可扩展的两层神经网络框架,学习图书类别的低维表示。该方法使用在同一次借阅中图书分类号和标题词的共现信息,以及同一个读者的顺序借阅信息,以提高编码和借阅表述的准确性。通过多个实验,笔者发现该方法能有效提升厦门理工学院图书馆的推荐准确性,较传统方法提高20个百分点。鉴于高校学生的借阅行为受所学课程、所参加竞赛、所指导教师的影响较大,本研究仅考虑了班级、专业、院系之间的影响。在今后的研究与实践中,笔者将在多层学习中引入学生与学生之间、学生与教师之间在课程、竞赛之间的社交网络信息,以进一步提升图书推荐准确性。

猜你喜欢

中图法分类号类别
一起去图书馆吧
A Study of Chinese College Athletes’ English Learning
多类别复合资源的空间匹配
《中国图书馆分类法》
《中国图书馆分类法》
选相纸 打照片