APP下载

基于时间信息表示学习的个性化推荐方法

2023-02-05任秋臻陈红梅周丽华

计算机技术与发展 2023年1期
关键词:集上节点用户

任秋臻,陈红梅,周丽华

(云南大学 信息学院,云南 昆明 650500)

0 引 言

个性化推荐作为缓解信息过载的有效手段,被广泛运用于各大智能平台,如电商、图书推荐、影视剧网站、个性化图像检索等[1-5]。其中,用户偏好除了显性特征(评分),还存在隐性特征(时间特性、评论情绪),而隐性特征往往能更好地体现用户偏好。关注用户外在行为数据(评分等)和内在行为特征(评论情绪等)可以有效提升个性化推荐效果,增加推荐项目的精确率、召回率等[6-7]。

传统推荐算法缺乏对辅助信息的利用[8-9],为了提升推荐效果,充分利用多种上下文信息使数据价值最大化是当前推荐系统亟待解决的问题之一[10]。李宇琦等[11]研究表明,用户偏好与时间相关,可以通过用户的历史购买信息和商品的低维空间向量表示获得用户在某一时间点的偏好。时间信息对于打算购买商品的用户来说,具有很强的即时意义。如果不考虑时间因素,可能会出现在冬天推荐体恤,在夏天推荐棉袄,从而降低了推荐效果。此外,用户对于商品的兴趣也会呈现明显的季节特性,例如用户A和用户B在去年夏季购买了多种类似的商品,且发表了相似的评论,在今年夏季用户A想要购买一套游泳装备,而该类商品用户B曾经在夏季购买并给过好评,根据系统推荐的商品列表,用户A查看该时间段的购买评分、评论,可能会选择用户B购买过的这套商品。因此,时间信息在个性化推荐中是一个重要的影响因素。

此外,现有基于网络表示学习的个性化推荐方法中,有的方法将现实生活中的事物及其关系抽象成为同质网络(如用户-用户网或商品-商品网)[11],忽视了事物及其关系的异质性;而有的方法虽然将事物及其关系建模成为异质网络(如用户-商品网)[12-13],但没有较好地利用时间信息及隐性特征。因此,该文研究基于时间信息表示学习的个性化推荐,主要工作包括:

(1)分析用户评论数据,提取评论情绪特征,并根据时间信息提取评论时间特征,基于这两种隐性偏好特征,提出综合情绪-贡献值及其计算方法。

(2)基于综合情绪-贡献值,将用户的评论、评分数据抽象为用户-商品-评论异质网络,采用网络表示学习方法获取用户节点的嵌入向量,结合基于用户的协同过滤方法进行TOP-N推荐。

在两个真实数据集Amazon Electronics Review Data和Amazon Fine Food Reviews上进行实验,评估所提出的推荐方法。实验结果表明,与基准方法相比,所提方法提升了推荐结果的精确率、召回率。

1 相关工作

现有的利用辅助信息(如评分、文本、时间等)提高推荐结果的方法可以分为两类。

第一类,结合网络表示学习方法[14-17]进行推荐。李宇琦等基于商品-商品网络,提出了PGE模型,并与用户的动态偏好相结合,进行个性化商品推荐[11]。詹娜娜等将电商评分等关系型数据构建成异构网络,设计了个性化异构网络采样方法并学习节点向量,将其融入到神经网络中进行优化[12]。李可等引入深层语义特征挖掘模型,挖掘评论的深层语义特征和用户情感偏好,并结合SVD模型来提升推荐效果[18]。傅魁等引入LSTM网络对深度Q网络进行改进,融入正负反馈数据集和商品购买的时序性,提出了基于改进的深度Q网络结构的商品推荐模型[19]。张金柱等构建融合了多种图书特征信息的图书异构网络,并基于网络表示学习方法从语义相关角度设计了图书推荐方法,提升了推荐结果[2]。

第二类,协同过滤方法结合网络表示学习方法[10,20-23]。王旭等提出MetaStruct-CF算法,通过元结构利用异构网络中的丰富信息来提高推荐性能[24]。梁仕威等基于矩阵分解的协同过滤算法,结合表示学习方法学习带有语义信息的用户和文档的表示向量,以解决新闻推荐的冷启动问题[25]。陈嘉颖等基于文本信息结合知识图谱进行语义特征分析,将特征向量整合到协同过滤推荐中进行学习,根据学习结果进行推荐[26]。

网络结构能直观展现人、物关系,并且能够融入上下文信息等多种特征信息。受结合网络嵌入和协同过滤的推荐方法[20]、基于用户的协同过滤技术[27]的启发,提出基于时间信息表示学习的个性化推荐方法,即基于用户与项目之间的显性偏好(评分关系)及隐性偏好(评论时间特征、情绪特征),进行异质网络构建和推荐,有效提升推荐结果的精确率、召回率。

2 基于时间信息表示学习的个性化推荐

该文所提基于时间信息表示学习的个性化推荐模型如图1所示。具体地,首先,进行评论信息特征抽取,采用TextBlob工具提取评论情绪特征;考虑到商品的售卖具有季节性特征,因此按时间信息将用户评论进行年-季度的划分提取评论时间特征,基于两个特征计算评论综合情绪-贡献值。其次,根据用户评论、用户评分和评论综合情绪-贡献值构建用户-商品-评论网络。 然后, 采用Node2vec方法学习网络的节点

图1 基于时间信息表示学习的个性化推荐模型

嵌入向量。最后,根据用户节点嵌入向量,计算用户相似度,并采用基于用户的协同过滤进行Top-N推荐。

2.1 评论信息特征抽取

预处理用户评论数据,获取用户、商品、评分、评论信息,并针对其中的评论信息,首先,采用TextBlob工具计算评论情感极性值;然后,考虑评论时间信息,提出评论季度贡献值及计算方法;最后,线性融合评论情感极性值和评论季度贡献值,获得评论综合情绪-贡献值。

(1)评论情感极性值。

(2)评论季度贡献值。

如前所述,时间信息是影响商品评价的一个重要因素。商品存在季节性售卖的特性,而季节性商品对应的消费者在采购并给予评价时也具有季节性特性,这更符合人们在现实生活中的生活习性,例如在冬季购买取暖器取暖、在夏季购买风扇避暑等。因此,该文提出评论季度贡献值,用以度量用户在某年某季度的评论在该时间段对商品的贡献程度。评论季度贡献值定义如下:

(1)

(3)评论综合情绪-贡献值。

情感极性值代表用户对商品的感受,传达了用户是否愿意购买商品的情绪值。评论季度贡献值代表用户评论对某年某季度销售商品的影响,反映了用户对该时间段商品销售的贡献程度。因此,该文线性融合二者,提出评论综合情绪-贡献值,具体定义如下:

(2)

2.2 网络建模

根据获取的用户、商品、评分和评论信息,首先,将用户、商品、评论实体抽象为网络中的节点,即Vu、Vg、Vru,g;然后,将用户对商品的评分关系抽象为第一类边Eu,g,即如果用户u对商品g有评分(显性偏好特征),则用户u与商品g两个节点之间有一条边,同时将评分作为这条边的权重Wu,g;将用户对商品的评论关系抽象为第二类边Eg,ru,g,即如果用户u对商品g有评论r(隐性偏好特征),则商品g与评论r之间有一条边,同时将评论综合情绪-贡献值作为这条边的权重Wg,ru,g。最终构建的用户-商品-评论网络Graph=(V,E,W)是如图2所示的一个无向带权异质网,V={Vu}∪{Vg}∪{Vru,g},E={Eu,g}∪{Eg,ru,g},W={Wu,g}∪{Wg,ru,g}。

图2 用户-商品-评论网络示例

2.3 用户特征表示学习

基于用户-商品-评论网络,采用Node2Vec方法学习用户节点特征向量。Node2Vec方法采用有偏随机游走方式采样顶点的近邻,从当前节点e到下一节点x的概率如公式(3)所示[29]。

(3)

式中,πex为从当前节点e到下一节点x的未归一化转移概率,Z为归一化常数,Neighor(e)为当前节点e的邻居节点集。αpq(k,x)为由超参数p和q控制的有偏转移策略,超参数p控制访问刚刚访问过的顶点的概率,q控制在随机游走时向外还是向内游走,若q>1则倾向于向内游走即广度优先搜索,若q<1则倾向于向外游走即深度优先搜索。wex为节点e与节点x间的边权,dkx为刚刚访问过的节点k与节点x间的最短路径。

最后,采用基于用户的协同过滤方法向用户进行Top-N商品推荐,其中根据用户节点特征向量及余弦相似性度量,计算用户相似性。

3 实验结果与分析

3.1 实验设置

数据集:采用两个不同规模的亚马逊数据集:Amazon Electronics Review Data(AERD)和Amazon Fine Food Reviews(AFFR)。数据预处理过程如下:①提取所需数据列;②删除评论文本为空和为无意义标点符号的评论;③将用户的评论次数少于15次,多于300次的数据删除;④按8∶2比例划分训练集和测试集。最终的数据集描述如表1所示。

表1 数据集

对比方法:为评估所提方法TRLIUCF,选用了两个基准方法:基于用户的协同过滤推荐方法UCF[27]和结合网络嵌入和协同过滤的推荐方法NUCF[20]。NUCF与TRLIUCF的主要区别是:NUCF基于用户与项目之间的显性偏好(评分关系)进行同质网络建模和推荐,而TRLIUCF则是基于用户与项目之间的显性偏好(评分关系)及隐性偏好(评论的情绪特征和时间特征),进行异质网络构建和推荐。NUCF方法构建的用户-用户同质网的边权设置为共同评分的项目中评分相同的项目数量。而TRLIUCF方法构建的用户-商品-评论异质网的边权设置如2.2节中的介绍。

参数设置:UCF、NUCF、TRLIUCF方法在计算预测评分时有参数“相似用户数量K”,在计算TOP-N推荐列表时,有参数“推荐商品数量N”;NUCF和TRLIUCF方法在进行节点向量学习时,有参数“随机游走步长walk_length”和“随机游走超参数p、q”。默认情况下,K=100,N=5,walk_length=10,p=0.5,q=4。

评价指标:除了常用的公式(4)和(5)所示的精确率(Precision)和召回率(Recall)之外,为了更好地评估推荐模型,该文还采用了公式(6)所示的F1值。

(4)

(5)

其中,R(u)为用户u的推荐商品列表,T(u)为用户u购买的商品列表。

(6)

3.2 实验结果分析

参数对推荐效果有着重要影响,因此,分析相似用户数量K、随机游走步长walk_length、随机游走超参数p和q以及推荐商品数量N对推荐效果的影响。

3.2.1 相似用户数量K对方法效果的影响

本节评估相似用户数量K对基准方法UCF、NUCF和所提方法TRLIUCF推荐效果的影响,实验结果如图3所示。其中,除相似用户数量K以外,其他参数设为默认值,图3(a)、(b)、(c)为在AERD数据集上的实验结果;图3(d)、(e)、(f)为在AFFR数据集上的实验结果。

从图3(a)、(b)、(c)可以看出,在AERD数据集上,UCF方法的召回率和精确率都随着K的增加而增加;NUCF方法和TRLIUCF方法的召回率和精确率都随着K的增加而减少。从F1值来看,K值对UCF方法的影响较小,对NUCF和TRLIUCF方法的影响稍大,但TRLIUCF方法能够有效提升推荐的召回率和精确率,其中,TRLIUCF方法的召回率比UCF、NUCF方法分别提升了125%~220%、8.33%~20%。TRLIUCF方法的精确率比UCF、NUCF方法分别提升了115.79%~223.53%、10.81%~22.22%。

从图3(d)、(e)、(f)可以看出,在数据集AFFR上,UCF、NUCF和TRLIUCF方法的召回率和精确率都随着K的增加而缓慢减少。从F1值来看,UCF和NUCF方法受K值影响较小相对稳定,TRLIUCF方法受K值影响明显,但TRLIUCF方法能够有效提升推荐的召回率和精确率,其中,TRLIUCF方法的召回率比UCF、NUCF方法分别提升了344.59%~369.33%、13.84%~19.73%。 TRLIUCF方法的精确率比UCF、NUCF方法分别提升了345.45%~370.79%、13.95%~19.71%。

3.2.2 随机游走步长walk_length对方法效果的影响

本节评估随机游走步长walk_length对基准方法NUCF和所提方法TRLIUCF推荐效果的影响,实验结果如图4所示。其中,除随机游走步长walk_length以外,其他参数设为默认值,图4(a)、(b)、(c)为在AERD数据集上的实验结果;图4(d)、(e)、(f)为在AFFR数据集上的实验结果。

图3 相似用户数量K对推荐效果的影响

从图4(a)、(b)、(c)可以看出,在AERD数据集上,NUCF方法的召回率和精确率都随walk_length的增加而增加,而TRLIUCF方法的召回率和精确率都随walk_length的增加而减少。从F1值来看,walk_length的增加对NUCF方法影响较大,而TRLIUCF方法相对稳定。当walk_length=10时,TRLIUCF方法明显优于NUCF方法,但随着walk_length的增加,TRLIUCF方法的优势减弱,但依然优于UNCF方法。其中,TRLIUCF方法的召回率比NUCF方法提升了2.17%~20%;TRLIUCF方法的精确率比NUCF方法提升了1.89%~22.22%。

图4 随机游走步长walk_length对推荐效果的影响

从图4(d)、(e)、(f)可以看出,在AFFR数据集上,NUCF和TRLIUCF方法的召回率和精确率都随walk_length的增加而增加。从F1值来看,walk_length对NUCF和TRLIUCF方法的影响相对稳定。与NUCF方法相比,TRLIUCF方法有效提升推荐的召回率和精确率。其中,TRLIUCF方法的召回率比NUCF方法提升了19.73%~20%;TRLIUCF方法的精确率比NUCF方法提升了19.71%~20.23%。

3.2.3 随机游走超参数p、q对方法效果的影响

本节评估随机游走超参数p、q对基准方法NUCF和所提方法TRLIUCF推荐效果的影响,实验结果如图5所示。其中,除随机游走超参数p、q以外,其他参数设为默认值,图5(a)、(b)、(c)为在AERD数据集上的实验结果;图5(d)、(e)、(f)为在AFFR数据集上的实验结果。

图5 随机游走超参数对推荐效果的影响

从图5(a)、(b)、(c)可以看出,在AERD数据集上,p一定时,NUCF和TRLIUCF方法的召回率、精确率随着q的增加而增加;q一定时,NUCF和TRLIUCF方法的召回率、精确率随着p的增加而减小。从F1值来看,NUCF与TRLIUCF方法受每对p、q值的影响较明显,但TRLIUCF方法明显优于NUCF方法,能有效提升推荐的精确率和召回率。其中,TRLIUCF方法的召回率比NUCF方法提升了20%~38.71%。TRLIUCF方法的精确率比NUCF方法提升了22.22%~40%。

从图5(d)、(e)、(f)可以看出,在AFFR数据集上,超参数p、q的变化使得NUCF和TRLIUCF方法都呈现波动状态且变化缓慢。p一定时,NUCF方法的召回率随着q的增加先不变后增加然后趋于稳定,精确率随着q的增加先保持不变然后增加最后缓慢减少;TRLIUCF方法的召回率随着q的增加先增加后减小,精确率随着q的增加先增加后保持稳定。q一定时,NUCF方法的召回率随着p的增加先增加后减小,精确率随着p的增加先保持不变然后增加;TRLIUCF方法的召回率、精确率都随着p的增加先减小然后趋于稳定。从F1指标来看,超参数p、q变化对NUCF和TRLIUCF方法的影响相对稳定。TRLIUCF方法依然明显优于NUCF方法,其中,TRLIUCF方法的召回率比NUCF方法提升了17.63%~19.73%。TRLIUCF方法的精确率比NUCF方法提升了17.90%~19.71%。

3.2.4 推荐商品数量N对方法效果的影响

本节评估推荐商品数量N对基准方法UCF、NUCF和所提方法TRLIUCF推荐效果的影响,实验结果如图6所示。其中,除推荐商品数量N以外,其他参数设为默认值,图6(a)、(b)、(c)为在AERD数据集上的实验结果;图6(d)、(e)、(f)为在AFFR数据集上的实验结果。

从图6可以看出,在AERD和AFFR数据集上,UCF、NUCF和TRLIUCF方法的推荐效果变化趋势一样,即召回率随着N的增加而增加,精确率随着N的增加而减小。从F1值来看,随着N的增加,三种方法的整体性能都呈下降趋势,但TRLIUCF方法的整体性能依旧优于UCF和NUCF方法。其中,在AERD数据集上,TRLIUCF方法的召回率比UCF、NUCF方法分别提升了161.76%~220%、20%~34.85%;精确率分别提升了150%~223.53%、22.22%~31.58%。在AFFR数据集上,TRLIUCF方法的召回率比UCF、NUCF方法分别提升了369.33%~395.56%、19.73%~23.20%;精确率分别提升了370.79%~396.30%、19.71%~24.07%。

图6 推荐商品数量N对推荐效果的影响

从上述实验结果来看,将生活中的具体事物进行抽象,表达为一个网络结构,能更加清晰地表现事物之间的关联。传统的UCF方法因用户数量的限制,其推荐有一定的局限性,能利用的辅助信息也较少。而NUCF方法在传统的UCF方法上利用网络表示学习方法优化了相似度计算,并利用了部分辅助信息。进一步,所提方法TRLIUCF在前两者的基础上融入了时间信息,使用户时间偏好有所表达,加强了网络节点之间的随机转移,选择更好的邻居节点,提升了推荐效果,实现了提高召回率和精确率的目标。

4 结束语

针对现有基于网络表示学习的个性化推荐方法没有较好地考虑网络的异质性或时间信息的问题,提出了融入时间信息的网络表示学习个性化推荐方法。首先,根据评论文本和时间信息,提出评论综合情绪-贡献值及其计算方法。其次,基于评论综合情绪-贡献值和用户评论数据构建用户-商品-评论异质网络,并采用网络表示学习方法学习节点嵌入向量。最后,通过用户节点嵌入向量计算用户相似性,并采用基于用户的协同过滤进行TOP-N推荐,有效地提升了推荐召回率和精确率。在下一步的研究工作中,将探索诸如时间粒度、其他上下文信息等,进一步挖掘网络的异质结构和语义,进而提升推荐效果。

猜你喜欢

集上节点用户
CM节点控制在船舶上的应用
基于AutoCAD的门窗节点图快速构建
Cookie-Cutter集上的Gibbs测度
概念格的一种并行构造算法
链完备偏序集上广义向量均衡问题解映射的保序性
分形集上的Ostrowski型不等式和Ostrowski-Grüss型不等式
关注用户
关注用户
关注用户
抓住人才培养的关键节点