APP下载

基于行为日志的电商推荐算法研究

2019-03-19谢金峰

数码设计 2019年3期
关键词:感兴趣日志样本

谢金峰



基于行为日志的电商推荐算法研究

谢金峰

(哈尔滨工程大学 计算机科学与技术学院,黑龙江哈尔滨,150000)

电商用户行为日志包含丰富的用户兴趣信息,通过数据挖掘预测用户感兴趣的商品,从而实现个性化商品推荐,具有重要意义。本文提出的方法首先充分提取用户行为特征,然后使用逻辑回归二分类判断用户是否对商品感兴趣,最后根据判断结果实现个性化商品推荐。实验表明本文算法在真实数据集上具有较强的可用性。

行为日志;用户兴趣;逻辑回归;模型优化

引言

随着网络技术的不断发展,电子商务逐渐成为日常生活中不可或缺的一部分。电商个性化推荐算法极大地提高了用户的购物效率,同时也给商家产生了更多的利润。数据显示,电商网站亚马逊有35%成交量由个性化推荐产生[1]。

电商平台保存用户在购物时的历史数据。用户兴趣的获取方式分为显式和隐式两种[2],显式获取如给商品打分、填写评论等;隐式获取如记录用户的操作日志(点击、收藏、加购物车、购买等)。显式获取方式需要用户配合参与,不太容易获取用户客观兴趣信息。隐式获取方式默默地记录用户的购物行为,通常能反映出用户的真实购物倾向,获取兴趣信息更具有真实客观性。

推荐算法可以分为三类。协同过滤推荐算法[3-5]、基于内容的推荐算法[6-9]和基于模型的推荐算法[10],这些算法对于显式用户兴趣获取具有较强的适用性,但是对于行为日志这种隐式兴趣,效果差强人意。

用户在电商网站的操作日志能够反映出用户的购买倾向,同时也可以反映出商品的特征信息。通过提取用户商品交互信息能够有效地对用户未来的交互商品作出预测,从而根据预测结果作出更准确的商品推荐。

1 算法框架

用户在电商网站上购物的过程中,会留下丰富的交互数据,例如点击商品进入查看详情,收藏某一商品以便以后再决定是否购买,加入购物车集中结算和购买商品等,这些行为数据代表着用户对商品不同大小的兴趣度,本文根据经验提取行为特征,预测用户对商品是否感兴趣,从而实现个性化推荐。

1.1 特征处理

本文依据经验从用户、商品、交互三个方面提取行为特征,特征描述如下表。

表1 特征描述

1.2 推荐模型

图1 行为日志电商推荐模型结构图

本文的推荐方法基于预测用户对商品是否感兴趣,如果用户对某商品感兴趣,那么就给该用户推荐该商品。因此首先使用二分类模型预测用户是否对商品感兴趣,这里采用LR模型。

模型采用sigmoid函数将线性回归的输出映射到(0,1)区间,对于二分类问题,这个(0,1)输出值可以理解为样本被分为正类的概率,采用梯度下降算法更新参数θ∈Rn+1,获取最终模型。

对于用户和商品组成的二元对,首先依据1.1节提取特征形成样本,将发生购买行为的设置成正样本(,1),没有发生购买行为的设置成负样本(,0)。对负样本下采样,解决正负样本不平衡问题。训练模型直到模型参数最优。

个性化商品推荐过程就是将所有提取特征向量,输入模型,如果模型判断u对i感兴趣则将i加入u的推荐集。

1.3 评价指标

表2 混淆矩阵

模型效果由预测值与真实值之间的差异计算,混淆矩阵如表所示。TP表示正样本被预测为真的数量,TN表示正样本被预测为假的数量,FP表示负样本被预测为真的数量,FP表示负样本被预测为假的数量。

精确率precision表示预测为真的样本中有多少是真正的正样例,召回率recall表示预测正确的样例中有多少是真正的正样例。精确率和召回率相互制约,电商推荐模型要求同时保证两者,F1-score在精确率和召回率之间试图找到平衡,在尽可能提高精确率的基础上保证较高的召回率。

2 实验分析

本文实验数据集来自阿里巴巴天池平台,数据集提供20000用户的完整行为数据以及百万级商品信息。数据记录了用户一个月中的在电商平台上购物的行为记录,用户行为包括浏览、收藏、加购物车、购买。

图2 推荐效果对比图

由图2可以看出,模型的推荐效果随给每个用户推荐数量变化明显,根据公式9和10,推荐数量越多则召回率越大,但是精确率会随之减小,综合考虑精确率和召回率,本文提出的行为序列推荐算法在个人推荐数量为3时效果最佳。通过与传统推荐算法比较,本文提出的算法综合考虑了用户行为日志中包含的丰富用户兴趣信息,并根据用户交互商品序列提取序列特征,通过预测用户是否会对商品发生购买行为,使用基于商品的近邻推荐。实验数据显示,本文的算法在推荐效果上优于基于内容和协同过滤的推荐算法。

3 结束语

本文通过从用户在电商网站上留下的行为日志从行为特征方面提取特征,基于预测用户商品购买预测产生推荐集合,算法对用户行为数据中包含的用户兴趣信息进行挖掘,实验验证本文推荐算法与传统方法相比,达到了推荐效果提升的目的。本文今后的工作是进一步优化模型结构,增加数据量,使模型更具有鲁棒性。

[1] Grbovic, Mihajlo, Radosavljevic, Vladan, Djuric, Nemanja, et al. E-commerce in Your Inbox: Product Recommendatio ns at Scale[J]. 2016:1809-1818.

[2] Xu Z, Ru L, Xiang L, et al. Discovering User Interest on Twitter with a Modified Author-Topic Model[C]// Ieee/wic/acm International Conferences on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2011:422-429.

[3] Elahi M, Ricci F, Rubens N. A survey of active learning in collaborative filtering recommender systems[J]. Computer Science Review, 2016, 20(C):29-50.

[4] Antonio Hernando, Fernando Ortega. A non negative matrix factorization for collaborative filtering recommender systems based on a Bayesian probabilistic model[J]. Knowledge-Based Systems, 2016, 97(C):188-202.

[5] He R, Mcauley J. Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering[J]. 2016:507-517.

[6] Basu C, Hirsh H, Cohen W. Recommendation as classificati on: using social and content-based information in recomme ndation[C]// Fifteenth National/tenth Conference on Artificial Intelligence/innovative Applications of Artificial Intelligence. American Association for Artificial Intelligen ce, 1998:714-720.

[7] Shu J, Shen X, Liu H, et al. A content-based recommenda tion algorithm for learning resources[J]. Multimedia Systems, 2017(1):1-11.

[8] Xing Z, Parandehgheibi M, Xiao F, et al. Content-based recommendation for podcast audio-items using natural language processing techniques[C]// IEEE International Conference on Big Data. IEEE, 2017:2378-2383.

[9] Almalis N D, Tsihrintzis G A, Karagiannis N, et al. FoDRA — A new content-based job recommendation algorithm for job seeking and recruiting[C]// International Conference on Information, Intelligence, Systems and Applications. IEEE, 2016:1-7.

[10] 冀俊忠, 沙志强, 刘椿年. 一种基于贝叶斯网客户购物模型的商品推荐方法[J]. 计算机应用研究, 2005, 22(04):69-72+75

Research on E-commerce Recommendation Algorithm Based on Behavior Log

Xie Jinfeng

(Institute of Computer Science and Technology,Harbin Engineering University,Heilongjiang Harbin 150000,China)

E-commerce user behavior log contains abundant user interest information. It is of great significance to predict the products that users are interested in through data mining so as to realize personalized product recommendation. The method proposed in this paper firstly extracts the user's behavior characteristics adequately, then uses logistic regression dichotomy to judge whether the user is interested in the commodity, and finally realizes personalized commodity recommendation based on the judgment results. Experiments show that the proposed algorithm has good usability on real data sets.

behavior log; user interest; Logistic Regression,model optimization

10.19551/j.cnki.issn1672-9129.2019.03.024

TP391.4

A

1672-9129(2019)03-0069-03

谢金峰(1993-)男,河南信阳,汉族,研究生在读,研究方向:机器学习,哈尔滨工程大学计算机科学与技术学院2016级硕士。E-mail:2209282216@qq.com

猜你喜欢

感兴趣日志样本
一名老党员的工作日志
对自己感兴趣
用样本估计总体复习点拨
扶贫日志
雅皮的心情日志
规划·样本
雅皮的心情日志
随机微分方程的样本Lyapunov二次型估计
“官员写作”的四个样本
编读往来