APP下载

基于机器学习的B2B电子商务平台产品排名研究

2016-09-26王晗璐

网络安全与数据管理 2016年11期
关键词:特征提取分类器文档

王晗璐,夏 斌

(上海海事大学 信息工程学院,上海 201306)



基于机器学习的B2B电子商务平台产品排名研究

王晗璐,夏斌

(上海海事大学 信息工程学院,上海 201306)

随着互联网的发展,电子商务已经成为一种新的商业活动模式。商品在电子商务平台的排名,直接决定了产品的销量。如何优化产品的排名,是所有电子商务公司关注的问题。从商品的文本信息角度出发,利用机器学习方法来研究文本信息与产品排名之间的关系。从特征提取方法和分类算法两个角度进行了比较研究。首先比较了TFIDF和词频法(WF)两种特征提取方法,进一步又比较了朴素贝叶斯、支持向量机(SVM)以及随机森林(RF)三个分类算法。研究结果表明,在该文的数据集上进行文本分类排名分析,词频法结合随机森林取得了最好的分类效果。

产品排名; 词频法; 随机森林; 文本分类

引用格式:王晗璐,夏斌. 基于机器学习的B2B电子商务平台产品排名研究[J].微型机与应用,2016,35(11):45-47.

0 引言

电子商务的概念起源于1995年,阿里巴巴国际站(简称:阿里国际站)是一个主要的电商平台[1],它为小型商家的国际贸易提供良好的平台。商家们通过在平台上展示商品,从而获得商机[2-3]。为了获得更多的商机,改善产品在阿里平台上的排名十分重要。平台中产品展示的信息包括产品标题、属性、图片等,还有一些无法看到的信息,如产品关键词。当用户输入关键词后,阿里平台会根据相关产品的信息进行打分,然后生成一个产品列表,得分越高的产品排名越靠前,被用户浏览到的可能性越大,反之,产品分数越低,排名越靠后,产品销量越小。

如今,有很多人讨论如何做好阿里平台产品的信息优化,从而改善产品排名,但大多是更换产品关键词、更新标题、增加属性、多使用热搜词、展示更清晰精美的图片等。这些都需要大量的手动工作,而且效果也不尽人意,可行性较低。

根据阿里国际站的官方白皮书介绍,商品的标题及相关的商品属性描述,是影响商品排名的重要因素。在本文中,考虑利用商品的标题和属性特征进行分析,研究这类文本信息与商品排名之间的关系。假设产品标题及属性的组合,在排名靠前的商品中有一些共同的特性。为了分析这样的共性,结合自然语言处理技术和机器学习方法,拟利用文本分类的方法来研究,如果排名相近的产品在标题和属性的组合上存在一些共性,则它们应该会被分到同一类别中。

1 方法

1.1特征提取

本文中,使用的产品标题和属性属于文本数据,首先要对其进行特征提取,转化为数字样本。本文应用了两种自然语言处理中常用的特征提取方法[4]。

(1)TFIDF

假如一个词语在一篇文档中频繁出现,但在其他文档中极少出现,则可用这个词语去区分这篇文档。其中TF和IDF分别计算如下:

(1)

(2)

式(1)中,nij表示第i个词在文档dj中出现的次数,分母表示文档dj中包括词语的总数。式(2)中,|D|表示数据集中的文档总数,|{j:ti∈dj}|表示包含词ti的文档数。于是TF-IDF计算如下:

TFIDFi,j=TFi,j*IDFi

(3)

(2)WF

对文档中出现的词语进行计数。如果单词在文档中出现,计数加1,本文还应用了2-gram方法,即每两个相邻的词语,也记为一项。

1.2分类器

(1)朴素贝叶斯

在短文本分类问题中,x=(x1,x2,…,xn)表示一篇文档,每篇文档均表示为一个类似于x的向量,样本集合记作X。对应地,类别集合记作C={c1,c2,…,cm}。朴素贝叶斯分类器的原理是:假设每个特征之间是相互独立的,通过比较后验概率值的大小,把该样本判别为后验概率值最大的那一类。后验概率的计算公式为:

(4)

(2)支持向量机

SVM是基于间隔最大化的一种分类算法[5-6]。对于线性数据而言,它希望空间中的样本点尽可能地远离分类超平面。对于非线性输入,SVM可以应用核函数,将其映射到高维空间转换输入为线性的。SVM具有良好的泛化能力,在各种文本分类问题中表现良好。

(3)随机森林

随机森林是BreimanLeo和AdeleCutler于2001年提出的, 它是一种基于决策树的机器学习算法[7]。其训练模型的方法是训练多棵决策树,并综合每棵树的分类结果进行最终的决策。在该算法中,需要考虑的参数有两个,一个是决策树的数量,另一个是分裂节点输入的特征数,通常设置为总特征数的开方,文本也是使用这种方法。

随机森林的分类结果取决于每个决策树的分类结果[8]。本文应用对每棵树判别为每个类别的概率取平均值,将概率最大的那类判别为样本的类别。

2 实验

2.1实验数据

本文使用10个类别(包括:服装、运输、电子产品、工艺品、玩具、箱包、食品、鞋子、家具和照明)的100个词,在阿里国际站平台抓取产品信息。每个类别选取了10个词,每个词选择前三页和后三页的产品信息作为数据集。移除了首页前5个付费(P4P)产品。综上,共有100个关键词,每个有6页产品信息,每页有38个产品。因此,数据集中共有22 800个样本。其中前三页的产品被记为正类样本,后三页记为负类样本。整个数据集按照7 ∶3划分为训练样本集和测试样本集,并以5次实验得到的分类准确率的平均值作为最终的结果。

2.2实验结果

(1)特征提取方法比较结果

为了寻找适合表示产品信息的方法,本文采用了WF和TFIDF两种文本特征提取方法。应用这两种方法对文本信息进行特征提取后,应用RF分类算法进行分类模型的训练和验证。表1是测试准确率的对比结果。结果很显然,不论森林中决策树的数量为多少,WF在分类准确率方面始终优于TFIDF。但是使用相同的分类器模型时,TFIDF拥有较少的特征数,所以计算时间要比WF短。

表1 不同特征提取方法的测试准确率对比

表2 使用WF特征提取,三种分类器的测试准确率对比

表3 使用TFIDF特征提取,三种分类器的测试准确率对比

(2)分类器比较结果

为了找到适合本课题的分类算法,分别采用了朴素贝叶斯、SVM以及RF三种分类算法。应用WF和TFIDF进行特征提取,并输入到上述三种分类器中,测试准确率结果对比分别如表2和表3。结果很显然,在三种分类器的分类效果对比中,RF表现最好。

2.3实验分析

首先,采用RF作为分类器,分别应用WF和TFIDF,结果显示WF的分类效果始终优于TFIDF。这应该是由阿里国际站中产品的信息结构决定的,因为产品标题主要由产品核心词以及部分属性构成。因此同类产品中出现近似词汇的可能性极大,这样TFIDF算法中的IDF将无法发挥出有效区分文档的作用。而WF方法很好地表现了产品标题和属性包含哪些词。因此WF是更适合对产品标题进行特征提取的方法。

其次,可以看到RF表现最好,准确率达到了86.88%。因为SVM的缺点是不适合大数据集。朴素贝叶斯的缺点是,当特征维数较高时表现较差。

3 结论

本文利用机器学习方法研究了商品文本信息对排名的影响。研究结果表明,排名相近的商品在文本属性上也有相似性,在分类问题中表现为可以被分到同一类中。根据本文的比较分析,针对本文应用的数据集,WF与RF结合的方法在分类性能上表现最佳,也有最好的计算效率。

[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. E-Business and E-Government(ICEE), 2010: 224-227.

[2] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 81-86.

[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on e-Business engineering (ICEBE), 2006:545-548.

[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 2419-2423.

[5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.

[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):3923-3926.

[7] 李航.统计学习方法[M].北京:清华大学出版社,2012.

[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):1043-1047.

Research on the ranking of products of B2B e-commerce platform based on machine learning

Wang Hanlu,Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

With the development of the Internet, e-commerce has become a new business model. The ranking of products in the electronic commerce platform directly determines the products’ sales. How to optimize the ranking of products is the problem which is concerned by electronic business company. In this paper, from the perspective of the text information of products, we use machine learning methods to study the relationship between text information and product ranking. We make a comparative study from the point of feature extraction methods and classification algorithms. Firstly, we compared two feature extraction methods, which are TFIDF and word frequency(WF). Further more we compared three classification algorithms, which are Naive Bayes, Support Vector Machine(SVM) and Random Forest(RF). The research results show that the method of text classification and ranking analysis which is carried on the data set in this paper, WF combined with RF obtained the best classification results.

ranking of products; word frequency; random forest; text classification

TP391.9

A

10.19358/j.issn.1674- 7720.2016.11.015

2016-03-11)

王晗璐(1992-),女,硕士研究生,主要研究方向:机器学习与智能信息处理。

夏斌(1975-),通信作者,男,博士,副教授,硕士生导师,主要研究方向:脑-机接口,云计算及人工智能。E-mail:xawen267@gmail.com。

猜你喜欢

特征提取分类器文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
Bagging RCSP脑电特征提取算法
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于MED和循环域解调的多故障特征提取