基于购物网站的数据挖掘

2016-07-18廖庆军

科教导刊·电子版 2016年18期

关键词：数据分析数据挖掘电子商务

廖庆军

摘要基于网上购物系统，运用数据挖掘技术通过对数据库中的相关数据的“相似性”的比对，来找出具有相似爱好的同类人群，从而可以为这些具有相同爱好的人群提供某些便利，本文从购物网站数据挖掘的意义、步骤和算法三个方面研究数据挖掘在购物网站中的应用。

关键词数据挖掘电子商务数据分析 k-means 算法

中图分类号：G358.1 文献标识码：A

随着信息技术的迅猛发展，参与到购物网站的人越来越多，人们乐于在网络中去分享自己的相关信息，拓展自己的人脉。企业甚至能通过社交平台去直接影响客户，一切都似乎因为购物网站的出现而变的美好。

基于网上购物系统，运用数据挖掘技术通过对数据库中的相关数据的“相似性”的比对，来找出具有相似爱好的同类人群，从而可以为这些具有相同爱好的人群提供某些便利：

（1）为具有相同爱好的人提供好友推荐，以供他们互相交流；

（2）通过对某位客户往期所购入的商品，通过数据挖掘，通过这些商品的类别，价格，以及风格上等的特征提取，为客户在下次浏览商品时提供产品推荐服务，以便顾客迅速找到心仪的产品；

（3）通过客户购买商品类别、风格等上的特征提取，以及评论的特征的提取，从而为店家提供一个营销方向。

购物网站已经成为了数据挖掘技术最恰当的应用领域。

1什么是数据挖掘

数据挖掘（Data Mining），又称为数据库中的知识发现（Knowledge Discovery in Database， KDD），就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。或者说是从数据库中发现有用的知识（KDD），并进行数据分析、数据融合（Data Fusion）以及决策支持的过程。

数据挖掘（Data Mining）是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

2购物网站数据挖掘的意义

通过购物网站数据挖掘并加以分析，企业能获得什么？

2.1潜在商机的发现

通过数据挖掘与分析，可以发现某个用户的活动商圈是否在企业的商圈覆盖范围内；可以知道某个用户的消费能力；可以知道某个用户的喜好及最近的购买习惯；可以知道某个用户会购买自己产品的概率；可以知道竞争对手的策略。

寄生在Facebook这样的社交网站上的社交游戏公司Zynga，它聪明的利用了用户数据，从中挖掘出大量商机。据《彭博商业周刊》披露，这个社交游戏巨头大约每天要收集600亿个数据点，包括人们一般玩多久游戏，什么时候玩，喜欢购买什么游戏物品等等。该公司的数学极客们用这些数据来分析哪些人喜欢逛自己朋友的农场和城市（Zynga开发的游戏），人们都喜欢买哪些虚拟物品以及他们给自己的朋友赠送虚拟物品的频率等。然后他们就会得出这样一个重大的发现：经常收到朋友虚拟礼物的人会更喜欢玩游戏，收不到或不那么经常收到的则不太喜欢玩游戏。Zynga的数据分析部门副总裁Ken Rudin表示：根据这个发现，一群数学极客们又想出了解决办法——那些不那么经常收到礼物的玩家我们会让他们更加容易的找到建城（Zynga游戏）的工具，这样他们就不会过于依靠他人的礼物了。Zynga的意图很明显：分析用户行为，揣摩用户心理，然后适时为每个独特行为习惯的用户提供更有针对性的服务。

2.2危机预警

通过数据挖掘与分析，可以对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来。并追踪其传播路径，找到其中的关键节点。利用“乱石”打散其传播轨迹。从而让危机尽快消失。一个企业面对社交媒体中网民创造的成千上万，甚至几百万的讨论内容，想要通过人工去判断哪些口碑对品牌有利，哪些将会成为品牌危机是个不可能完成的任务。而舆情监测则可以围绕某一监测领域或事件，经过科学部署的不间断的数据收集与分析的过程，前期需要对收集范围和关键词群进行设置，中期对采集的数据进行过滤、分组、聚类等预处理，后期对数据进行分析，并以分析报告的形式让品牌了解到自身的口碑状况。我们发现百度指数显示2011年以前没有任何关于“舆情监测”的搜索记录，然而随着社交媒体的发展，品牌逐渐意识危机公关的重要性，也更加深入地认识到数据挖掘，数据分析在危机预警中不可忽视的作用。

2.3效果预测

通过数据挖掘与分析，可以通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上去事先预测相关的效果。从而让企业能花最少的钱得到最大的产出。在2010年，惠普实验室的研究人员Sitaram Asur和Bernardo Huberman发现，通过Twitter可以了解人们兴趣的变化，从而准确预测电影票房收入。他们统计了一部电影名字在Twitter上出现的次数，收集了3个月内与电影相关的约300万个tweet，发现电影名字出现的频率与电影的票房收入存在很强的相关性。Bernardo Huberman说：“我们的预测非常准确。”以僵尸片《杀出狂人镇》为例。研究小组预测这部影片在美国上映的首周票房为1680万美元，实际数字为1606万美元。我们分析推文并衡量推文产生的速度。并且认为，关于某部电影的推文产生速度越快，大家越有可能去观看这部电影。

3购物网站数据挖掘的步骤

基于网购，对所牵涉的网购数据库中的毫无关联的数据，进行相关特征上的比对，从而找出“相似性”。

具体步骤如下：

（1）理解数据和数据的来源（understanding）；

（2）获取相关知识与技术（acquisition）；

（3）整合与检查数据（integration and checking）；

（4）去除错误或不一致的数据（data cleaning）；

（5）建立模型和假设（model and hypothesis development）；（6）实际数据挖掘工作（data mining）；

（7）测试和验证挖掘结果（testing and verification）；

（8）解释和应用（interpretation and use）。

4购物网站数据挖掘的的算法

通常我们所说的数据挖掘的技术基础就是人工智能。它使用了人工智能中一些已经成熟的算法和技术，如：人工神经网络，遗传算法，决策树，规则推理，模糊逻辑等，就问题的复杂性和难度而言比人工智能要低。进行网络数据挖掘，主要是对客户的访问信息与详细身份信息进行挖掘，得到客户的浏览行为模式，找到有价值的市场信息，从而有针对性的调整网页设计，提供个性化的服务。数据挖掘系统利用的技术越多，精确度就越高。数据挖掘的功能算法主要包括以下几种：构造关联规则；发现分类规则；数据聚类分析；数据抽象总结。下面我们重点研究K-means算法。

1967年，MacQueen在伯克利第五届数理统计年会上提出k-means算法。它是一种基于样本间相似性度量的聚类方法，是一种非监督学习的方法。此算法以k为参数，把n个对象分为k个聚类，以使聚类内具有较高的相似度，而且聚类间的相似度较低。它是一种较典型的逐点修改迭代的动态聚类算法，其要点是以误差平方和为准则函数。

k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

基本步骤如下：

（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤。

当有新的用户访问时，计算其和虚拟用户的相近程度，如果和第一个虚拟用户比较临近，则将第一个虚拟用户所感兴趣的商品集推荐给这个新用户。虽然实现了个性化推荐，但是在k-menas算法中，k个中心的选取一般为随机选取或依赖于领域知识，为了更好地选取k个中心以提高聚类的质量，需要以后对k-menas算法进行更好的改进。

参考文献

[1] Jiawei Han，Micheline Kamber.数据挖掘概念与技术[M].范明，孟小东等译.北京：机械工业出版社，2004.

[2] 李明刚，刘文芳，等.电子商务原理与应用开发务实[J].清华大学出版社，2002.

[3] 刘军，季常煦，等.电子商务系统的规划与设计[J].人民邮电出版社，2001.

[4] 张洪瀚，姜娇娇，等.基于数据挖掘的电子商务商品推荐[J].中国信息解社，2007（9）.

[5] 叶彩虹.Web挖掘在网上购物中的应用研究[D].安庆师范学院学报，2004（11）.