基于关联分类方法的web用户兴趣预测的研究

2011-02-19于春霞宋新旗

制造业自动化 2011年2期

关键词：类别网页关联

于春霞，宋新旗

YU Chun-xia，SONG Xin-qi

（黄河科技学院，郑州 450063）

1 数据准备

试验数据主要是其中的用户点击流文件。它包括217个属性，777,480个记录；测试数据集包括215个属性，164,364个记录。它的文件大小是1.148.6M，包含了很多原始记录，每个记录是一个网页浏览，同时也包括了用户的信息。

我们会从表中发现有许多重复的会话和用户信息，另外原始的文件太大，其中有许多属性与我们的问题关联不大，如email，country等属性，于是我们从中挑选了三十多个属性，如服务器日志本身记录的信息客户端IP，服务器名称，用户请求，日期，协议版本等，用户的一些信息性别，年龄，职业，住址等。在这些属性上面作投影，从而我们的训练数据得到很大的精简。在此基础上，通过前面描述的数据净化，用户识别，会话识别等过程处理后，形成一个预处理的会话文件，其中的重复的会话信息和用户信息可以合并。

在经过预处理的web日志中寻找事务的方法如下[1]：

1）根据每一个访问者的IP，划分日志，即在日志中找到每一个访问者的访问记录集。

2）对每一个访问者的访问记录集，根据C进行分割，找到每一个访问者的每一次访问记录集，这时，每一个访问者的每一次访问记录就构成了一个访问事务。

3）最终按时间排序的所有访问事务形成访问事务集T。

每一个用户访问事务相当于用户对站点的一条访问路径。用户的访问事务集就是全体用户在一个时间段内对站点的访问路径集T，T构成了我们进行挖掘的基础。

2 基于关联分类方法的web用户兴趣预测

下面我们考虑解决问题2的方法，我们的目的是要预测用户将要访问含有那些品牌的网页。我们的事务集T包括的属性有网页浏览的信息，如请求者的地址，请求的网页地址，请求时间等属性；另外，还包括用户的一些信息，如收入，职业，年龄等。我们要特别注意的是最后的一个属性（ViewedBrand：Hanes，AmericanEssentials，DonnaKaran，Other，Null）。这是因为在我们的点击流文件中，有很多用户访问了含有Hanes，AmericanEssentials，DonnaKaran品牌的网页，于是，我们把含有这些品牌的网页各作为一类；访问含有其他品牌的网页的比例非常小，所以我们把所有这些含有这些品牌的网页作为一类，用Other来表示；最后我们把不含有品牌的网页用Null来表示。下面运用上章讨论的关联关则分类方法将在己有的事务集上找出所有可能的CARS，然后用这些CARS构造一个分类器来预测用户的兴趣。方法是这样的，我们把ViewedBrands属性看成类别属性，剩下的属性当作条件属性去处理。在挖掘关联规则以前，我们先要确定最小的支持度和可信度。经过多次试验之后，我们发现最小的支持度为0.1%，可信度为70%时，试验的效果较好。我们分别用传统的分类规则挖掘算法和改进后的用于web挖掘的分类规则挖掘算法进行处理。

下面是两算法所用的时间对比图：

图1 传统的和用于web使用挖掘的类别关联规则挖掘算法效率对比图

从图1中，可以看出改进后算法效率有很大的提高，这是因为改进的算法首先采用FP-growth算法挖掘频繁项集，这要比Apriori算法的效率要提高一个数量集；另外，对频繁项集中不包含决策属性值的频繁项集不做任何操作，因为这些频繁项集无法产生所需的类别关联规则；其次对剩余的频繁项只以频繁项中的决策属性值作为规则的类别属性Y，其余条件属性值组合作为规则的前件（condset）来生成规则；所以算法效率有很大的提高。

分析我们的所得的规则，明显看出当用户访问了Fashionmall网页或Winniecooper网页时，他就很可能访问Hanes，DonnaKaran商标；而当用户访问了Mycoxpons网页或Tripod网页时，他就很可能访问AmericanEssential商标。为了更好的描述实验结果，设REL表示在测试数据集中的某一类别网页频道集合，RET表示在测试数据集中我们预测的某一类别网页频道集合。我们先作如下定义：

Recall=RET∩REL/REL，表示在测试数据集中，我们预测的某一网页频道类别集合实际上与某一类别频道集合的百分比。

Precision=RET∩REL/RET，表示在测试数据集中，某一类别频道与我们预测的某一类别频道的百分比。实验结果如表1所示：

表1 传统关联分类方法的预测性能

事实上，Recall衡量了我们能预测多少用户对某个网页频道感兴趣，Precision衡量了预测的准确性。在上面的实验数据中，我们可以看出，传统的关联分类方法和在改进后用于web使用挖掘的关联分类方法在预测的准确性方面差别不大，但在效率方面，两者差距较大。它们的Recall的值是相当不错的，基本上达到了50。预测也是很准确的，Precision的值也基本上达到了90%。

表2 改进后用于web使用挖掘的关联分类方法的预测性能

下面我们运用ID3算法对web用户兴趣预测，首先，我们来训练判定树，然后，来用它来预测用户的访问兴趣。

试验结果如表3所示：

表3 ID3算法的预测性能

在此，我们把这三种方法的试验效果用点线图表示出来，我们可以看到，传统的关联分类方法与用于web使用挖掘的关联分类方法在效果上没有大的差别，但它们的效果明显的都要比ID3方法的试验效果好。

图2 三种方法的试验效果对比图

所以，改进的用于web使用挖掘的关联规则分类算法对web用户的兴趣预测是有效的，一方面，它比传统的关联规则分类算法的效率有很大的提高，另一方面，一般而言，它比一些决策树方法的效果要好。

3 一种基于web挖掘的网站个性化推荐系统结构

站点的个性化服务会针对不同的用户提供不同的服务，尽最大努力的使用户方便，快捷的获得信息，同时，也可以对不同的用户提供不同的商务活动。它主要是根据用户以前的访问信息来提供服务，也就是说，当前用户已有一个访问序列，那么具有类似访问序列的其他用户（这些用户与该用户具有相同的访问兴趣）的下一次访问可以为该用户提供推荐[2]。当然，要更好的对用户提供个性化服务，还必须对站点本身的内容有更好的组织，所以，内容挖掘和结构挖掘对提供个性化服务来说也特别重要。本文提出一种站点的个性化推荐结构，它不仅用到使用挖掘，还要用到内容挖掘等，结构如下所示：

系统主要分为在线部分和离线部分：

离线部分：

使用挖掘：根据网站的结构信息，使用记录，用户本身记录进行使用挖掘，找出站点的使用模式。

内容挖掘：对站点的本身页面信息，结构信息和从搜索引擎搜到的页面进行内容挖掘，来更好的对网站的信息进行组织。同时，可以通过搜索引擎来弥补站点本身内容的有限性。

在线部分：

图3 一种基于web挖掘的网站个性化推荐系统结构

推荐引擎识别出每个用户的当前交互会话，得到每个用户的当前访问序列，进而根据使用模式信息得到用户的下一些可能访问的页面类别，这些页面的地址被附加到用户当前访问页面的底部，以进行推荐。个节点可以通信,通过竞争机制来获取信道。每个节点周期性睡眠和监听信道,如果信道空闲则主动抢占信道,如果信道繁忙则根据退避算法退避一段时间后重新监听信道状态。在程序设计中主要采集中断的方法完成信息的接收和发送。