Ｗｅｂ日志挖掘数据预处理的研究

2009-10-26姚建马世军乔文

新媒体研究 2009年13期

姚　建　马世军　乔　文

[摘要]Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、用户识别、会话识别、路径补充、格式化数据。

[关键词]数据挖掘Web日志挖掘数据预处理

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0710035-01

一、引言

目前,基于Web日志的数据挖掘研究大致分为3类:以分析系统性能为目标,以改进系统设计为目标,以理解用户意图为目标。Web日志挖掘主要分为3个步骤:

1.数据预处理。根据挖掘的目的,对原始Web日志文件中的数据进行提取,分解,合并,最后转换为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中,等待进一步处理。

2.模式识别。运用各种算法对处理后的数据进行挖掘,生成模式。

3.模式分析。进行用户访问模式的分析,从而将有价值的模式提取出来。数据预处理这个环节是整个过程的基础和实施有效挖掘算法的前提,在Web日志挖掘中起着非常重要的作用。他是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。

二、Web日志文件

Web日志文件是Web服务器上用以记录用户访问页面情况的文件。日志记录最主要的记录了什么人在什么时候浏览了哪些内容、网站的流量和访问者信息等。不同Web服务器产品的日志记录格式不同,但通常日志文件都包括访问者IP或者域名、浏览器类型、操作系统访问时间、访问方式(GET/POST)、访问页面协议、错误代码以及传输的字节数等信息。

表2.1访问日志、引用日志、代理日志的例子

访问日志一般包括:IP地址、请求时间、方法(如GET,POST)、被请求文件的URL、HTTP版本号、返回码、传输字节数。表2.1的访问日志表示从IP地址为202.117.1.2来的用户请求传输文件resource.html,使用的传输协议是HTTP1.1。用户也许并没有登录在IP地址为202.117.1.2的机器上,可能只是把这台机器当作代理服务器或网关。本次请求成功传输782字节,200为返回码。

引用日志记录了用户发出当前请求时所在页面的URL,表2.1的引用日志表示用户当前请求页面“resource.html”,用户发出这个请求是通过点击http://cjc.lytu.edu.cn/flink/left.htm页面上的某个超链接或者浏览器自动下载这个页面所包含的附属文件。

代理日志记录用户使用的操作系统以及浏览器类型引用日志。表2.1的代理日志表示客户端的操作系统为WindowsNT,浏览器为微软的IE5.01。

三、Web日志数据预处理过程

由于日志记录和HTTP协议的自身原因,日志数据是杂乱的,Web日志预处理是在Web日志挖掘前,对Web日志所记录的数据进行清理、过滤以及重新组合的过程。Web日志预处理的目的是剔除日志中对挖掘过程无用的属性及数据,并将Web日志数据转换为挖掘算法可识别的保存形式。

1.数据清理。数据预处理的首要任务就是数据清理。数据清理就是去掉Web日志中一些不能反映用户行为的记录,Web日志挖掘的目的是获得用户的行为模式,并不关心那些用户没有直接请求的文件。只有当服务器日志表示的数据能够准确的反映用户访问Web站点的情况时,经过挖掘得到的模式规则才是真正有用的。

2.用户识别。接下来,唯一的用户必须被标识出来,也就是说要识别出来具体的用户。这一任务因为本地缓存、公司防火墙和代理服务器的存在变得复杂。依赖用户的合作是最好的解决方法,但是由于涉及到隐私,这种解决办法往往难以进行。一般最常被Web日志挖掘工具使用的技术就是基于日志/站点的方法,并辅助一些启发式规则帮助识别用户。

3.会话识别。对于上一步标识出的用户所有的访问序列,它们可能超越了很长的时间段,因此可能用户在这个时间段内不止一次访问了该网站。会话识别的目的就是将用户的所有访问序列分成多个单独的用户一次访问序列。为了获得这个划分,一个最简单的方法就是定义一个时间段,如果用户请求的相邻的任意两个页面之间的访问时间间隔超过了这个时间段,则认为用户又开始了一个新的会话,许多商业数据挖掘软件将缺省超时值确定为30分钟,超时的界限可以根据站点的使用统计反馈的结果进行调节,直到可以更准确地识别会话。

4.路径补充。检查引用日志确定当前请求来自哪一页,如果在用户的历史记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。

5.事务识别。事务识别是对用户会话进行语义分组分割后事务的具体意义是:用户为获得一项有意义的信息所点击的页面序列。

6.格式化数据。一旦得到一组事务集后,我们需要处理结果表示城市和挖掘需要的形式。例如,时间属性对于关联规则挖掘是没有什么作用的,我们可以忽略元组中的时间属性,而把它格式化成适合于关联规则发现的形式。上面已经详细介绍了Web日志数据预处理的过程及采用的技术,在实际的应用中,可以根据挖掘任务的需要,对数据预处理过程进行简化或者细化。

四、结束语

数据的预处理工作是至关重要的一步。他既要保证信息无失真的转换,又要保证过滤删除掉某些对以后挖掘无影响的数据。针对一般的Web日志挖掘,提出了一种通用的Web日志挖掘的数据预处理模型,他可以针对不同类型的Web日志挖掘,实现数据的预处理工作。

参考文献:

[1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:电子工业出版社,2004:36-39.

[2]段晓峰、熊忠阳,网站日志的数据挖掘[D].重庆:重庆大学,2003.