基于高校图书馆Web日志挖掘的分析与研究*

2010-05-03程思祥雷

图书馆学刊 2010年5期

程思祥雷鸣

（1.长江大学图书馆；2.长江大学计算机科学学院，湖北荆州 434023）

1 引言

随着Internet技术的发展，网络资源飞速增长，如何有效利用这些丰富的资源成为人们普遍关注的问题。数据挖掘技术和Internet应用研究的结合构成了当今比较活跃的一个研究领域——Web数据挖掘。要从海量的Web数据中获取有价值的潜在模式和隐含信息必须依靠Web数据挖掘技术。

与Web数据异质、分布、动态、无统一结构的特点不同，Web服务器日志结构比较完善，用户访问Web站点后会留下完整的记录。Web日志挖掘通过挖掘Web日志记录来发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为[1]。

目前Web日志挖掘可分为两种方法[2]：①将Web服务器上的数据映射到关系数据库，选择合适的数据挖掘技术处理；②利用特殊的预处理技术直接处理日志数据，采用标准的数据挖掘技术来进行访问数据的挖掘。

2 W eb日志分析流程

2.1 数据选择

分析对象是长江大学图书馆的主页服务器日志数据，自2009年10月26日到2009年11月19日，日志文件共25个，大小为262M，共有1619085条记录。

Web服务器日志文件（Web Server Log File）记录了用户访问该站点时每个页面的请求信息。日志记录的格式主要分为两种[3]：通用型日志格式（Common Log Format，CLF）和扩展型日志格式（Extended Log Format，ELF）。笔者使用的数据属于W3C扩展日志格式，ELF日志文件包括两种记录类型：指令型记录（以“#”开头）和数据记录。

ELF确定的日志格式被定义为一个域的集合，而不是定义一种固定的格式。很多域前面需要加上前缀。下面列出W3C扩展日志格式的可用域前缀[4]：

c-：客户端；s-：服务器端；r-：远程服务器端；cs-：客户端到服务器端；sc-：服务器端到客户端；sr-：服务器端到远程服务器端；rs-：远程服务器端到服务器端；x-：应用。这些前缀与域指令行中的域标识符相结合，用于说明何种数据将写入日志。

表1 W eb日志记录的部分主要信息

下面是一个Web服务器日志文件ELF格式的例子：

#Software:Microsoft Internet Information Services 5.0

#Version:1.0

#Date:2009-10-26 00:00:49

#Fields:date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status cs（User-Agent）2009-10-26 00:00:49 10.10.90.29-10.203.1.13 80 GET/index.asp-200 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

2.2 数据预处理

数据预处理是数据挖掘前期很重要的工作，其结果的好坏直接影响了挖掘结果。数据预处理的工作量占整个数据挖掘过程的50%左右[5]。Web日志预处理的目的是针对上一阶段产生的数据进行初步整理，剔除日志中对挖掘过程无用的属性和数据，并将Web日志中的数据转换为挖掘算法可识别的形式。

数据清理可采用以下3种方式：①根据日志文件的时间，如只需要对上周日志文件进行挖掘；②根据所访问的文件类型，如只需要对.asp文件进行挖掘；③根据使用者请求和算法类型选取属性列，如只需要对访问路径进行挖掘。

数据缩减可采用以下两种方式：纵向缩减（行缩减）和横向缩减（列缩减）。对于不同的挖掘需求可采用不同的缩减方式，如纵向缩减可通过URI资源的扩展名、用户动作、状态码进行缩减。进行流量分析时，可采用横向缩减的方式，如保留用户访问时间、用户请求的URI资源等字段，这里必须保留URL为图形文件的记录。进行聚类分析时，可保留用户访问时间、用户IP、用户请求访问的URL、用户所使用的代理等字段。纵向缩减可减少记录条数，横向缩减仅减少属性列，对记录条数无影响，这两种缩减方式都不会降低日志清理的精度。进行数据缩减可减少算法扫描日志的时间，提高挖掘效率。

目前较为有效的用户识别方法有：①基于用户浏览器和操作系统的差异。②基于引用页进行判断[6]。这里我们认为不同IP地址代表不同用户；若IP地址相同，用户浏览器或操作系统不同，也认为是相同的用户；若用户请求的某页面没有请求过也认为这是一个新的用户。

进行会话识别最简单的方法是使用时间戳（timeout），常用的是30分钟，L.Catledge和J.Pitkow由实验得出timeout值设为25.5分钟更好[3]。如果用户访问页面时间差超过了timeout，则认为用户开始了一个新的会话。

2.3 数据转换

根据挖掘目标和数据特征，选择合适的挖掘算法模型。Web日志数据挖掘中常用的技术有：统计分析、路径分析、关联规则挖掘、序列模式挖掘、聚类分析、分类学习等。

2．4 数据挖掘

根据应用的要求，选择合适的数据挖掘算法及模型参数，建立数据挖掘模型，从数据中提取所需的知识，并以一定的形式展现出来。如决策树结构、关联规则集等。

2．5 结果分析

对挖掘结果进行解释与评估。将挖掘的知识以用户可以理解的方式（如图表）呈现给用户，并对所得的结构进行解释，包括对知识的一致性检查，模型的验证，识别知识的真正有趣模式。进行Web站点流量统计，需要对源数据进行分析，统计网站响应状态、请求成功的IP地址、具体页面的访问流量、访问成功的页面、访问出错的页面等，可画出访问时间——访问人数折线图，初步了解用户访问的时间分布情况，按照用户访问方式统计，了解用户大多会进行什么操作。

3 结果分析

根据原始数据可统计出以下部分结果：

3．1 根据网站响应状态

分布图如图2所示。

3．2 根据用户访问方式

分布图如图3所示。

3．3 请求成功的IP地址统计

请求成功的记录数为1403516条，请求成功的IP地址数有10475条。图4中仅列出访问量前10位的请求成功的IP地址。

以纵向缩减为例，原始数据大小为262M，共有1619085条记录。

对.gif、.jpg、.jpeg、.ico、.cgi、.css、.js这 7 种扩展名筛选后，记录条数缩减为211146条。按GET请求记录缩减后，记录条数为210043条。将状态码为4和5开头的记录删除后，记录条数为185291条。按下载文件筛选后有1727条记录。

图5中仅列出访问量前10位的页面。

4 结语

以长江大学图书馆主页服务器Web日志文件为例，分析了Web日志挖掘中的关键步骤——数据预处理技术，并针对数据清理、数据缩减、用户识别进行阐述。Web日志分析可进行时段分析，统计出一天中哪些时段、每周哪天、每月哪天甚至每年哪个时段的访问人数及具体停留时间，进而分析出访问人群的上网习惯等相关信息；可进行来源统计，统计出用户到达目标网页所经过的路径，帮助管理者修改、缩短访问路径，提高访问效率；可进行客户端分析，网站设计者可根据统计出的访问群浏览器和操作系统使用情况，有针对性地对某种浏览器或操作系统进行开发；可进行受访页分析，统计第一个被访问的网页和最后离开网站的网页，分析通常访问者从哪个页面进入网站，从哪个页面退出网站，设计者可通过这些数据改善网站结构。

Web日志挖掘是Web挖掘领域一个重要的研究方向。它对于发现用户浏览网站的行为规律，改善页面之间的超链接结构，提高整个Web系统性能等方面都具有十分重要的意义。

[1] Pitkow J.Insearch of reliable usage data on the WWW[C].In:Proc of 6th Int’T WorldWideWeb Conf.SantaClara.California，1997.

[2] 王丽娜．Web日志挖掘的研究和实现[C]．郑州大学，2005.

[3] 童恒庆，梅清.Web日志挖掘数据预处理研究.现代计算机：专业版，2004（3）.

[4] 夏成文，韩坚华，梁乘铭.Web日志挖掘数据预处理研究.微型电脑应用，2007（10）.

[5] Doru Tanasa，Brigitte Trousse.Advanced Data Preprocessing for Intersites Web Usage Mining[J].IEEE Intelligent Systems，March/April 2004：59-65.

[6] 赵红玲，宋瀚涛.Web日志挖掘中数据预处理的研究[J].计算机应用研究，2004.