APP下载

基于支持向量机的Web日志频繁序列模式挖掘研究

2021-03-17陈宝国宋旸

关键词:日志向量误差

陈宝国,宋旸

基于支持向量机的Web日志频繁序列模式挖掘研究

陈宝国,宋旸

(淮南师范学院 计算机学院,安徽 淮南 232000)

 :为了降低Web日志频繁序列模式挖掘误差,提出基于支持向量机的Web日志频繁序列模式挖掘方法。构建Web日志频繁序列模式检测序列,采用自相关特征分布式融合方法进行序列重组,提取序列模式的统计特征量,对其特征分布值进行信息融合。建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的自适应学习与寻优控制,实现Web日志频繁序列模式挖掘。仿真结果表明,采用该方法进行Web日志频繁序列模式挖掘的误差较低,收敛性较好。

支持向量机;Web日志;频繁序列;模式挖掘

Internet累积了大量Web日志文件,通过发掘用户的频繁序列访问模式,相关人员可以根据用户的兴趣变更网页内容,从而提升网站的吸引力,为用户提供更为个性化的服务,以此达到吸引更多用户的目的。因此,研究Web日志挖掘已经成为数据挖掘领域的重要研究内容,根据挖掘对象的不同,将频繁模式挖掘划分为频繁序列挖掘、频繁项集挖掘等。其中,Web日志频繁序列模式挖掘是因果关系、相关性分析、关联规则等关系研究的基础,所以,相关的Web日志频繁序列模式挖掘方法研究受到人们的极大重视[1]。当前,对Web日志频繁序列模式挖掘主要采用知识库构造方法,但采用这种方法进行Web日志频繁序列模式挖掘的自适性不好,时间开销较大。因此,本文提出基于支持向量机的Web日志频繁序列模式挖掘方法。

1 Web日志频繁序列模式检测序列和特征重组

1.1 Web日志频繁序列模式检测序列

为了实现基于支持向量机的Web日志频繁序列模式挖掘,需要首先构建Web日志频繁序列模式检测序列,采用自相关的特征分布式融合方法进行序列重组,结合Web安全等级保护评价方法,进行Web日志频繁序列模式的模糊信息分析[2],对Web日志频繁序列模式挖掘是通过对序列的资产分布、管理要求和技术要求进行用户运维管理的过程,采用等级方法控制方法进行序列模式挖掘的渗透性测试,渗透性测试实现过程如图1所示。

图1 渗透性测试实现过程

结合数据冗余和数据延时判断结合方法,建立Web日志频繁序列的时空特征分布集[4],得到时空特征分布模型满足:

式中,

1.2 Web日志频繁序列重组

图2 Web安全性检测模型

综上分析,构建Web安全性检测模型[7],如图2所示。

2 Web日志频繁序列模式挖掘

2.1 挖掘和输出稳定性控制过程

对Web日志频繁序列模式的特征分布值进行信息融合,建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的自适应学习,得到不同空间位置的Web日志序列[8],则Web日志频繁序列模式的关联规则项表示为

图3 Web日志频繁序列模式的收敛曲线

2.2 Web日志频繁序列模式挖掘输出

为了获取Web日志频繁序列模式挖掘最优结果,在支持向量机学习模式下进行Web日志频繁序列模式挖掘的寻优控制,采用多级判断方法得到挖掘过程的二级综合评判矩阵为

对来自不同空间位置的Web日志频繁项集进行特征分解,特征分解模型为

式中,

结合模糊度特征分析方法,得到Web日志频繁序列挖掘的输出对象集为

综上分析,在支持向量机学习模式下实现Web日志频繁序列模式挖掘过程中的寻优控制。

3 仿真实验与结果分析

为了测试本文方法在实现Web日志频繁序列模式挖掘的应用性能,进行仿真测试。其中,设Web日志频繁序列模式分布长度为1024,Web日志频繁序列的评分相似度系数为0.23,资源本体测试集为200,根据上述参数设定进行Web日志频繁序列挖掘,得到Web日志频繁序列挖掘的时间序列如图4所示。

分析图4可知,在60s的测试时间内,Web日志频繁序列挖掘时间序列幅值始终围绕0上下波动,说明采用该方法进行Web日志频繁序列挖掘的稳定性好。

测试Web日志频繁序列挖掘时间序列的误差,比较结果如图5所示。

图4 Web日志频繁序列挖掘的时间序列

图5 挖掘的误差分析

分析图5得知,文献[1]方法的挖掘误差在0.96%~1.04%之间,文献[2]方法的挖掘误差在0.95%~1.02%之间,文献[3]方法的挖掘误差在0.94%~0.99%之间,文献[4]方法的挖掘误差在0.93%~0.98%之间,本文方法的挖掘误差在0.92%~0.97%之间,采用本文方法进行Web日志频繁序列模式挖掘的误差较低,收敛性较好。

4 结束语

为降低Web日志频繁序列模式挖掘的误差,提出一种基于支持向量机的Web日志频繁序列模式挖掘方法。构建Web日志频繁序列模式检测序列,采用自相关的特征分布式融合方法进行Web日志频繁序列重组,提取序列模式的统计特征量并对其进行信息融合处理,建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的自适应学习与寻优控制,实现Web日志频繁序列模式挖掘。研究得知,采用该方法进行Web日志频繁序列模式挖掘的准确性较高,收敛性较好,误差较低,提高了Web日志挖掘的综合性能。

[1] 李艳辉,刘浩,袁野,等. 基于差分隐私的频繁序列模式挖掘算法[J]. 计算机应用,2017, 37(02): 316-321

[2] 戴瑀君,徐周波. 基于SAT和BDD的频繁序列挖掘技术[J]. 广西科学院学报,2018, 34(02): 59-64, 72

[3] 李洪敏,张建平,黄晓芳,等. 基于序列模式的多步攻击挖掘算法的研究[J]. 兵工自动化,2017, 36(09): 35-38

[4] 陈倩,刘云,高钰莹. 并行动态位向量频繁闭合序列模式挖掘算法[J]. 计算机工程与科学,2018, 40(10): 1717-1725

[5] 武优西,周坤,刘靖宇,等. 周期性一般间隙约束的序列模式挖掘[J]. 计算机学报,2017, 40(06): 1338-1352

[6] 徐启寒,徐开勇,郭松,等. 多支持度下用户行为序列模式挖掘方法研究[J]. 计算机应用与软件,2018, 35(1): 269-275

[7] 孙文平,常亮,宾辰忠,等. 基于知识图谱和频繁序列挖掘的旅游路线推荐[J]. 计算机科学,2019, 46(02): 56-61

[8] 张光兰,杨秋辉,程雪梅,等. 序列模式挖掘在通信网络告警预测中的应用[J]. 计算机科学,2018, 45(S2): 535-538, 563

[9] 叶明全,苏洋,童九翠. 基于多层关联规则挖掘的ADR风险检测与预警研究[J]. 池州学院学报,2020, 34(03): 23-26

[10] 李同轩,董祥军. 高效用频繁模式挖掘技术研究[J]. 齐鲁工业大学学报,2017, 31(01): 45-50

Research on Web log frequent sequence pattern mining based on SVM

CHEN Bao-guo,SONG Yang

(School of Computer Science, Huainan Normal University, Anhui Huainan 232000, China)

In order to reduce the error of mining frequent sequential patterns of Web logs, a method of mining frequent sequential patterns of Web logs based on SVM is proposed. This paper constructs the frequent sequence pattern detection sequence of Web logs, recombines the sequence by using the distributed fusion method of autocorrelation features, extracts the statistical features of sequence patterns, and fuses the feature distribution values. A scheduling model of Web log frequent sequence pattern fusion is established. The adaptive learning and optimization control of Web log frequent sequence pattern mining are carried out by using SVM analysis method. Simulation results show that this method is used to mine frequent sequence patterns of Web logs with low error and good convergence.

SVM;Web logs;frequent sequence;pattern mining

2020-08-19

2018年安徽高校自然科学重点研究项目:关联规则和模糊聚类在Web日志挖掘中的应用(KJ2018A0469);淮南师范学院2019年度校级科学研究项目(2019XJYB14)

陈宝国(1978-),男,安徽安庆人,讲师,硕士,主要从事数据挖掘、图形图像处理、算法设计研究,chenbaoguo1562@163.com。

TP311.13

A

1007-984X(2021)01-0021-05

猜你喜欢

日志向量误差
向量的分解
一名老党员的工作日志
聚焦“向量与三角”创新题
扶贫日志
雅皮的心情日志
雅皮的心情日志
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差
向量垂直在解析几何中的应用