基于数据挖掘的入侵检测框架

2017-01-05陈丽珊

西安文理学院学报（自然科学版） 2016年6期

关键词：数据挖掘框架阈值

陈丽珊

(福建广播电视大学莆田分校,福建莆田 351100)

基于数据挖掘的入侵检测框架

陈丽珊

(福建广播电视大学莆田分校,福建莆田 351100)

近些年来计算机网络得到高速发展，成为信息传递的重要途径，也成为信息技术领域的热门课题.其中一个研究重点就是因网络入侵引发的安全风险问题，如何有效地检测和防范入侵行为是信息监管过程中的重要内容.混合框架采用数据挖掘技术，实现了入侵检测模型的构建.随着数据挖掘技术在入侵检测领域的广泛应用，方法繁多且系统不成体系一度成为研究过程中的重要问题.显然采用直接系统的框架模型，可以成为提高效率的一种方式.基于数据挖掘的入侵检测框架，可以有效地解决以上问题并提高系统化程度，改善入侵检测的准备效率与自适应能力.

数据挖掘；入侵检测；模型框架；日志安全

入侵检测系统(Intrusion Detection System，IDS)是能够通过相关识别技术完成对计算机受到的攻击以及恶意行为检测的系统[1].基于主机的检测系统的数据来源一般是系统日志，而网络上则是来自数据流和网络中的数据包.本文框架所包含检测模式有误用检测和异常检测两种，构成一种高效的混合框架模型.两种模型对于入侵检测方面各有优劣，误用检测虽然有着高检测率、低误报率，但遇到未知行为难以处理.两种检测模式的混合型入侵检测系统，能够发挥不同检测方法的优点，成为提高整体性能的重要突破[2].

1 数据挖掘的IDS框架模型

图1 基于数据挖掘的入侵检测框架示意图

模型的组成结构包括一个异常检测模块和两个误用检测模块，在此基础上设计而成并分别对不同模块采用各自的算法，混合模型下不同阶段的检测模块完成互相配合[3].通过数据集的实验结果显示，混合模型所构架的框架具备检测已知入侵同时预防未知攻击的能力，保证较高检测率的同时有较低的误报率，示意图如图1所示.

1.1 数据采集预处理

数据采集预处理模块的功能是完成对网络连接记录进行采集、预处理最终形成可靠的数据集.为满足数据挖掘的基本要求，提高效率的前提下得到清晰的数据集，必先完成数据的预处理[4].处理过程中原始数据难免存在问题，主要有以下方面.

(1)不统一.数据的来源不同，缺少标准衡量方法，较难实现共享统一.

(2)重复冗余.同一条数据存在多次重复，或是不同数据库中数据冗余，实验数据中也难以避免这样的问题.

(3)缺失残损.数据在整体系统中由于种种原因造成不完整的存在，部分信息缺失而使得信息的价值没有确定的意义.

1.2 关联规则序列规则

关联规则挖掘问题1993年被Agrawal等人[5]提了出来.关联规则模块的作用是对已知数据集之间进行关联分析，此处数据集D中有S的概率使得集合T包含A∪B，而且同时由C的概率可以满足集合T中“若包含A就包含B条件”.即称之为最小支持度阈值和最小信任度阈值：

Support(A≥B)=P(A∪B)

Confidence(A≥B)=P(B|A)

而符合以上规则的则属于强规则.两个阈值的数值大小保持在0%至100%之间，而非0到1之间.对于关联规则序列规则的基本步骤：

步骤一：分析出现的频繁集合并对其进行定义，完成对这些集合的最小频度的支持；

步骤二：通过所获取的频繁集合完成之间的强关联规则，并且是在满足最小信任度阈值的前提下完成.对于两种规则的分别使用和混合使用效果有着明显不同，效率比较如图2所示.

图2 不同规则下数据处理效率比较

序列规则的应用目的是找出数据集中最大支持度与最小支持度相同的频繁序列，对于这样的大序列有以下要求：

(1)遍历所有K-sequence中大序列，确保1≤K≤N的同时从这些大序列中提取出具有强关联的序列组合[5].

(2)所有结果为最大序列，即不包含彼此重叠的关系.举例说明：5-sequence时求出的大序列为<1-2-3-4-5>，4-sequence时求出的大序列为<1-2-3-5>、<2-3-4-5>、<1-2-3-5>、<1-3-4-5>、<1-2-3-4>.在1中，获取到5-sequence的大序列，将全部的4-sequence大序列要保留，然而在2中4-sequence的所有大序列都包含在5-sequence中，那么4-sequence所求出的大序列将全部剔除.

1.3 异常检测模型

本文所提出的框架是采用基于簇中心位置变化的异常检测方法来构建异常检测模块.异常检测的基本过程如下：

ⅰ.已知行为轮廓构建

(1)使用k-means算法将含有N个正常样本集合X进行聚类分析，所提取的簇中心为C1,C2,…，Ck，根据样本数量选取多个簇中心作为参考；(2)结合样本采集策略，完成对每个样本与实际的簇中心进行离群程度的计算与分析，再进行排序；(3)结果不同的离群分析，得到偏离中心的异常数据，确立相应的异常阈值.同时建立好已知行为轮廓.

ⅱ.未知攻击检测

(1)寻找待检测样本后对照实际参考样本；(2)结合采样策略，计算待检测样本进行实际参考的离群程度分析；(3)通过异常阈值判定为正常还是异常.

1.4 误用检测模型

误用检测模块能够通过挖掘算法对相关数据进行学习，并且通过规则将数据的特征进行提取.误用检测处理数据后确认正常，但其中会存在一些攻击样本而不能保证较低的误报率和较高的准确率[6].这些样本如果没有进行二次检测，可能会给网络安全带来极大的威胁.

2 基于IDS框架数据挖掘过程

图3 入侵检测系统的数据挖掘过程

基于IDS框架的数据挖掘过程如图3所示.

该过程受到两个关键因素的影响是：(1)数据源的质量与规模；(2)数据挖掘算法的效率[7].预测数据可以根据不同的属性进行分析，如分类、聚类、离群点分析、关联分析.

3 典型数据挖掘的IDS框架实际效果

3.1 数据准备

本文所采用的实验数据中某些类别的样本用在异常检测模块，而通过测试的Corrected文件(数据集)用于误用检测模块.其中除去Normal外，实验会包含20种不同的攻击类型，但整体可以将它们分为4个不同的攻击种类[8]：

(1)DOS：拒绝服务攻击，如泛洪攻击；

(2)R2L:来自远程机器的非法访问，如密码试探；

(3)U2R：未经授权在本地以超级用户权限登录，如缓存溢出攻击；

(4)Probing：监视及其他探测，如端口扫描.

3.2 数据处理

实验过程中对通过数据预处理模块的数据进行下一步处理，通过异常模块入侵检测.实验通过对普通模型IDS框架与本文提出的混合IDS框架进行性能对比，具体数据见表1.

表1 混合模型和常规模型的检测性能对比

表1分别显示对于4中不同攻击类型的分析结果，所占比例对比之下混合框架均低于普通框架，而正常数据所占比例则相反.进一步对Normal数据集进行误用检测，验证IDS框架在数据挖掘过程中，相比普通框架能保证较高的准确率和较低的误报率.

3.3 测试结果

完成实验过程综合整体数据，可得到表2，基于数据挖掘的IDS框架将两种不同的入侵检测模块进行有效结合.

表2 混合入侵检测模型和常规检测模型对数据集的性能检测

4 结语

本文提出一种基于数据挖掘技术的入侵检测系统的框架模型,该模型拥有很好的适应性能够较大程度地完成相关机制的扩展.混合框架侧重于对性能的优化，实现两种传统方法的优劣互补.从目前的研究状况来说，能够满足时间和空间上的最佳平衡，也将直接影响安全防御的稳固性.

[1] 杨义先，钮心析.入侵检测理论与技术[M].北京：高等教育出版社，2006:29-41.

[2] 魏宇欣.网络入侵检测系统关键技术研究[D].北京：北京邮电大学,2008.

[3] FIORE U,PALMIERI F,CASTIGLIONE A,et al.Network anomaly detection with therestricted boltzmann machine[J].Neurocomputing,2013,8(6):13-23.

[4] AGRAWAL R,MIELINSKI T,SWAMI A.Mining association rules between sets of items in large databases[J].Acm Sigmod Record.1993,22(2):207-216.

[5] 蒋盛益，李霞，郑琪.数据挖掘原理与实践[M].北京：电子工业出版社，2011:75-96.

[6] DUDA R O,HART P E,STORK D G.Pattern classification(2nd edition)[M].New Jersey：Wiley-Interscience,2000:341-355.

[7] 陈伟，彭文灵，杨敏.基于数据挖掘的入侵检测系统中挖掘效率的研究[J].赣南师范学院学报,2003(6):52-55.

[8] ERBACHER R F,WALKER K L,FRINCKE D A.Intrusion and misuse detection in-scale systems[J].IEEE Computer Graphics and Applications,2002,22(1):38-47.

[责任编辑马云彤]

The Framework of Intrusion Detection Based on Data Mining

CHEN Li-shan

(Putian Branch， The Open University of Fujian, Putian 351100, China)

In recent years, with the rapid development of computer network, it is one of the important ways of information transmission, and it has become an important research part in the field of information technology. One of the research focuses on the network intrusion due to the risk of security problems, how to detect and prevent intrusion behavior effectively and efficiently is an important content in the process of information monitoring. The hybrid framework adopts data mining technology to realize the construction of intrusion detection model. With the extensive application of data mining technology in the field of intrusion detection, a wide range of methods and the system is not a system has become an important issue in the process of research. Obviously, using the direct system framework model, it can be a way to improve the efficiency. Data mining based intrusion detection framework can effectively solve the above problems, improve the degree of system, and improve the efficiency of intrusion detection and adaptive capacity.

data mining; intrusion detection; the model framework; log security

1008-5564(2016)06-0035-04

2016-08-21

陈丽珊(1983—)，女，福建莆田人，福建广播电视大学莆田分校讲师，主要从事数据挖掘与信息安全研究.

TP391