APP下载

基于规则分组的DFA正则表达式匹配算法

2021-07-28

关键词:自动机字符串存储空间

朱 俊

(1.合肥工业大学计算机与信息学院,合肥 230009;2.安徽水利水电职业技术学院电子信息工程学院,合肥 231603)

入侵检测系统(Intrusion Detection Systems,IDS)不仅能够识别出网络中的入侵行为,还能检测出网络中的漏洞信息,从而采取相应对策进行处理和防范,阻止入侵行为带来的危害.入侵检测方法主要分为异常检测和误用检测两大类.异常检测主要采用统计分析的方法,常用的有:神经网络、人工免疫、统计模型、数据挖掘等[1].误用检测主要采用模式匹配的方法,模式匹配技术的过程通常是提前将特征信息提取出来,存放到模式库中,再把收集到的数据与模式库中的特征信息进行比对,从而发现入侵行为.当今,模式匹配技术是入侵检测系统主要采用的方式.随着计算机网络技术的飞速发展,网络带宽的使用量增长迅速,单位时间传输的数据呈几何倍数增加,规则数量随之增加,所带来的最大问题是如何快速地进行检测.构建有限自动机对于模式匹配来说非常有效.构建有限自动机后,对每个文本字符只需要进行一次遍历,因而在时间复杂度上有很大的优势,构建有限自动机所花费的时间复杂度通常为O(n)[1-2].但是,在输入字符集元素很庞大的情况下,建立有限自动机所花费的时间就会大大地增加.

为了充分发挥确定性有限自动机(deterministic finite automata,DFA)速度快的优势,对其存储空间的算法进行优化具有重要意义.如果有多条正则表达式构造成一个DFA,则各个规则会有相同或相似情况,状态集合很大,导致出现状态爆炸问题[2-4].Yu Fang 等[5]提出了对规则进行分组的算法,来解决状态爆炸问题,这种分组算法可以在一定程度上抑制状态爆炸问题,但在存储空间上并未有大的提升,并且当分组数量大时,算法空间复杂度较大.

1 正则表达式

1.1 问题描述

传统的入侵检测主要使用朴素模式匹配算法或一些经典匹配算法,如AC 算法、BM 算法、KMP算法等[1],但是这些算法的缺点是描述精确字符串的能力非常有限.随着计算机技术的发展,入侵行为变得多样,特征更加复杂,增加了代码复杂度.简单的字符串匹配不再满足入侵检测需求.

正则表达式起源于科学家用一种数学方法来描述神经网络的研究,后来正则表达式被用于计算机领域,先后在Unix 的编辑器qed 和ed 以及grep 中得到应用,著名的Perl 语言也使用正则表达式.近年来,在WINDOWS 环境下,正则表达式也得到了广泛的应用.主流的开发语言delphi、PHP、C#、Java、C++、VB、Javascript、Ruby 以及Python 等都可以支持正则表达式.

正则表达式非常灵活、逻辑性强、功能强大,通过简单的方式就可以对字符串进行操作.正则表达式应用的对象通常是文本,所以适用范围很广,一些普通的文本编辑器都可以使用,如EditPlus 等.正因为正则表达式的优势,比精确字符串匹配更适合进行深度报文检测,更符合入侵检测场景应用.像开源的入侵检测系统Snort 基本上都使用正则表达式来对规则进行描述.一些网络安全设备也使用正则表达式来检测,判断是否有入侵行为[2-4].

1.2 状态爆炸

状态爆炸是指将多个正则表达式生成一个DFA 时的状态总数比其独自生成DFA 时的状态总数量更大.例如正则表达式E1 和E2,E1 生成的DFA 的状态数量为Count(E1),E2 生成的DFA 的状态数量为Count(E2),将E1 和E2 合并后的表达式为E12,生成的DFA 的状态数量为Count(E12),如果存在Count(E1)+Count(E2)

图1 正则表达式E1的DFA

图2 正则表达式E2的DFA

1.3 评价依据

判断正则表达式集合分组是否有效,主要看生成DFA 的状态总数及分组的数量.

(1)DFA 状态总数越多,所需要的存储空间也越大.所以,减少DFA 状态总数,可以减小所需要的存储空间,在空间复杂度上得到一定的优化.

(2)分组的总数量会影响到DFA 的匹配速度,当对某个字符的状态转移表进行访问时,分组数越多,访问的次数相应会越多,匹配的效率就会低,分组数越少,访问的次数相应减少,匹配的效率就会提高.

在一般情况下,分组数量越多,DFA 状态总数量就会越小,分组数量越少,DFA 状态总数量就会越大,只有当DFA 状态总数和分组的总数量这两个因素在一个合适的结合点时,达到存储空间和匹配速度上总体最优化.

2 有限自动机

通常一个有限自动机包括五个元素,例如有限自动机M(Q,q0,A,ε,δ),其中:Q 表示状态的有限集合,q0∈Q代表初始状态,A 是一个接受状态集合且A⊆Q,ε是有限的输入字符表,包含256 个字符,δ 是M 的转移函数,为Q×ε到Q 的函数[1].

有限自动机从初始状态q0开始,如果有限自动机在状态q时读入了输入字符a,则它从状态q变为状态δ(q,a).每当其当前状态q属于A时,就说明自动机M接受了迄今为止所输入的字符串.没有被接收的输入称为拒绝的输入.

有限自动机M可以推导出一个函数,称为终态函数Φ,M接受字符串w,当且仅当Φ(w)∈A.函数Φ由下列递归关系定义:

对于任意一个模式P,都可以构造一个字符串匹配自动机,在预处理阶段,先根据模式P构造出DFA,然后利用构造出的DFA 来遍历字符串,首先定义一个辅助函数σ,称为相应P的后缀函数.函数σ是一个从ε*到{0,1,…,m}上定义的映射,是x的后缀P的最长前缀的长度:

因为空字符串P0=ε是每一个字符串的后缀,所以后缀函数是有完备定义的.例如,对模式P=ab,有σ(ε)=0,σ(ccaca)=1,σ(ccab)=2.对一个长度为m的模式P来说,σ(x)=m,当且仅当P⊃x.根据后缀函数的定义有:如果x⊃y,则σ(x)≤σ(y)[1].

已知模式P[1,…,m],其对应的字符串匹配自动机定义如下:

状态集Q为{0,1,…,m},初始状态q0为0,状态m是唯一的接受状态.

对任意状态q和字符a,变迁函数δ由如下等式定义.

自动机的操作中保持如下条件不变:

这意味着对文本字符串T的前面i个字符进行扫描后,自动机的状态为Φ(Ti)=q,其中q=σ(Ti)是最长后缀Ti的长度,Ti是模式P的一个前缀.如果下面扫描到的字符为T[i+1]=a,则自动机的状态应转换为σ(Ti+1)=σ(Tia).也就是说,为了计算P的前缀Tia的最长后缀的长度,可以先计算出P的前缀Pqa的最长后缀.在每一种状态上,自动机仅需要知道迄今已读入的字符串的后缀P的最长前缀的长度.

对于长度为m的模式的任意字符串匹配自动机来说,状态集Q为{0,1,…,m},初始状态为唯一的接收态是状态m[1].

从FAM 算法可以看出,如果一个长度为n的文本字符串,计算其所需要的匹配时间,如果不包括计算转换函数δ所需要的预处理时间,那么它的时间复杂度为O(n).

下列过程根据一个给定模式P[1,…,n]来计算转换函数φ[1].

DFA 适用在不要求回溯的线性状态,它的一个显著特点是在匹配很长的字符串时依然能够确保成功.

3 基于规则分组的匹配算法

基于规则优先级的匹配算法的出发点是减少DFA 中出现的爆炸问题,同时在时间复杂度上和空间复杂度两个维度上占用较少的消耗.

图1 和图2 描述了当用一个正则表达式构造DFA 时,会导致状态爆炸的情况.在另外一些情况下,虽然一条规则不会引起状态爆炸,但当多个正则表达式构造同一个DFA 时,由于其相互作用影响,也会造成状态爆炸.极端情况下,如果每个正则表达式中出现x次同一字符串,则复杂度为O((x+1)y).文献[2-3,5-6]中提出了对正则表达式进行分组,从而减少状态爆炸情况的思想.其主要思想是通过找到正则表达式中的等价因子,然后构造出关系图,每个正则表达式作为关系图中的顶点,如果任两个正则表达式存在造价因子,则将该两顶点连接起来.在进行分组前,找出一个与其他表达式相关度最少的一个正则表达式,然后将该正则表达式加入分组里,接下来重复上述步骤,将其他的正则表达式依次加入分组里,当这个分组的DFA 的存储空间达到一定的阈值时,将新建一个分组,接下来继续重复上述步骤,直至所有的正则表达式都被加入相应的分组中,这种算法的优点是减少了正则表达式之间的相互影响,存储空间使用较小,并且状态爆炸问题可以得到抑制[6,8-9].

为了抑制状态爆炸问题出现,分组是一个非常有效的办法,但是消除状态爆炸,就需要进行大量分组,这样会增加分组数量,需要很多DFA 才能覆盖所有规则,这样会降低匹配引擎的效率.

判断正则表达式集合分组是否有效,既要考虑时间复杂度,又要考虑空间复杂度.本文通过自动学习的方式对规则分组进行优化,根据历史记录将正则表达式进行分组,然后将这个历史记录分组缓存到一个存储空间中,所以当进行匹配时,如果在该缓存中已经有了相应的记录,就不需要重新构建DFA,就可以根据历史记录来决定相应操作,从而避免重复增加状态来模拟排列组合现象,减少开销,在实际应用中,如果规则集已知的情况下,根据历史记录进行规则分组具有一定的意义.

4 仿真实验

为验证算法的有效性,本实验从开源的入侵检测系统Snort 中抽取若干条正则表达式作为测试对象,实验环境是在虚拟机中实现,操作系统为Intel i7处理器,内存4 GB,操作系统为ubuntu 18.04LTS,表1 为算法的性能数据,图3 是采用Snort 测试规则集的DFA 状态总数的变化图,由该图可知,随着迭代次数的变化,DFA 状态的总数量的变化会降低,当迭代约三次以后,DFA 状态的总数量基本上不再有明显变化,从而可以得出,该算法能较快得到最优情形.

表1 根据历史记录进行分组的算法性能指标

图3 DFA规则分组数与状态总数对应显示图

5 小结

模式匹配作为IDS 的一种主要应用,其效率高低直接影响IDS 的性能优劣.在由正则表达式构造DFA 时,因为会产生状态爆炸情况,导致在存储空间和匹配速度上性能不佳.采用分组算法可以在一定程度上抑制状态爆炸问题,通过自动学习的方式,根据历史记录将正则表达式进行分组,当缓存中存在相应记录时,不需要重复构建DFA,从而提高性能.实验证明,该算法在规则集一定的情况下,能够减少状态总数,在空间复杂度上有一定的优化,能够在一定程度上抑制状态爆炸的发生.

猜你喜欢

自动机字符串存储空间
基于多种群协同进化算法的数据并行聚类算法
基于自动机理论的密码匹配方法
基于文本挖掘的语词典研究
苹果订阅捆绑服务Apple One正式上线
用好Windows 10保留的存储空间
格值交替树自动机∗
一种基于模糊细胞自动机的新型疏散模型
一种基于模糊细胞自动机的新型疏散模型
SQL server 2008中的常见的字符串处理函数
倍增法之后缀数组解决重复子串的问题