APP下载

移动互联网敏感信息安全结构检索仿真研究

2022-10-25周银萍王跟成

计算机仿真 2022年9期
关键词:类别文档检索

周银萍,王跟成

(西藏民族大学网络信息技术中心,陕西 咸阳 712000)

1 引言

现如今,网络在广泛应用的同时也得到了迅速发展。但由于网络安全管理还不够完善,易出现黑客入侵、网页攻击以及安全信息泄露等多种网络安全事件,该缺陷对社会造成巨大损失。在该现状背景下,网络安全防护技术得到广泛关注,直到目前,大多数入侵威胁都会被网络自动检测出来,有效预防了入侵威胁对网络的攻击。但有一小部分入侵无法自动检测,此类入侵为多种技术融合的多阶段网络攻击对网络产生了更大的威胁,并且具有很强的隐蔽性,使网络很难检测到攻击源。在此类攻击下,互联网的敏感信息安全检索难度较大,因此为了避免这种问题,需要深入研究移动互联网敏感信息安全检索方法。

张昌宏等人提出云存储环境下的安全密文模糊检索方案方法,该方法首先建立了检索模型,并利用算法对关键词的权值进行构建,构建成一个索引结构,通过改进的规则对检索的文档进行排序,从而实现检索,该方法构建的结构不够完善,存在检索效率差的问题。陈昱等人提出一种大规模的跨平台同源二进制文件检索方法,该方法首先对文件进行编码,令其成为可读字符串,并利用编码向量直接生成局部Hash,以此完成检索,该方法的文件编码具有误差,存在加密信息检索效率低的问题。李茜等人提出一种基于listwise的在线学习书目排序检索算法,该方法利用在线排序方法对信息检索进行排序,以此减少检索的复杂性,利用损失函数对排序模型进行优化,从而完成排序检索,该方法的排序效果不明显,存在正确检索次数少的问题。

为了解决上述方法中存在的问题,提出多阶段攻击下移动互联网敏感信息安全检索方法。

2 多阶段攻击下移动互联网敏感信息提取

2.1 多阶段攻击

通常情况下网络多阶段攻击共分为五个流程,具体过程如下所示:

1)隐蔽自身攻击

对网络进行攻击前,首先会将自身攻击隐藏起来,攻击者会把真实地址及虚拟地址全部隐藏,具体操作为:把入侵主机、安装的Windows计算机和配置较差的服务器全部用作跳板,以此实现地址的隐藏。

2)对需要攻击的环境踩点

攻击者确定攻击目标时,会对需要攻击的环境进行探查,通过此过程对攻击目标的网络范围、网络域名进行采集,该过程也被称为情报收集,以此实现对各个组织完整轮廓的了解,便于攻击。

3)攻击目标的扫描及查点

当收集到攻击目标的基础信息后,攻击者会利用端口扫描及操作系统对攻击目标进行监听及漏洞查询,找寻到漏洞后对其进行定向查询,即查点。该过程会将攻击目标的重要信息显现出来,攻击者会对其进行记录。

4)攻击渗透

攻击渗透是攻击者进行多阶段攻击下的重要流程,攻击者会将木马攻击引入到主机内,以此得到主机的使用权,再把木马攻击渗透到虚拟机中获取另一个使用权,达到完全控制主机的目的。

5)目标攻击

攻击者完全控制主机后就可以对互联网的敏感信息进行盗取,或改写敏感信息,也可以修改系统内的任意设置,将木马、远程操控等程序放入到电脑中,以此实现攻击。攻击完成后为了避免用户查询到自身信息,攻击者会手动将系统内的攻击痕迹消除,使有关人士找不到痕迹。

2.2 移动互联网敏感信息提取

在多阶段攻击情况下,为了提高移动互联网敏感信息安全检索的精准性,首先需要对移动互联网敏感信息进行提取,以此提升敏感信息安全检索效果。

基于移动互联网敏感信息的价值率,优先对敏感信息进行分类,即,将移动互联网敏感信息价值率较低的内容进行筛除,实现对互联网敏感信息的整体过滤。

在互联网敏感信息过滤的基础上,采用特征项选择方法对敏感信息正文内容进行降维,以此完成敏感信息的提取,如下所示:

1)首先对敏感信息中的各个形容词、连接词等没有用作的词类进行去除,将这些去除的词类放入到停用词表中,或直接删除。

2)设置敏感信息文本分类的特征项为,利用高维度空间对进行选取,实现对敏感信息降维的目的,那么的具体选择流程如下所示:

将移动互联网敏感信息放置到树中,这时树内的敏感文本信息就由来表示,设置测量值的属性为个,那么移动互联网敏感信息的特征向量就表示为:={,,,…,-1},即∈{0,1}。式中,表示敏感信息特征向量,表示的特征值。

假设=1,就说明敏感信息特征项中存在,若=0,就说明敏感信息特征项中不存在。因此,通过下式就可以得知敏感信息的节点的类别,表示如下

(1)

式中,(|)表示后验概率,()表示先验概率,同时(|)和()都是的验证概率,而是一种假设,属于设定的类别。()表示数据元组的先验概率。

依据式(1)得到敏感信息的节点类别由(∈,表示敏感信息内容的类别)表示,那么敏感信息的节点类别概率标记如下

(2)

对式(2)进行整理后,得出敏感信息节点全概率方程表达式,标记为

(3)

式中,表示节点,表示节点数量。

由于移动互联网中的敏感信息较多,所以的向量特征值也随之增多,为了便于对中敏感信息的提取,首先需要对各个敏感信息的属性进行假设,设置各个属性均为独立性。该假设可以有效提升敏感信息的提取速度,因此该假设的方程表达式如下所示

(4)

式中,表示数量,表示项数。

通过式(4)可以对的类别概率进行推算,此时的概率由朴素贝叶斯公式进行表达,定义如下

(|)=(|=)

(5)

依据方程(5)可以得知,在移动互联网敏感信息中,无价值的信息概率为(|),而有价值的敏感信息概率为(|),当(|)>(|)时,就说明目前为止在多阶段攻击下的移动互联网敏感信息节点内容均为无价值。

通过上述分析得知,当敏感信息首节点包含的内容在树中被认定为无价值时,就需要立即停止对目前敏感信息的提取,并把当前互联网敏感信息网页从本地中消除掉;若敏感敏感信息非首节点内容被认定为无价值,那么就需要将当前无价值内容删除,剩余有价值内容就会被提取。

3 基于贝叶斯网络模型的敏感信息安全检索

3.1 贝叶斯网络模型

基于多阶段攻击下移动互联网敏感信息的提取,构建贝叶斯网络模型,利用该模型对敏感信息安全进行检索。

在构建的模型中设置密钥,以此确保移动互联网敏感信息检索的安全性。设置加密密钥及信息提取密钥分别在模型的操作域和中进行,设置为加密密钥,为提取密钥,那么贝叶斯网络模型经加密后的方程表达式标记为

(6)

式中,(,)表示加密操作,(,)表示提取信息加密,表示加密矩阵,表示提取信息加密矩阵。

设置密钥后,利用一部分的敏感信息结点组成一个术语子网,而另一部分信息结点组成文档子网,将两个子网相结合,构建出贝叶斯网络检索模型,该模型的具体结构如图1所示。

图1 贝叶斯网络检索模型

在上述检索模型中,代表术语层,那么就是文档层,对术语层进行复制后就会通过′来表示。将三种层次相结合,就组成了′--的模型结构。当各个结点的边缘概率在′层时,就会通过(′)=1、()=1-1来表示。其中,(′)表示边缘概率,表示敏感信息术语数量。

(7)

式中,表示调节参数。表示对敏感信息安全进行检索时占据的权重,当的值较大时,就说明检索的敏感信息文档靠前。的值越小,就说明检索信息安全的权重越低。因此可以得知,敏感信息权重决定着信息安全检索的好坏,要想对敏感信息安全进行有效检索,就需要提高它的权重。

同理,依据上述权重计算方法,在与层之间绘制一条由指向的弧,而弧中的权值设置为,它属于文档中索引术语的权重,那么通过方程表达式定义为

(8)

式中,表示术语出现的次数,表示系数,即=log()+1。其中,表示敏感信息文档数量,表示存有的文档数量。利用将所有文档的敏感信息权重总和相加,权重总和≤1时,得出弧中的权值。

将获取的弧权值存储到检索模型内,便于互联网敏感信息安全检索。

3.2 检索流程设计

对查询进行提交后就可以进行检索,它的具体流程为:首先对敏感信息查询词进行提取,利用检索模型对′层的敏感信息进行推理,并对各个文档中、的相关概率进行计算。

2)对的相似度进行计算,从中获取各个敏感信息与之间的关联性,即(|)。

3)对层各个文档的后验概率进行计算,从中获取与的关联性。

4)依据(|)的排列顺序,对多阶段攻击下移动互联网敏感信息进行输出,完成敏感信息安全检索。

4 实验与分析

为了验证多阶段攻击下移动互联网敏感信息安全检索方法的整体有效性,需要对该方法进行有效测试。采用多阶段攻击下移动互联网敏感信息安全检索方法(方法1)、云存储环境下的安全密文模糊检索方案方法(方法2)和一种基于listwise的在线学习书目排序检索算法(方法3)进行实验测试对比。

1)将敏感信息划分成两个类别,一类为加密的敏感信息,另一类为不加密的敏感信息。把两种类别的敏感信息全部结点进行连接,设置加密敏感信息的长度总和为525位,提取的加密信息长度为50位;而不加密敏感信息的长度总和为450位,提取的不加密信息长度为35位。依据敏感信息索引数量,利用方法1、方法2和方法3分别对两种类别的敏感信息进行检索效率测试。

随机选取一个移动互联网敏感信息文档用作测试样本,假设互联网中各个文档为1MB,加密敏感信息的长度为3个中文字符、非加密敏感信息长度为2个字符,将两类别均对应为32位二进制数。把需要检索的两类别敏感信息数量逐次增加,通过三种方法对其进行检索,依据检索的平均时间,验证三种方法的检索效率。时间越短说明检索效率越高,时间越长说明检索效率越低,具体测试结果如图2所示。

图2 不同类别的索引信息检索效率

分析图2(a)中的数据发现,本次实验共设置600个不同类别的敏感信息索引,当非加密索引数量不断提升时,三种方法的检索时间都呈现出上升趋势。从整体上看,方法1的检索时间上升速度比较缓慢,这说明方法1的检索速度要高于方法2和方法3,它的检索效率要优于其它两种方法。而方法3在检索期间,它的运动轨迹上升速度最快,最终检索时间要高于方法1和方法2,表明方法3的检索速度最慢,检索效率最低。

图2(b)对索引信息加密后,三种方法的检索时间有着明显的提升。但经过对比可得,方法1的检索效率依旧高于方法2和方法3,由此可见不论是加密还是非加密的索引信息,方法1的检索速度都是最快,且检索的效率都是最优的。

综上所述,方法1的检索效率最优,这是因为方法1对敏感信息进行提取,以此增强了敏感信息检索效果,进而提升了检索效率。

2)以上述实验为基础,采用方法1、方法2和方法3分别对敏感信息安全检索效果进行测试。设置共对100个信息数量进行检索,依据检索的准确次数验证检索效果,如表1所示。

表1 不同方法的正确检索数量

依据表1中的数据可知,在测试期间,方法1的正确检索个数始终高于方法2和方法3,依次为方法3、方法2,这说明方法1的检索效果强,检索的精准性高。

5 结束语

隐蔽性极高的攻击手段会使互联网陷入瘫痪。针对移动互联网敏感信息安全检索存在的问题,提出多阶段攻击下移动互联网敏感信息安全检索方法。该方法首先分析了多阶段攻击流程,基于多阶段攻击下,对互联网敏感信息进行提取。同时构建了检索模型,在模型中设置密钥以此加强检索效果,通过获取的信息权重,利用该模型对其进行检索,实现敏感信息安全检索方法。该方法在敏感信息安全检索领域中占据着重要地位,为今后的敏感信息安全检索方法带来了巨大贡献。

猜你喜欢

类别文档检索
浅谈Matlab与Word文档的应用接口
论陶瓷刻划花艺术类别与特征
有人一声不吭向你扔了个文档
CNKI检索模式结合关键词选取在检索中的应用探讨
一起去图书馆吧
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
英国知识产权局商标数据库信息检索
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat