APP下载

移动雾计算中基于强化学习的伪装攻击检测算法

2020-01-16于金亮涂山山

计算机工程 2020年1期
关键词:物理层接收端合法

于金亮,涂山山,2,孟 远,2

(1.北京工业大学 信息学部,北京100124; 2.可信计算北京市重点实验室,北京100124)

0 概述

随着无线网络技术和移动智能终端的不断发展,人们对于快速实时通信的需求越来越高,云计算已经不能满足异构、低时延等网络需求,在这种情况下,雾计算应运而生。作为对云计算概念的延伸,雾计算将云计算扩展到了网络边缘,可以利用设备直接传输链路来提高系统吞吐量,解决了云计算移动性差、地理信息感知弱、时延高等问题[1-2],但同时由于雾计算节点之间通信的开放性也带来了通信安全和数据传输安全的问题。在雾计算中,雾节点与移动终端用户之间采用更开放、更易受到攻击的无线传输[3],构成移动雾计算环境。与此同时,雾计算网络中不同终端用户之间的信任关系也是构建相互协作环境以优化系统目标的必要条件。在移动雾计算网络中,大量的移动端用户通过无线网络与雾节点进行通信,由于无线信道的开放性,雾节点与终端节点之间的信任关系面临着众多的挑战,如中间人攻击、窃听攻击等。传统的云环境下的安全解决方案,如云访问控制、密钥管理、数字签名、身份认证等技术,针对移动雾计算网络的多层结构以及终端在雾节点间的移动性,使得移动终端密钥的在线分发、维护和管理变得较为困难。因此,研究者利用物理层特性,依靠信号处理、编码调制等方法提供安全通信,以帮助移动终端用户与雾节点之间建立安全的传输方案。

本文针对移动雾环境下的物理层密钥生成策略,提出一种基于Q-learning的伪装攻击检测算法。该算法可在动态环境下实现对伪装攻击的识别,解决雾计算中无线通信易受伪装攻击的问题。

1 相关工作

由于无线信号传输介质的特性,无线通信本质上是不安全的。为了确保无线通信中数据传输具备机密性,无线系统需要用发送端和对应的接收端所共有的密钥来实现加密传输。基于物理层的安全密钥生成方案[4-5]可以满足安全通信的需求,已成为目前研究的热点。基于物理层特性的安全密钥生成是利用无线衰落信道的唯一性、互易性和随机性的密钥生成方法,其本质是收发双方之间信道介质的信道状态信息(Channel State Information,CSI)的唯一性、随机性和互易性。收发双方根据所获取到的物理层信道信息经过本地计算生成安全密钥,同时解决了密钥的分发问题。文献[6-7]在现有的研究基础上总结了当前物理层安全遇到的问题,提出了一些对未来研究的建议。文献[8]提出一种无线网状物理层安全策略,以求解该物理层安全问题。文献[9]提出一种提高RFID系统物理层安全性能的方法,将物理层安全应用到了RFID系统中。文献[10]提出一种用于IBFD无线设备的密钥生成策略,以提高在多径衰落信道上生成的密钥的速率,为密钥生成速率的提升提供了一种方法。文献[11]将博弈论与密钥生成方法相结合,提出一种基于博弈论的协作密钥生成方法。

基于物理层的安全技术在避免窃听方获取信息的同时,为通信双方提供了可靠的、安全可量化的通信,因此,其在移动雾计算网络环境下具有广阔的研究和应用前景[12-13]。如上所述,保证发送端和接收端所使用的密钥具备一致性并将该密钥成功分发给两者是无线通信安全目前面临的主要问题。文献[14]利用信道脉冲响应(Channel Impulse Response,CIR)在真实的室内环境中产生密钥比特,但在实际情况下每秒至多实现一个密钥比特。文献[15]在超宽带(Ultra Wide Band,UWB)系统中利用丰富的多径无线信道的CIR来产生密钥,但其量化方法减少了信道信息。文献[16]利用支持802.11协议的无线网卡通过手机接收信号强度(Received Signal Strength,RSS),以在静态和移动两种状态下提取密钥比特。

然而,基于物理层的安全密钥生成率在很大程度上取决于信道变化的速度,在这种动态环境中较难做到每一时隙内都达到最优解[16-17]。因此,本文引入了基于强化学习算法来检测伪装攻击。在强化学习算法中,用户在不知系统细节的情况下,可以得到动态环境中的最优解[18-20]。此外,在实际生活中用户并不是静态的,用户与节点之间的相对运动会使信号特性产生变化。因此,本文基于Q-learning算法从动态环境中检测伪装攻击,利用节点间传送无线数据包时的信道状态,获取一段时间内的最优解,而不是考虑每一段相干时间内的最大收益,所以相较于传统的固定阈值检测方法,本文方法更准确。

本文主要贡献如下:1)构建一种移动雾计算中的伪装攻击模型,该模型假设攻击者(雾节点或移动终端用户设备)可以进行主动伪装攻击,满足了后续实验需求;2)提出一种基于Q-learning的伪装攻击检测算法,实现了在动态网络环境中的伪装攻击检测,可以主动防御伪装攻击;3)该算法具有更高的伪装攻击识别准确度和较低的平均错误率,可以有效地在动态环境中防范伪装攻击。

2 模型构架

2.1 系统模型

移动雾计算系统模型如图1所示,本文假设在雾计算环境中,移动终端用户与雾节点通过无线信号通信,无线信号中心频率为2.4 GHz。在X个用户中(X∈{1,2,…,x},x∈N*),共有Y个合法节点(Y∈{1,2,…,y},1≤y≤m),Z个非法节点(Z∈{1,2,…,z},z=x-y)。Z个非法节点可以将自身信息修改为合法节点的信息,从而进行伪装攻击。合法节点可以是正常雾节点(如合法雾节点1)或正常的平板电脑、智能手机和笔记本电脑(如合法节点1、节点2和节点5)。非法节点可以是伪装终端用户的节点(如非法节点1、节点2),也可以是伪装终端用户的终端节点(如非法雾节点)。

2.2 密钥生成模型

本节使用的密钥生成模型参考文献[4-10]。基于移动雾计算模型生成物理层密钥,雾节点和用户节点首先生成初始密钥,然后进行密钥协商。在量化之前,加入伪装攻击检测,用于判断接收到的信号是否合法,将合法信号的CSI执行再抽样和量化等操作。如图2所示,双方正处在密钥生成过程中,在每一次提取脉冲信号CSI后,接收端都会将2个连续信号CSI的归一化欧式距离与根据假设检验所得阈值进行比较,若此时伪装攻击者发起攻击,则判断为非法用户并丢弃掉该CSI数据。如果符合原假设,则认为该CSI数据合法,将满足一定数量条件的合法训练信号的CSI作去冗余和再抽样操作,并转入量化阶段,继续执行密钥生成方案。

图2 密钥生成模型示意图

本文提出的物理层密钥生成方案可分为以下5个步骤:

1)接收端与发送端双方互相发送若干冲激信号。

2)针对冲激信号所得信号判断是否为伪装攻击信号。

3)对接收到的信号进行量化。

4)提取一部分量化后的数据作为初始密钥。

5)接收端与发送端双方进行密钥协商,以确保量化过程中出错的数据被改正。

根据物理层密钥生成方案可以在物理层即对伪装攻击进行一次粗粒度的检测,再将筛选后的信号传递到上一层,减轻将信息传递给上层时产生的通信开销及上层计算开销,从而提高系统性能。

3 检测方案

本节首先说明基于上文提出的系统模型所建立的假设检验,并在该假设检验的基础上实现Q-learning算法。

3.1 基于系统模型的假设检验

雾节点与终端用户分别用A和B来表示,伪装攻击者用I来表示。在信道估计阶段,A和B在一个时隙内互相发送多个训练信号,分别是TA和TB,则此时雾节点、终端用户和伪装攻击者收到的信号如式(1)~式(4)所示。

YB=GA,BTA+NB

(1)

YI=GA,ITA+NI

(2)

YA=GB,ATB+NA

(3)

YI=GB,ITB+NI

(4)

(5)

(6)

其中,EA,B是合法终端用户的估计信道增益,EA|B,I是潜在伪装攻击者的估计信道增益

(7)

(8)

(9)

以上假设检验的精度取决于测试阈值λ,如果阈值过高将会使漏检率(MDR)也较高;如果阈值过低则会使误报率(FAR)较高。本文使用强化学习中的Q-learning算法选择合适阈值。

3.2 基于Q-learning的检测算法

Q-learning算法是一种可以在动态环境中利用不充分条件找到最优解的强化学习算法。雾节点根据当前状态St选择合适的阈值λCt来最大化当前收益和ΠCt,其中Ct是一个时隙的时间:

(10)

(11)

(12)

(13)

本文引入基于ε-greedy策略的Q-learning算法,在接收端的每一个状态下有ε的概率会随机选择行动,所以在每一个状态下选择最优行动的概率是1-ε,概率如下:

(14)

在Q-learning中,学习速率决定新信息在多大程度上覆盖旧的信息,即μ∈(0,1)。这是当前第τ个状态阈值为λ时的Q值,即Q(st,λt),其中,st代表第t个状态,λt是在第t个时隙的状态的阈值。折扣因子δ表示对当前奖励的折扣,由δ∈(0,1)表示,其值越大,表明算法越在意当前利益而更少地考虑长远利益。状态st的最大Q函数值由V(st)表示。因此,接收端依据式(15)、式(16)更新其Q值:

Q(st,λt)←(1-μ)Q(st,λt)+μ(ΠCt+δV(st+1))

(15)

(16)

测试阈值的最优值λ*为:

(17)

算法1伪装攻击检测算法

步骤1初始化

初始化ε,δ,Q(st,λ)=0,V(st)=0;

选取阈值,使得∀λ∈(l/L)0≤l≤L;

步骤2当前状态

While ForCt,t=1,2,…,do

当前状态SCt

选择测试阈值λ

For T=1,2,…,20 do

提取训练样本

计算估计信道增益EA,B和EA|B,I

接受该训练样本;

Else

拒绝该训练样本;

步骤3下一状态

下一状态SCt+1

计算Πt;

更新Q(st,λt)和V(st);

4 性能分析

4.1 实验环境

表1 仿真实验用到的参数及其含义

Table 1 Parameter values and significance used in simulation experiments

参数参数含义参数值g0接受合法数据包的收益9g1拒绝非法数据包的收益6c0接受合法数据包的成本4c1拒绝非法数据包的成本2ε策略选择率0.5μ学习效率0.5δ奖励性衰变系数0.8f0/GHz中心频率2.4K伪装者与发送端的信道增益比-3ρ/dB合法发送端发送包的SINR10/20b信道增益相对变化率0.2

由假设检验推得FAR和MDR,可由式(18)、式(19)计算:

(18)

(19)

由此式(16)、式(17)可以定义AER的计算公式如下:

PAER=PFAR(λ)-PMDR(λ)

(20)

4.2 接收端测试阈值

图3为测试阈值随实验次数的增加而变化的情况,其中,实验共测试1 000次。在实验开始阶段,伪装攻击检测算法的测试阈值在进行200次的实验中迅速变化,随后趋于稳定。实验结果表明,利用Q-learning进行伪装攻击检测的最佳阈值约为5.049 8。

图3 测试阈值随实验次数增加的变化情况

Fig.3 Test thresholds changing with increasing number of experiments

4.3 误报率

图4所示为当k=-3时,分别测试ρ=20和ρ=10时误报率随着实验轮数增加的变化情况,其中每一轮更新为20次Q表,即每轮进行20次实验。在攻击者的信道增益与合法用户的信道增益比k相同的情况下,合法训练样本ρ越小,其FAR越低。这是因为信道估计误差随着SINR的减少而减少,信道估计误差直接影响信号量化的质量,从而对后续计算FAR的工作产生较大的影响。对于不同ρ的2条曲线,最低点都出现在x=9,这是由于Q-learning算法在寻找最优阈值的过程中逐步优化阈值。在1轮到9轮实验中,阈值快速改变,因此FAR变化迅速。随着阈值趋近于最优阈值,其图像的斜率越来越小,即FAR变化越来越小。在进行了400次训练后,FAR结果趋于稳定,ρ=20时FAR稳定在0.227左右,较ρ=10时增加了11%左右。

图4 误报率随实验轮数增加的变化情况

Fig.4 False alarm rate changing with increasing number of experimental rounds

4.4 漏报率

图5所示为当k=-3时,分别测试ρ=20和ρ=10时漏报率(MDR)随着实验轮数增加的变化情况,其中每一轮更新20次Q表,即每轮进行20次实验。在攻击者的信道增益与合法用户的信道增益比k相同的情况下,合法训练样本ρ越大,其MDR越低,在不同的情况下,ρ分别有最高点(9,0.291 5)和(9,0.273 3)。这是由于信道估计误差越小,SINR越小,而该值直接影响到信号量化的精度,从而对后续计算MDR的工作产生较大的影响。对于不同ρ的2条曲线,最高点都出现在x=9,这是由于Q-learning算法在寻找最优阈值的过程中逐步调整阈值,在1轮到9轮实验中阈值快速改变,因此MDR变化迅速,随着阈值趋近于最优阈值,MDR变化越来越小。在进行了400次训练后,MDR结果趋于稳定,ρ=20时MDR稳定在0.268 6左右,较ρ=20时减少了约6.6%。

图5 漏报率随实验轮数增加的变化情况

Fig.5 False negative rate changing with the increasing number of experimental rounds

4.5 平均错误率

图6所示为当k=-3时,分别测试ρ=20和ρ=10时平均错误率(AER)随着实验轮数增加的变化情况,其中每一轮更新20次Q表,即每轮进行20次实验。在较低的SINR情况下可以拥有较低的平均错误率。当k=-3,ρ=10时,在400次实验后,平均错误率稳定在0.493 0左右。平均错误率较高是由于:1)在仿真实验前期,信号发生仿真过程中并没有进行详细的仿真,而是采用了生成简单的随机信号生成源和随机噪声生成源的方法,对后续信号处理过程有较大影响;2)对于需要进行分析的信号没有进行足够的预处理,从而使得平均错误率较高。

图6 平均错误率随实验轮数增加的变化情况

Fig.6 Average error rate changing with increasing number of experimental rounds

4.6 接收端收益

图7所示为当k=-3时,分别测试ρ=20和ρ=10时接收端收益随着实验次数增加的变化情况,其中实验共测试1 000次。在攻击者的信道增益与合法用户的信道增益比k相同的情况下,合法训练样本ρ越小,接收端在若干次实验中获得的平均收益越大。在实验进行1 000次时,ρ=10的平均收益值为2.423 6,较ρ=20时的平均收益值高出6.1%。实验结果表明,合法训练样本的SINR越低,获得的实验结果越好。结合上述对于AER的分析,降低合法训练样本的SINR,可以提升伪装攻击检测算法的准确度。

图7 接收端收益随实验次数增加的变化情况

Fig.7 Receiver gain changing with increasing number of experiments

5 结束语

本文通过分析移动雾计算中雾节点与终端用户通信易受到伪装攻击的问题,提出一种利用雾节点与终端用户之间的无线信道特性检测伪装攻击的方法。建立移动雾计算环境下的伪装攻击模型,并在该模型的基础上设计一种基于Q-learning的伪装攻击检测算法,以在动态环境下自主检测并识别伪装攻击。仿真实验结果表明,该算法可以快速地达到稳定的性能输出,并在SINR较低时具有较低的平均错误率。下一步将研究中间人攻击和拒绝服务攻击的攻击方式,以寻找在移动雾计算环境中安全通信的方法。

猜你喜欢

物理层接收端合法
基于K-ML-MPWFRFT的物理层安全传输技术
基于扰动观察法的光通信接收端优化策略
错位缝合法在创意立裁中的应用与研究
顶管接收端脱壳及混凝土浇筑关键技术
基于多接收线圈的无线电能传输系统优化研究
敷设某种吸声材料的声诱饵简化模型隔离度仿真计算
公路联网电子不停车收费系统路侧单元物理层自动测试软件研发
合法外衣下的多重阻挠
找个人来替我怀孕一一代孕该合法吗?
多天线物理层安全传输系统性能分析