APP下载

基于TF-IDF 分类算法的电磁态势情报分发

2022-10-24张明阳刘盼盼文申平

航天电子对抗 2022年4期
关键词:态势电磁感兴趣

张明阳,刘盼盼,文申平

(1.电子信息控制重点实验室,四川 成都 610036;2.中国人民解放军 91878 部队,广东 湛江 524000)

0 引言

随着电子信息技术的飞速发展,各种电子侦察传感器大量部署于沿海周边、机舰平台,使得战场电磁态势情报的感知手段空前丰富,同时由于电子对抗信息系统的多样性和复杂性,战场电磁态势情报的信息量呈现爆炸式增长。一体化联合作战中,战场电磁态势的监控和各类电子对抗行动都离不开来自陆海空天立体多维的电磁态势情报保障。因此如何从海量的电磁态势情报信息中,根据各类电磁态势情报用户的情报保障需求,进行情报个性化推荐,实现“无电不战、无电不胜”的目标,是未来战场致胜的关键。

目前国内外电磁态势情报分发的主要方法是基于中心的顺序匹配法,分为自动匹配分发和人工手动分发。自动匹配的策略比较粗放,一般是电磁情报处理中心设置策略,满足策略要求的电磁态势情报进行自动分发,不满足要求的不发送,对特殊的电磁态势情报可以进行手动上报。该方法缺点比较明显,主要体现在不主动采集情报用户节点的数据要求,没有分析各类情报用户节点的保障要求,难以实现有效保障。本文提出基于词频-逆文件频率(TF-IDF)分类算法的电磁态势情报分发方法,实现电磁态势情报的推荐分发,满足情报分发灵活性要求。

1 TF-IDF 分类算法

TF-IDF 分类算法是一种用于咨询检索与咨询探勘的常用加权技术。TF-IDF 是一种统计方法,用以评估单个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。也就是说一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章。其基本思想是将文档表示为1个空间向量,向量的每一维由文档中的词语i及其权重w组成,故相似内容的文档有相似的向量。每个词语的权重w为:

式中,词频(i,)指词语的频率,表明词语i出现在文档中的次数,以词语在文档中出现的频率表明词语的重要性,如词语在文档中出现次数越多则越重要;逆文档频率(i)指词语出现在其他文档的频率,以此权衡词语的重要性。当词语出现在其他许多文档中时,则表明其代表性较低;反之,如只出现在少数文档中,则表明词语对文档本身具有较高代表性。||为文档的总数量;(i)为文档频率,是词语i在文档中至少出现1 次的文档数目。

该方法先将属于同一类的所有文档向量归为一类,每个类具有表达自身兴趣的特征向量,再计算文档和特征向量的相似度。该相似度最大类向量所属类即为文档类别。

2 电磁态势情报用户的层次向量空间表示

用户兴趣模型是个性化推荐技术的基础和核心,是个性化推荐系统的主要知识源。它的工作原理是:以用户为主体,按照用户的兴趣与需求,分别为每个用户推荐其感兴趣的资源。所以用户兴趣模型的质量直接关系到个性化推荐服务的质量,也就是推荐给情报用户情报的质量。

向量空间模型是大多数个性化推荐系统中采用的一种用户兴趣模型表示方式,它将用户兴趣模型表示 为 一 个维 的 特 征 向 量[(,),(,),…,(tw)],向量的每一个元素都是由关键词t和它对应的权重w组成,分别表示了用户是否对某个关键词感兴趣和对它感兴趣的程度。

考虑到电磁态势情报用户多样性的特点,对用户兴趣进行分类划分,根据电磁态势情报的格式化特征,可分为平台类型、敌我属性、国家地区、目标型号、平台型号、工作参数、位置和方位等,使用户兴趣模型中的用户兴趣是分类,减少不同类别的兴趣特征之间不均匀分布产生的干扰,提高电磁态势情报分发的精确度。因此,在向量空间模型的基础上,提出一种表征电磁态势情报用户兴趣的层次向量空间模型,它能有效地和充分地描述情报用户多个方面的、多种兴趣的特征。

电磁态势情报用户层次向量空间兴趣模型采用了树状结构,将用户的兴趣按不同的属性进行划分,每一个属性又由此属性下感兴趣的多个关键词组成的空间向量表示。所以,电磁态势情报用户层次向量空间兴趣模型如图1所示,它是三层的树状结构,第一层表示电磁态势情报用户,第二层表示电磁态势情报用户的兴趣属性,第三层表示用户在该属性下的兴趣词条。基于层次向量空间的用户兴趣模型可表达为如下特征向量:

图1 电磁态势情报用户3 层向量空间模型

式中,I为情报用户的第类兴趣属性。

I属性可以表示为:

式中,(iQ)为I类属性的第个兴趣约束,i为 第个关键词,Q为关键词的i权重。

3 基于TF-IDF 的电磁态势情报保障分发

3.1 电磁态势情报用户兴趣模型建立

利用电磁态势情报用户的定制信息和历史情报,通过TF-IDF 分类算法,建立情报用户的兴趣模型,对于不满足用户定制要求的情报,利用兴趣模型,判断用户的感兴趣程度,如果用户感兴趣程度较高,则将该情报推送给用户。

该算法的关键是要解决关键词权重的计算问题,通过统计目标用户关键词i在历史情报中出现的频数(i)和计算它在所有用户定制信息中的逆文档频率(i),可求得每一个关键词的权重。权重w的计算式如下:

关键词i的权重w越大,说明用户对其感兴趣的程度越强;关键词i的权重w越小,说明用户对其感兴趣的程度越弱。

频数(i)是关键词i在历史情报中出现的次数,它反映用户对关键词i的感兴趣程度。关键词i在历史情报中出现的次数(i)越多,则用户对它的感兴趣程度就越大,反之则小。

逆文档频率(i)反映关键词i在区分目标用户时的强度。若所有用户中包含关键词i的定制信息的数量越多,关键词i区分目标用户时的作用强度越小,那么(i)的值就越小;反之则大。当且仅当目标用户的定制信息中包括关键词i时,(i)的值达到最大。(i)的计算式为:

式中,||为定制信息的总数量,若情报中心有个用户,则取所有个用户的最新定制信息,此时,||=。(i)是定制信息中包含了关键词i的定制信息的数量。将达到一定阈值的权重所对应的关键词作为用户感兴趣的关键词。

建立用户兴趣模型的具体步骤如下:

步骤1:计算关键词i在历史电磁态势情报中出现的次数(i)。

步骤2:计算关键词在电磁态势情报定制信息间的逆文档频率(i)。

步骤3:计算关键词i的权重w

步骤4:用户兴趣模型的建立。在用户的类兴趣属性中,每一类都有一个阈值,它们构成一个阈值组={,,…,a}。计算出每个关键词i的权重w后,若权重wa,则关键词为用户感兴趣的关键词,与之对应的关键词条(iw)为电磁态势情报用户感兴趣的关键词条,电磁态势情报用户层次向量空间兴趣模型就是由这些用户感兴趣的关键词条组成。

3.2 电磁态势情报分发

建立上述电磁情报用户的兴趣模型后,基于TF-IDF 分类算法的电磁态势情报分发的步骤如下:

1)分析用户兴趣模型。利用用户的历史情报信息和定制信息,通过TF-IDF 分类算法,建立用户的层次向量空间模型,挖掘出用户感兴趣情报的信息。

2)电磁态势情报匹配推送。将情报与用户订阅信息进行顺序匹配,匹配成功则主动推送,匹配不成功进行步骤3)。

3)电磁态势情报推荐推送。将情报同用户兴趣模型进行匹配计算,当情报的每一个关键词都是用户感兴趣的关键词的时候,认为该情报是用户感兴趣的情报,并将其推送给用户,否则不予推荐。

分发流程如图2 所示。

图2 基于TF-IDF 的电磁态势情报分发流程

4 实验与分析

4.1 实验数据与步骤

模拟电磁态势情报用户提交的定制信息和目标情报用户的电磁态势情报信息。利用所有用户提交的定制信息和目标用户的电磁态势情报信息,根据TF-IDF 分类算法建立目标用户的电磁态势情报用户层次向量空间兴趣模型,通过实时情报与用户兴趣模型的匹配运算,推送用户感兴趣的情报,不推送用户不感兴趣的情报。然后对分发给用户的情报进行分析,计算情报分发的准确率和覆盖率,在保证覆盖率不低于100%的前提下,通过调整情报窗口和感兴趣权重的大小观察准确率的变化情况。

4.2 性能评价指标

以覆盖率(recall)和准确率(precision)这2 个指标来评价基于TF-IDF 情报用户兴趣模型的情报分发算法的性能。根据文献[7-8]对个性化推荐系统的评价方法研究,分类准确度定义为推荐算法对一个产品用户是否感兴趣判定正确的比例,覆盖率和准确率是分类准确度的2 个指标。

覆盖率定义为正确推送的情报数目与应该推送的情报数目的比例,反映了系统识别用户兴趣的正确程度。

式中,为已推送的正确情报数,为应该推送的情报数。

准确率定义为正确推送的情报数目与推送的情报总数的比值,反映了系统对用户兴趣不相关情报的排斥能力。

当情报分发的任务完成后,计算推荐情报的准确率如下:

式中,为已推送的正确情报数,为推送的情报总数。

4.3 试验结果与分析

利用C++模拟20 个电磁态势情报用户的定制信息,随机生成订阅信息,确保每个用户能够收到2 000 批电磁态势情报,利用历史情报和订阅信息形成用户的TF 和IDF 值,再模拟10 000 批电磁态势情报向上述20 个用户发送。设定权重统一为=70%,针对模拟的电磁态势情报信息,在不同情报窗口大小下1 号用户和17 号用户的推送准确率如图3 所示。情报窗口分别是[500,1 000,1 500,2 000]。

图3 情报窗口大小与推送准确率关系

设定情报窗口大小为2 000,针对模拟的电磁态势情报信息,在不同门限大小下1 号用户和17 号用户的推送准确率如图4 所示。门限大小分别是[0.1,0.3,0.5,0.7,0.9]。

图4 门限大小与推送准确率关系

从上述结果可以看出,当门限为0.7、情报窗口大于1 000 时,可以保证推送的情报准确率较高且有一定冗余度;情报窗口大小为2 000 时,门限设置在0.7 附近,可以保证推送的情报准确率较高且有一定冗余度。

5 结束语

本文针对电磁态势情报分发不灵活的问题,提出了基于个性化推荐的过滤电磁态势情报技术,并根据电磁态势情报用户兴趣多样性和电磁态势情报的格式化特征,提出了用户层次向量空间兴趣模型,在此基础上利用用户历史情报信息和定制信息,实现了基于TF-IDF 分类算法的电磁态势情报分发。该方法可以较好地满足电磁态势情报推荐分发的需求。

猜你喜欢

态势电磁感兴趣
江苏巩固拓展高质量发展开放型经济的新态势
军用电磁屏蔽方舱的电磁屏蔽效能测试研究
网络安全态势感知关键技术研究
对自己感兴趣
2019年12月与11月相比汽车产销延续了增长态势
电磁频谱战在悄然无息中激烈展开
编读往来
现在是几点
5月份工业经济运行态势良好