APP下载

智能情报获取系统框架研究

2020-09-07中国运载火箭技术研究院研究发展部赵大海

军民两用技术与产品 2020年8期
关键词:情报信息情报数据挖掘

中国运载火箭技术研究院研究发展部 赵大海 郭 晶

一、引言

“知己知彼,百战不殆”,情报信息对战争结果的影响巨大,对于军事情报而言,需要的是高密度、高价值、高可信度的信息。但随着信息技术的飞速发展,各种类型的信息和数据正在呈指数级增长,隐藏在海量数据中有用的信息并没有按相对应的比例增长,导致信息密度不断降低,这使得难以快速、高效、准确地从众多数据中获取需要的军事情报[1]。如何利用现有的人工智能技术解决这一难题,成为了目前的研究热点。

二、问题分析

情报信息获取可以分为情报信息的搜集、处理、形成3个部分。在第二次世界大战之前,情报信息的搜集主要依靠情报人员的现场搜集和对敌人电台的接听获取。随着互联网等信息技术的飞速发展,作战指挥通信及信息的传播方式更加多样。目前,在情报搜集过程中,面临的困难主要是搜集渠道多维化、信息冗余、获取效率低;情报处理面临的困难主要是技术瓶颈和多种技术集成难的问题。信息处理后会形成初步的情报信息,但是信息的可信度、准确度往往无法保证,且在真实作战过程中,还散布着一些虚假信息。这时,就需要依靠经验知识和专业知识,进行情报信息的筛选、提炼和深化总结。此外,在情报获取的过程中,需要对信息和数据进行操作,因此信息存储技术至关重要,但情报信息数据量大和格式复杂的特点,又给信息的存储造成了较大的困难。综上,只有针对性地解决上述问题和困难,才能在未来信息化作战中高效、智能地获取高质量、高可靠性的军事情报。情报信息获取框架图如图1所示。

图1 情报信息获取框架图

三、模型框架

为解决军事情报难以获取的问题,本研究构建了TPI&I模型。TPI&I模型借鉴IEI@I方法论和系统工程方法论,主要基于“文本挖掘(Text Mining)+人(People)+智能技术(Intelligence)& 集成技术(Integration)”构建而成[2],其中,“&”强调是一种非叠加性的集成。本研究采用“先分解后集成的思想”,首先将军事情报获取渠道分为网络和现实2个部分,借助文本挖掘技术快速获取互联网等虚拟空间中的有用信息,通过情报人员获取现实生活中的有用信息;其次,通过数据挖掘技术,分析获取信息之间的关联关系及更深层次有价值的信息;再次,通过其他人工智能技术解决情报获取过程中遇到的问题,例如,利用密码学进行密码破译、区块链技术解决加密信息处理等问题。此外,还通过专家系统,对处理后的情报信息进行推理。最后,利用集成技术将上述分解的各个分系统结果综合集成起来,情报专家结合专家系统推理输出的结果和各阶段所获得的情报信息总结得到高质量的情报信息,并进行军事行动预测等后续操作。TPI&I模型的理论框架如图2所示。

四、TPI&I模型的建立

如图2所示,TPI&I模型主要分为8个模块,即:数据管理模块、Hadoop(一种分布式系统架构)集群模块、文本挖掘模块、数据挖掘模块、其他AI技术模块、其他信息模块、输出模块、人机交互模块。

(一)数据管理模块

数据管理模块是TDP&I模型的重要组成部分,模型中的每个模块都与其有着交互关系。数据管理模块包括传统数据库、Hive(一种基于Hadoop的数据仓库工具)、HBase(一种开源的分布式数据库)所构成的模型库、图片库、视频库等与情报搜集处理相关的数据库。

图2 TPI&I模型的理论框架

传统数据库与具体的应用服务连接,可以用来存储情报人员搜集到的情报信息,并为其他应用提供数据的支撑服务;Hive和HBase存储容量大,查询和处理速度比传统数据库快,用来存储各类模型及文本挖掘、数据挖掘、附加信息处理得到的结构化、非结构化数据,以及各种人工智能模型、算法数据集。调整引擎可以辅助Hive、HBase与传统数据库进行数据交换处理,并对各类模型、算法、数据集进行更新操作。

(二)Hadoop集群模块

Hadoop集群模块主要由Hadoop分布式文件系统(HDFS)分布式文件系统、MapReduce(一种编程模型)分布式计算引擎、Zookeeper(一种开放源码的分布式应用程序协调服务)组成,但可根据实际需要添加Hadoop生态系统中的其他技术[3]。HDFS能够较好地保证数据的可用性、完整性、一致性,并具备高吞吐量、高可靠性和高容错性的优点。允许用户将数据存储在群集中的多个节点或机器上,并允许多个用户访问数据。MapReduce分布式计算引擎采用主/从(Master/Slave)结构,可以有效处理大规模数据集的并行计算。Zookeeper是针对大型分布式系统的高可靠的协调系统,能够辅助HBase集群的运行,可以为用户提供配置、命名、分组、管理等服务。

(三)文本挖掘模块

文本挖掘模块主要是针对难以量化表示的文本信息进行挖掘,以及除数据库外的Web文本信息的挖掘。文本挖掘模块利用智能算法进行可能性推理,并结合文字处理、语义识别等技术,分析海量的网络非结构化文本,根据情报人员提供的关键字等信息,标记各文本间的关系,并按照文本内容分类获取有用的知识和信 息[4]。文本挖掘模块的具体实施流程如图3所示。

图3 文本挖掘流程示意图

1. 文本预处理

原始文本及网络文本格式多样、信息量巨大,且格式不规范、内容不完整、重复无效的信息会降低文本挖掘的效率并影响文本挖掘结果的准确度。为了降低这些因素的不良影响,在进行正式文本挖掘前对目标文本进行降噪处理具有重要 意义[5]。文本预处理主要包括去标记、分词、去停用词、关键词提取等4个主要步骤。

文本分词之后,因为不是所有的词都有意义,且基于向量空间模型的文本表示会造成数据密度较小,因此需要进行去停用词和关键词提取操作。关键词提取时,需要根据不同关键词在对应文章中所占比重进行比较,设关键词ti相对于文章dj权重值为wij,计算公式如下:

式中,fij为词频,表示词条ti在其所在文章dj中出现的次数,为逆向文本频率,表示词的区分度;n表示文本集合D中包含的文档数;ni表示包含词条ti的文件数。

由于词频fij与文章篇幅长度呈正相关,因此,文本越长计算所得权重值越大,为了避免该原因造成误差,需针对文本长度进行规范化处理,见下式:

2. 文本表示

计算机无法处理普通的文本数据,因此需要借助文本表示将其转换为计算机能够读取处理的语言以获得初始的文本特征集。目前,常用的文本表示模型有2种,分别为布尔模型和向量空间模型。布尔模型以布尔代数和集合论为基础,形式简单、可读性强,其缺点是模型表达准确度和完整性较差。向量空间模型通过特征向量进行文本表示,特征向量由文本中不同词条所表示的特征项组成,而文本空间则可以看作是向量空间,每个文档都可以映射为向量空间中的一个点。

3. 特征筛选

特征筛选由特征降维和特征加权两部分组成。特征降维的目的是为了将数据多、分布密度小的高维文本特征集映射到低维空间,以方便后续文本挖掘的应用,采用的方法一般为归纳合并或学习算法。特征加权则是以某种既定的标准为所有特征项赋权值,从而最大化文档特性。

4. 文本建模

文本建模是文本挖掘的重要环节,其可以有效促进后续知识发现、趋势判断、可视化表示。此外,如果想将获得的情报信息如人员、地名、时间等关联到具体的军事行动等事件上还需要运用网络爬 虫技术[6]。网络爬虫工作原理如图4所示。

图4 网络爬虫工作原理图

从图4可以看出,传统网络爬虫的流程为从初始URL队列中标注的地址链接开始,按照预先设定的规则对新的页面中包含的URL进行提取,并在本地形成镜像备份存入爬虫数据库,并通过新的URL访问新的页面进行对应的操作。TPI&I模型借助主题爬虫,在传统爬虫的基础上根据主题策略,进行页面主题相关度的识别,并对相关页面进行综合评估排序,得到最终页面信息。主题爬虫极大地提高了数据采集效率,降低了系统资源的浪费。

(四)数据挖掘模块

数据挖掘模块包括数据准备、数据预处理、数据挖掘、结果输出等4个步骤。数据准备阶段需要根据实际需要选择数据库来确定数据来源,并在执行过程中完成数据抽取工作[7]。数据预处理包括数据清洗、数据集成。具体的执行过程则需要根据用户定义的规则来实现。在数据挖掘过程中,需要根据实际需要,运用各种类型的数据挖掘算法对经过预处理的数据执行挖掘算法,经常使用的数据挖掘算法有神经网络、回归分析、支持向量机、聚类分析等。最后,该系统将数据挖掘结果输出给专家系统和情报人员,以供进一步的分析处理。

(五)其他AI技术模块

其他AI技术模块包括密码学技术、信息安全技术、区块链技术等,主要用于解决阻碍情报获取和研究的相关问题。例如,密码学技术用于敌方密码的破译,以支撑情报信息的获取和分析;信息安全技术用于对敌方信息系统进行攻击以获取信息;区块链技术用于己方情报信息的保密传输,以及对敌方涉及区块链传输信息的破解。

(六)现实信息模块

现实信息模块指的是现实世界情报信息的获取,主要通过情报人员的现场采集,以及侦察机、卫星等侦查工具的信息采集得以实现。获取到的信息包括文字、图片、视频、音频等多种格式信息,都通过人机交互模块存储在相对应的数据库中,等待信息的处理。

(七)输出模块

输出模块包含专家系统和情报专家两部分。专家系统是一种智能计算机程序系统,其内部含有丰富的特定领域专家水平的知识与经验,构成了经验库,使得人们能够利用专家的知识和解决问题的方法处理各个领域的问题,以弥补纯机器系统的不足[8],其结构如图5所示。专家系统以条件判断语句“If-Then”的形式将情报专家的经验知识集成起来,对其他各系统的输出结果进行分析,并将分析结果输出传递给情报专家。情报专家结合其他各模块输出的信息进行综合分析决策,并形成高质量的情报信息,同时根据情报信息,形成对应的预测结果,为上层决策者提供智库支撑。

图5 专家系统结构图

(八)人机交互模块

人机交互模块是用户与TPI&I模型构成的系统进行信息交互的窗口,负责各个模块与用户的信息输入/输出,方便用户的操作。

五、总 结

随着世界各军事强国科技水平的不断提高,未来作战取胜的关键不单单取决于武器装备的先进程度和部队的作战能力,还有情报信息的获取和利用能力。随着我军信息化建设的推进,建设智能高效的情报获取系统的必要性越发突显。本研究根据情报获取的步骤进行问题分解,运用多种技术进行解决,最后综合集成提出了TPI&I模型。该模型能够提高复杂多维军事情报的信息提取效率,提升军事情报信息的获取和利用能力,在战场态势感知、作战决策指挥等方面具有良好的应用前景,有利于信息化、体系化作战场景下作战效能的提升。

猜你喜欢

情报信息情报数据挖掘
情报
情报
改进支持向量机在特征数据挖掘中的智能应用
情报
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
图书馆情报信息服务的创新发展
软件工程领域中的异常数据挖掘算法
对公安情报信息意识的思考
图书馆情报信息服务的创新发展