软信息的概率特征关联算法

2017-03-08马宇舸寇晓淮林家骏

华东理工大学学报(自然科学版) 2017年1期

关键词：特征词态势词典

马宇舸, 程华, 寇晓淮, 林家骏

(华东理工大学信息科学与工程学院,上海 200237)

软信息的概率特征关联算法

马宇舸, 程华, 寇晓淮, 林家骏

(华东理工大学信息科学与工程学院,上海 200237)

基于软信息的新闻事件态势估计中,事件当前态势的准确估计需融合事件的长期态势。以长期词典作为事件长期态势的特征表达,提出了软信息的长期特征与当前特征关联融合的概率特征关联算法。由事件的长期信息抽取得到长期词典,基于特征词相似度将长期特征与当前特征进行概率关联,得到事件的全特征表达,并提出了特征的长期关联度指标与类别关联度指标评估概率特征关联算法的有效性。实验结果表明,概率特征关联算法能够有效地融合长期态势,提升事件当前态势的估计精度。

软信息; 长期词典; 概率特征关联; 态势估计

在线新闻信息通过公共事件的直观报道,直接反映事件的当前态势,例如“911”事件中,美国新闻媒体的报道反映了白宫对该事件的判断,对在线新闻报道的分析可以为决策提供可靠的事件态势估计。这类在线新闻信息来自人类观察,相对于传统的雷达测量信息,难以直接测量,计算机不能直接理解,称为软信息(Soft Information)[1-2]。对这类非结构化或半结构化的信息处理与融合是信息融合领域新的研究热点和挑战。相关研究有Pang[3]的文档级情感极性分析、Agarwal[4]的微博级情感极性分析等,通过不同细粒度的情感分析进行事件的态势估计。

传统的目标跟踪算法、PDA等数据关联将传感器获得的观测数据与已知目标航迹相关联并最后确定正确的观测配对。软信息融合中也需要通过数据关联实现多源融合估计。Llinas等[5]提出了基于图形法的数据关联算法;Hannigan等[6]以属性图的方式对软信息进行数据关联;Little等[7]提出了基于本体模型的增强型图匹配算法;Gross等[8]提出了评价软信息关联算法的指标。上述关联算法通常只对软信息中的事件要素,如人物、时间、目的地等设置为图节点的要素进行关联,未考虑多个软信息文本中语义信息的关联。

本文基于软信息特征词项研究多文本语义层面的数据关联,通过软信息的特征词项相似性完成事件长期特征(长期词典中抽取)与当前报道特征的概率关联。实验表明，概率特征关联算法能有效地关联长期特征与当前特征,使融合后的特征能更准确地表达软信息的语义,从而提升软传感器模型[9-10]对事件态势估计的融合效果。

1 软信息特征提取

1.1 软信息的结构化表示

软信息(文本)的结构化采用向量空间模型VSM[11],向量空间模型是目前最基本、最有效的文本表示模型,在特征向量空间将文本表示为特征词项的加权向量,即通过文本中n个特征词项CFt={cwt,1,cwt,2,cwt,3，…，cwt,n}将文本表示为特征词项的权重向量CVt={cvt,1,cvt,2,cvt,3，…，cvt,n},其中权重计算采用TF-IDF方法[11]。TF-IDF算法采用统计方法计算和表达某个词或短语在文本中的重要程度,TF-IDF由TF(TermFrequency,词频)与IDF(InverseDocumentFrequency,逆向文档频率)两部分组成,若某个词或短语在一篇文本中出现频率高,即TF值大,且在其他文本中很少出现,即IDF小,则认为此词或者短语在文本中是较为重要特征词项,TF-IDF权重的计算方式为

cvt,i=tfilg(M/ni+0.01)

(1)

其中:tfi为特征词项cwt,i在软信息文本中出现次数;M表示数据集中软信息文本的总数;ni表示含有该特征词项的软信息文本数。

由此,通过n个特征词项,将一个包含M篇软信息的数据集表示成了一个n×M特征矩阵。

1.2 软信息的长期词典抽取

Endsley态势估计功能模型[12]认为态势估计为高层次的数据融合,先验知识为融合中的原有态势估计的修正提供了可靠的依据。对于某个新闻事件,定义从发生时刻到当前时间累积的所有新闻形式为该事件的长期信息,是其态势评估的来源,本文采用其中的文本类新闻报道作为软信息关联融合的长期信息。基于软信息文本的结构化表示,本文提出长期词典法获取事件长期信息中的长期态势,即在VSM空间下抽取长期信息的文本特征权重向量(特征词项权重向量),并取主要特征词项权重向量构造软信息的长期词典,作为用于关联融合的事件长期态势向量。

特征词项在长期词典中的权重表达了该特征词项在事件长期态势中的重要性及相关性。设t时刻长期词典LDt={lwt,1,lwt,2,lwt,3，…，lwt,q},其对应的TF-IDF权重向量表示为LVt={lvt,1,lvt,2,lvt,3，…，lvt,q},其中特征词项lwt,i对应的权重为lvt,i。

根据统计学习方法的理论,文本内容与其中所包含的词、短语等特征词项有着必然的联系,同一主题的文本之间总存在多个共同的特征词项,而不同主题的文本所包含的特征词项之间差异较大。将长期信息当作特征词项集合,特征词项的权值反映了其反映软信息主题的程度,因此长期词典的特征词项向量对事件长期发展态势进行了有效表示。

2 线性加权特征关联算法LFA

事件当前特征定义为从即时获得的事件文本中采取软信息结构化得到的特征词项,即t时刻当前特征集合CFt={cwt,1,cwt,2,cwt,3，…，cwt,n},对应的TF-IDF权重向量CVt={cvt,1,cvt,2,cvt,3，…，cvt,n};长期词典LDt={lwt,1,lwt,2,lwt,3，…，lwt,q},对应的TF-IDF权重向量LVt={lvt,1,lvt,2,lvt,3，…，lvt,q}。

基于事件长期特征和当前特征的表达形式的一致性,本文提出线性加权特征关联算法,即采用线性加权方法实现当前特征重新组合与调整,当前特征权重按比例融合长期特征权重,反映当前软信息受到事件长期态势的影响。

定义当前特征集合CFt与长期词典LDt的交集为长期特征集合conFt,即

conFt=CFt∩LDt

(2)

权重向量conCVt由CFt中对应长期特征词项的权重构成,conLVt由LDt中对应长期特征词项的权重构成。

当前特征集合CFt中剩下的特征词项构成新特征集合newFt,即

newFt=CFt-CFt∩LDt

(3)

newFt所对应的权重向量newVt由CVt中对应新特征词项的权重构成。

长期特征集合conFt中特征词项的个数反映了当前软信息文本与长期态势的符合程度,个数越多则当前态势的发展越符合长期态势,长期特征权重以较大比例融合到当前特征权重中;反之,长期特征权重以较小比例融合到当前特征权重中。因此,基于长期特征集合conFt的权重向量conVt的调整方式为

(4)

最后将newVt与conVt重新拼接得到CFt对应的新的权重向量Vt,将此权重向量用于软传感器模型[9-10]，得到当前事件的态势融合估计。

3 概率特征关联算法PFA

3.1 概述

线性加权特征关联算法只将长期词典与当前特征中的相同特征词项进行关联,忽略了长期词典中当前特征同义词的影响。本文提出以特征词项的相似度为基础,采取概率特征关联实现长期特征与当前特征的融合。

3.2 关联门的设置

关联门利用词的相似性算法过滤掉门限外与当前特征无关的特征词项,实现长期词典的门限过滤,限制长期词典中无关长期特征对当前特征的影响。

若t时刻当前特征集合CFt与长期词典LDt重合特征较多,事件的当前态势特征在较大程度上符合长期态势,长期特征对当前特征的实际状态产生影响大,应当设置较大的关联门;反之,当前特征集合CFt与长期词典LDt重合特征较少,出现较多新特征,当前软信息文本反映了新事件动态,长期态势不能有效地反映当前事件态势的发展,此时需设置较小的关联门,减小长期词典对当前特征权值的影响。当t时刻当前特征集合为CFt={cwt,1,cwt,2,cwt,3,…,cwt,n}时,针对当前特征词项cwt,i,设置以cwt,i为中心的圆型关联门,关联门半径Rt为

(5)

(6)

其对应的权重向量LCVt,i由CFt中对应长期特征词项的权重构成。

3.3 基于word2vec的词向量训练

采用word2vec训练得到的词向量计算特征词项之间的相似性。word2vec的语言模型采用没有大量的矩阵乘法运算的Skip-gram模型[13],Skip-gram模型利用当前词的词向量预测指定窗口上下文的词向量。对于训练语料V,Skip-gram模型的目标函数为[13]

(7)

(8)

其中:参数c决定上下文窗口大小;Context(w)由w前后各c个词构成。

word2vec网络的输出层采用基于二叉哈夫曼树表示的层次softmax算法,将时间复杂度降到O(log2(|V|))。层次softmax算法定义的p(u|w)如下[13]:

(9)

其中:

(10)

训练过程采用随机梯度下降方法,得到词的词向量表示形式vec(cwx,y)。

3.4 概率特征关联

(11)

关联门内的每个长期特征都能对当前特征产生影响,但每个长期特征产生影响的程度不同,因此,基于关联门内的长期特征,通过关联概率计算得到当前特征的最优特征权值为

(12)

最后,得到CFt对应的最优当前特征权值向量Vt,将此权重向量用于软传感器模型,得到当前事件的态势融合估计。

概率关联算法流程如下:

输入: 当前特征CFt,长期词典LDt

计算关联门半径Rt

Foreachfeature1inCFt

Foreachfeature2inLDt

similar(feature1,feature2)

ifsimilar(feature1,feature2)≥1-Rt

更新落入关联门内的特征LCFt,i.add(feature2)

计算关联门内所有特征的关联概率

计算当前特征的最优特征权值

输出:最优当前特征权值向量

4 关联指标

本文提出了以下两个关联指标,并对线性加权特征关联算法与概率特征关联算法的有效性进行评估。

(1) 长期关联度。将当前特征集合CFt中被调节的特征词项个数与CFt所有特征词项个数之比称为长期关联度DegreeL,C,t,以此来衡量关联算法中长期态势与当前特征的关联程度,计算公式为

(13)

式中,LCFt,i为特征词项cwt,i关联门内的特征集合。

(2) 类别关联度。定义类别关联度来衡量关联算法对特征词项类别的关联效果。将具有情感极性的特征词项分类为紧张类与缓和类,当前特征集合与长期词典中分别用CFt,N、CFt,P与LDt,N、LDt,P表示;cwt,i关联门内的特征集合为LCFt,i也可分为两类LCFt,i,N、LCFt,i,P。将LDt,N中被当前特征集合CFt关联到的特征词项个数与LDt,N的特征词项总数之比称为趋势紧张类关联度,即

(14)

同理可以定义趋势缓和类关联度:

(15)

5 实验与分析

5.1 概述

本文将描述事件发展的开源新闻文本信息作为软信息,为了验证概率特征关联算法的有效性,以钓鱼岛事件为例,根据报道时间先后从新浪网、凤凰网等新闻网站抓取了从2012年7月到2012年8月这62天664条描述钓鱼岛事件的新闻数据,构成实验数据集。

5.2 关联算法评估

采用长期关联度指标与类别关联度关联指标对线性加权特征关联与概率特征关联算法的有效性进行评估。8月1日至16日长期关联度对比结果如图1所示,其中8月6日到8月15日发生了“香港部分人员组织强登钓鱼岛”、“日本购买钓鱼岛”等事件。由图1可知:

(1) 在8月6日钓鱼岛事件有新动态时,两个算法的长期关联度均下降,当前特征引入新特征词项,PFA算法关联窗变小,用于特征关联的当前特征词项也减少,但LFA算法受长期态势影响的词更少。

(2) 对于特定的特征词项,LFA算法只考虑了长期词典中的同一特征词项对当前特征项的影响,忽略了长期词典中该特征词项的同义词影响,而PFA算法通过关联门内界定了所有可能的长期特征,由图1可知该类同义词对态势估计产生了较大的影响。

8月1日至16日趋势紧张类关联度对比、趋势缓和类关联度对比如图2、图3所示。由图2、图3可知:在事件态势紧张及缓和的分类下,两个算法都能够关联到长期词典中对应类特征集合。PFA算法在8月6日事件态势紧张时趋势紧张类的关联度上升,趋势缓和类的关联度下降,原因是当前特征中趋势紧张类的特征词项比例增高而趋势缓和类的特征词项相对减少。而LFA算法受长期态势影响的特征词项太少,算法也关联部分特征词,但没有PFA算法关联的效果明显。

图1 线性加权特征关联算法与概率特征关联算法长期关联度对比

图2 线性加权特征关联算法与概率特征关联算法趋势紧张类关联度对比

图3 线性加权特征关联算法与概率特征关联算法趋势缓和类关联度对比

5.3 软信息分类实验结果

采用软传感器模型对钓鱼岛事件的软信息进行态势估计,其中重要步骤为软信息的缓和与紧张分类,分类的实验结果见表1。

从表1可以看出,LFA算法与PFA算法都对软传感器的分类结果产生了一定的影响,均提高了各类别上的查全率、查准率及F1测试值,表明这两个算法有效地提升了文本软信息的分类效果,从而确保软信息融合精度的提高。实验结果还表明,PFA算法对分类效果提升更高,即通过概率特征关联算法能更好地与事件长期特征相关联。

5.4 态势估计结果及分析

采用软传感器模型对钓鱼岛事件进行态势估计,其中分别采用LFA与PFA算法关联的结果进行态势的融合估计,8月1日至16日融合估计结果如图4所示。

表1 情报文本分类实验结果

8月6日至14日期间,发生了“香港部分人员组织强登钓鱼岛”、“日本购买钓鱼岛”等事件,局势趋于紧张。此前(8月1日至5日),未发生特别事件,事件态势处于缓和状态,而在8月6日态势直接出现拐点,由图4可以识别出事件的转折点。

由图4可知,8月6日PFA算法得到的态势估计值为0.59,远小于LFA算法得到的值0.71;8月7日PFA算法的态势估计值为0.67,小于LFA算法的值0.72。其中,PFA算法将长期态势特征与当前特征进行了更大范围的关联,对当前特征权重有效地调节,长期态势的引入使图4中态势曲线变化更平缓。显然,此态势曲线更符合整个钓鱼岛态势发展状态。

图4 8月1日至16日的态势融合估计结果

6 结束语

本文根据事件的长期信息抽取得到表达其特征的长期词典,提出软信息的概率特征关联算法将长期特征与当前软信息特征进行数据关联,并通过软传感器模型对实验和实际案例进行态势估计,验证了概率特征关联算法能有效地将长期态势引入软信息的融合估计中,为决策提供可靠的态势估计。随着事件的发展,描述事件的软信息逐渐累积,怎样挖掘更深层次的历史信息指导事件当前的态势估计将成为下一步研究重点。

[1]KHALEGHI B,KHAMIS A,KARRAY F O,etal.Multisensor data fusion:A review of the state-of-the-art[J].Information Fusion,2013,14(1):28-44.

[2]LLINAS J.New challenges for defining information fusion requirements[C]//International Workshop on Information Fusion & Geographical Information Systems-IF&GIS’07.Petersburg,Russia:Springer,2007:1-17.

[3]PANG B,LEE L.Opinionmining and sentiment analysis[J].Foundations & Trends®in Information Retrieval,2008,2(1/2):1-135.

[4]AGARWAL A,XIE B,VOVSHA I,etal.Sentiment analysis of Twitter data[C]//The Workshop on Languages in Social Media.Stroudsburg,USA:Association for Computational Linguistics,2011:30-38.

[5]BLASCH E,LLINAS J,LAMBERT D,etal.High level information fusion developments,issues,and grand challenges:Fusion 2010 panel discussion[C]//2010 13th Conference on Information Fusion.Edinburgh:IEEE,2010:1-8.

[6]HANNIGAN M,MCMASTER D,LLINAS J,etal.Data association and soft data streams[C]//2011 13th Conference on Information Fusion.Edinburgh:IEEE,2011:1-8.

[7]LITTLE E,SAMBHOOS K,LLINAS J.Enhancing graph matching techniques with ontologies[C]//International Conference on Information Fusion.Cologne:IEEE,2008:1-8.

[8]GROSS G,DATE K,SCHLEGEL D R,etal.Systemic test and evaluation of a hard+soft information fusion framework:Challenges and current approaches[C]//2014 17th International Conference on Information Fusion (FUSION).Cologne:IEEE,2014:1-8.

[9]顾奕哲.基于VSM模型的文档表示和贝叶斯网络的软传感器研究[D].上海:华东理工大学,2014.

[10]顾奕哲,林家骏.基于软信息的结构化转换[J].华东理工大学学报(自然科学版),2014,40(5):631-638.

[11]WU H C,LUK R W P,WONG K F,etal.Interpreting TF-IDF term weights as making relevance decisions[J].ACM Transactions on Information Systems,2008,26(3):55-59.

[12]ENDSLEY M R.Toward a theory of situation awareness in dynamic systems[J].Human Factors the Journal of the Human Factors & Ergonomics Society,1995,37(1):32-64.

[13]XU R,CHEN T,XIA Y,etal.Word embedding composition for data imbalances in sentiment and emotion classification[J].Cognitive Computation,2015,7(2):226-240.

Probabilistic Feature Association Algorithm of Soft Information

MA Yu-ge, CHENG Hua, KOU Xiao-huai, LIN Jia-jun

(School of Information Science and Engineering,East China University of Science and Technology,Shinghai 200237,China)

The situation assessment based on news events should consider the long-term trend of the events.In this paper,the long-term dictionary is introduced to characterize the long-term trend,and then,a probabilistic feature association algorithm is proposed for long-term features and current features.In order to obtain the full feature of the news event,the proposed algorithm firstly extracts long-term dictionary based on long-term text information collection of a news event.Besides,the probabilistic feature association algorithm,which is based on the similar degree of the keywords,is utilized to fuse the long-term feature into the current feature.In order to evaluate the association algorithm performance,both long-term association degree and class association degree are proposed.The experimental results show that the probabilistic feature association algorithm can introduce the long-term trend and improve the accuracy of situation assessment.

soft information; long-term dictionary; probabilistic features association; situation assessment

1006-3080(2017)01-0084-06

10.14135/j.cnki.1006-3080.2017.01.014

2016-04-11

马宇舸(1991-),男,浙江人,硕士生,主要研究方向为信息融合。E-mail:mayuge0707@hotmail.com

程华,E-mail:hcheng@ecust.edu.cn

TP391