基于案例学习的多层次聚类指标客观权重极大熵挖掘模型

2019-03-07曹颖赛刘思峰方志耕曾友春

中国管理科学 2019年2期

曹颖赛，刘思峰，方志耕，曾友春，王欢

(1.南京航空航天大学经济与管理学院，江苏南京 210016；2.陆军军事交通学院汽车士官学校运输指挥系，安徽蚌埠 233011)

1 引言

在实际多属性聚类决策问题中，特征指标的聚类权重是影响聚类结果准确性的重要因素之一，聚类指标的合理配置问题一直是国内外学者的研究热点，并且已取得了丰富的研究成果。

概括起来，传统的指标权重确定方法大致可以分为两大类：主观赋权法和客观赋权法。其中，主观赋权法，是指基于决策者的知识经验或偏好，按照重要性程度对各指标进行比较、赋值和计算而得出权重的方法。典型主观赋权方法包括：专家调查法(Delphi法)[1]、层次分析法(AHP法)[2]、偏好比率法[3]、环比评分法[4]、二项系数法[5]、比较矩阵法[6]和重要性排序法[7]等。这些方法仅仅体现了决策者的工作经验以及自身对指标的偏好程度，所给出的权重系数比较粗略。对此国内外学者们不断在原有思路与方法的基础上进行探索和创新，并基于指标客观数据的差异程度提出了一系列客观权重确定方法，包括：主成分分析法[8]、熵技术法[9]、离差最大化法[10]、均方差法[11]和多目标规划法[12]等，这些方法旨在突出对象在评价指标之间的客观差异性。此外，还有大量研究致力于综合指标权重主、可观信息以提升决策的准确性。丁涛等[13]提出了一种权重自调整方法，旨在平衡主观赋权和客观赋权所带来的误差，从而提高评价的合理性。程砚秋[14]基于区间相似度、序列比对等原理，对特定专家给出的指标主观权重进行了修正，以增加群决策的有效性。金佳佳等[15]还从关联的角度融合了主观先验信息与客观信息，并将其转化为求解综合权重的约束条件，旨在提高权重配置的可信度。

然而上述方法大多仅聚焦于单层聚类指标的客观权重配置问题，但在实际多属性聚类决策领域中，观测对象往往包含多个特征指标，并且特征指标之间还具有一定的层次结构。目前，针对多层次聚类指标赋权问题普遍采用的还是主观性较强的层次分析(AHP)方法[16-17]。在运用层次分析方法对多层次聚类指标进行赋权时，需要专家对于指标的重要性信息进行主观判断比较，在一定程度上影响了指标权重的客观性。Zhang等[18]运用优化模型求得了多层次指标之间的相互影响系数并在此基础上求解了相应指标的权重，最后将指标赋权结果应用至城市可持续发展评价研究中。Boroushaki[19]通过测算各层次指标所包含的信息熵大小求解出了指标权重大小，并运用修正TOPSIS算法给出了空间多属性决策问题的解决步骤。

以上研究虽然能够有效解决部分多层次属性指标的赋权问题，但仍不能完全满足实际多维聚类决策的需要，具体问题体现在对于对象历史聚类信息的利用程度还有所欠缺。历史聚类信息综合反映了各层次指标对于对象所属类别的影响程度，通过对历史聚类案例的有效学习不仅有助于发掘对象聚类的本质客观规律，还能进一步挖掘出对象各个属性指标的权重信息。对于多属性聚类决策而言，案例学习是指通过决策者学习推理特定典型案例集的决策结果，计算出部分或全部决策参数，从而构建出对应的决策模型，再应用于对所有对象进行评价的方法[20]。目前代表性的模型包括UTADIS[21]以及基于案例距离的决策模型[22]，这两种方法虽然为多属性决策问题提供了具有借鉴意义的参考，但并未直接涉及对象属性指标的客观赋权问题。

为充分挖掘已有的历史聚类案例信息，本文基于向量空间模型将聚类对象转化为多维属性特征空间向量，运用余弦距离测算对象底层指标属性之间的相似程度，然后根据对象属性指标的层次性结构以及相应各层指标的权重系数综合测算出对象之间的相似程度，最后根据历史聚类案例中的同类对象具有较高的相似度特点，建立了基于案例学习的多层次聚类指标客观权重极大熵挖掘模型，从而测算各个层次指标对整个对象所属类别的影响程度。

2 基于对象特征属性空间向量的聚类分析

在多属性决策过程中，决策者往往通过评价对象特征属性之间的相似程度，将评价对象划分到不同的类别中去。某些对象之所以能够归属到同一类中，是因为其自然本质属性具有较高的相似性。在进行相似性评价过程中，观测对象往往具有多个属性指标，并且指标之间还存在一定的层次结构关系，为对象的相似性测度带来了很大的不便。对此，本部分将根据对象相似性的各种影响因素的属性范围，将其分成不同的评价方面、要素和因素，其中每个待评价对象会包含若干个评价方面，每个评价方面又含有多个评价要素，每个评价要素又含有不同的评价因素(如图1所示)。由于每个评价层次的各个指标对对象间相似性的影响程度不尽相同，因此需要对各层次的指标赋以相应的权重以合理地区分其重要程度。

图1 对象聚类指标层次结构示意图

2.1 对象特征属性空间向量表征

向量空间模型(Vector Space Model)是由Salton[23]于20世纪70年代提出的决策对象表征模型，该模型能够将对象属性指标的相似度计算转化成向量空间中的向量距离运算。根据向量空间模型的构建思想，对于一个由多层次属性指标构成的聚类对象而言，每个属性指标都将看作是一个多维向量，其中底层指标向量表示某一类要素的集合，其向量元素为某一要素的观测值；上层指标向量为其下属次级指标的集合，其向量元素是一个包含其下属次级指标属性值及其相应的权重的二维向量。

定义1 聚类对象的底层指标向量为

VBottom=[x1,x2,…,xi,…xn]

(1)

式中向量元素xi表示观测到的第i个影响要素的观测值，n表示该指标影响要素的数量。

定义2 聚类对象的上层指标向量为

VUpper=[(y1,w1),(y2,w2),…,(yi,wi),…,(ym,wm)]

(2)

式中的向量元素yi表示该指标的第i个下属次级指标的观测值；wi表示该指标的第i个下属次级指标的权重值；m表示该指标下属的次级指标数量。

综上，聚类对象的向量空间模型可表示如下：

C={t1,w1[t1.1,w1.1(t1.1.1,w1.1.1;…;t1.1.k,w1.1.k);…;t1.j,w1.j();…];…;ti,wi[()];…}

(3)

式中，各个指标下各自又包含其下属次级指标，ti,wi为聚类对象的一级指标观测值及其权重，ti.j,wi.j为待评价对象的二级指标观测值及其权重，依次类推直至底层的评价因素集合。

2.2 基于对象相似度的聚类分析

对于具有多层次聚类属性指标的待聚类对象而言，对象之间的相似度测算需要逐层求解各评价方面、评价要素和因素的相似程度，即首先求解最底层要素的相似程度，然后依次逐层向上求解各个评价因素的相似程度，直至求解整个对象的相似程度。考虑到余弦距离能够通过求解两个向量夹角余弦值的方式度量两个对象之间的一致性，本部分将采用向量的余弦距离测度要素之间的相似程度。

定义3 若底层要素A的n维向量表示为A=[A1,A2,…,An]，底层要素B的n维向量表示为B=[B1,B2,…,Bn]，则底层要素A与B之间的相似度为

(4)

由式(4)可知，在将对象转化为空间向量之后，两向量之间夹角越小，其余弦值越大，两个要素越相似。

定义4 若某待聚类对象有n层评价指标，底层因素个数为m1，其各个因素的相似度为siml，权重为kl(l=1,2,…,m1)；第i层中的第j个指标的权重为kj(j=1,2,…,mi)，则任意两个对象之间的相似度可表示为

kh…j…l

(5)

由式(5)可知，基于对象底层指标要素之间的相似度以及指标的层次结构关系，可以自下而上逐层求解对象之间的相似程度。若存在n个待聚类对象，通过求解两两对象之间的相似度，可以得到对象之间的相似度如表1所示。

表1 对象相似度表

根据相应的相似度临界值sim*，即可判定出对象的所属类别，即当sim(i,j)≥sim*时，对象i和j便属于同一类。

定理1针对某一对象而言，同一类内对象之间的相似度最小值大于不同类对象间相似度的最大值，即若对象i和j同属于类Sα，对象k属于类Sβ，则min{sim(i,j)}>max{sim(i,k)}。

证明：采用反正法。假设min{sim(i,j)}≤max{sim(i,k)}，由于对象i和j同属于一类，若相似度的分类临界值为sim*，则sim(i,j)≥sim*，所以由sim*≤min{sim(i,j)}，min{sim(i,j)}≤max{sim(i,k)}推得max{sim(i,k)}≥sim*，因此对象i和k同属于一类，这与对象i和k不属于同一类相矛盾。所以假设不成立，原命题成立。

3 基于案例学习的多层次聚类指标客观权重极大熵权重挖掘模型

在确定对象聚类指标权重过程中，针对历史聚类案例中相似对象的类别从属关系，可以通过各聚类指标所传达的类别信息量确定其权重系数。根据极大熵准则[24]，在已知部分信息的基础上，认为权重熵值达到最大且满足约束条件时所得到的权重值出现的可能性最大，因此可构建基于案例学习的多层次聚类指标客观权重极大熵挖掘模型。具体建模步骤如下：

步骤1: 确定目标函数

对于一个包含由多个评价方面、要素和因素组成的多层次指标属性的聚类对象而言，其任一指标权重wi是该指标在其所在的评价层指标集合中所占的比重，是一个随机变量并具有一定的不确定性。按照极大熵准则，在已知部分信息的基础上当各个评价层次的权重熵值达到最大且满足约束条件时所得到的权重值出现的可能性最大。因此可构建多层次聚类指标客观权重极大熵挖掘模型的目标函数如下式所示：

(6)

式(6)中，w表示各个评价层次中的指标权重，ni表示第i评价层的指标数量，fi(w)表示第i评价层的指标权重熵函数，

步骤2：约束条件确定

(1)各评价层次中指标的权重之和为1，即

(7)

(2)在历史聚类案例中相同类别对象之间具有较高的相似度，即sim(i,j)>sim(i,k)，其中对象i和j同属一类Sα，而对象k属于类Sβ。

根据目标函数和约束条件，可建立如下多目标规划来求解各层次指标权重，如下式所示：

(8)

定理2存在一组权重系数[λ1,λ2,…,λn]∈(0,1)，使得多目标极大熵聚类指标客观权重挖掘问题能够通过线性加权的方式转化为单目标极大熵客观权重配置问题。

(1)当0<λi<1时，若设F(w1)≤F(w2)，即fi(w1)≤fi(w2),i=1,2,…,n，且至少存在一个j(1≤j≤n)，使得fj(w1)

(2)当0≤λi≤1时，若设F(w1)

综上，U(F(w))是F(w)的单调递增函数。因此新的单目标规划的最优解是原规划的有效解。证毕

定理3基于案例学习的多层次聚类指标客观权重的极大熵挖掘模型存在唯一的最优解

证明：由极大熵模型：

若极大熵模型是一个凸集上的凸规划问题，则必存在唯一的最优解

由定理1和规划模型的标准表达式

首先判断目标函数的凹凸性，目标函数F(w)的海塞矩阵为

由于00所以|H|>0恒成立，因此该目标函数F(w)为凸函数，而约束条件为线性约束条件，所以为凸集。

综上，该极大熵模型为凸集上的凸规划问题，必存在唯一的最优解。证毕

4 案例分析

刑事犯罪案件虽然种类繁多，但是几乎所有案件都包含有类似作案时间，作案地点，作案手段，嫌疑人特征，损失物品等特征属性。合理地对案件进行串并处理，不仅能提高案件的侦破效率，还能促进案例库的规范化管理以便于未来的案例推理学习。在案件串并过程中，案件属性特征的权重配置决定了串并结果的合理性。本案例在运用向量空间模型表征各类案件特征属性指标的基础上，对案件之间的相似程度进行测算，最后运用已有的历史案件串并信息，构建聚类指标极大熵客观权重挖掘模型以确定案件各个属性特征的权重。

某公安部门历史案例库中已有分好类的5个案例集C={C1,C2,C3,C4,C5}，案例属性特征如图2所示，并且已知其分类信息为C1,C2,C3同属一类，C4和C5各成一类。

大量的刑事案件表明，有很多指标的属性内容无法直接客观、准确的描述，如受害人在对嫌疑人的

图2 刑事案件属性特征示意图

身高及年龄身份进行描述时，只能给出大致模糊性的表述，呈现出“亦此亦彼”的特点。考虑到模糊子

集常用于处理不精确数据，因此采用模糊子集表示某指标下的属性值属于该指标某一要素的概率。以刑事案例中的嫌疑人身份向量表述为例，假设其设定的身份序列为(青年，中年，老年)，若某案件的嫌疑人身份向量为[0.2,0.7,0.1]，则表示该案件的嫌疑人身份属于青年的概率为0.2，属于中年的概率为0.7，属于老年的概率为0.1。该案例库中的5个案例集的底层指标属性信息如表2所示。

将各层指标的权重值作为待定系数，求解5个案件的两两相似度如表3所示。

表2 底层特征指标的属性信息

表3 案件相似度信息

由案例的分类信息可得

sim(1,2)>sim(1,4),sim(1,5),sim(2,4),sim(2,5);

sim(1,3)>sim(1,4),sim(1,5),sim(3,4),sim(3,5);

sim(2,3)>sim(2,4),sim(2,5),sim(3,4),sim(3,5)

令w1为身份特征的权重，w2为体型特征的权重，w3为口音特征权重，w4为作案时间权重，w5为作案工具特征，w6为嫌疑人特征，w7为作案特征权重。对于整个案例而言，各层指标的重要性程度并无实质性差异，因此在极大熵客观权重配置模型中将各个目标函数的权重配置为1/3，最终基于历史分类信息的极大熵客观权重配置模型如下式所示。

最后解得w1=0.471，w2=0.487，w3=0.042，w4=0.515，w5=0.485，w6=0.974，w7=0.026

由此可以得出，对整个刑事案件而言,嫌疑人特征较为重要，其权重高达0.974，这符合人们对刑事案件侦破的直观认识和了解；在嫌疑人特征方面，嫌疑人体型特征权重和口音特征几乎相同但都远高于身份特征，说明在定位搜寻犯罪嫌疑人时其身份特征信息容易被忽略。在作案特征属性中，作案时间特征重要性稍高于作案工具特征。运用其他客观权重配置方法求解得到案件各个属性特征指标的权重值如表4所示。

表4 与其他方法的比较

从变异系数法和熵值法求得的权重结果来看，两种方法仅能从底层指标属性的观测值信息中挖掘出单层聚类指标的权重信息，无法为更高层次的指标进行赋权。除此之外，从其单层指标的赋权结果不难发现，运用变异系数法求得的底层指标权重分布较为均匀(只有在嫌疑人特征属性中能够看出口音特征远远高于其他两项特征；而从熵值法的权重配置的结果来看作案工具特征和嫌疑人口音特征相对重要)，无法明显区分出其他各个指标的对于案件所属类别的重要性影响程度。

5 结语

本文从评价聚类对象的相似度信息出发，构建了聚类对象特征属性指标空间向量表征模型，并在此基础上，采用余弦距离方法测度对象底层指标属性之间的相似度，最后根据对象的指标层次结构及各层次属性指标的权重系数综合测算对象之间的相似程度。基于历史聚类案例中属于相同类别对象之间相似度较大，不同类别对象间的相似度较小特点，运用极大熵准则，构建了基于对象历史聚类案例信息的多层次聚类指标客观权重挖掘模型。最后以刑事案件的属性指标权重配置问题进行案例研究并与其他权重配置方法进行对比分析，计算结果表明本文提出的方法在多层次聚类指标客观赋权的合理性方面优于其他方法，为多层次指标对象聚类过程中的指标权重系数确定问题提供了一种新的解决方法和思路。