APP下载

面向混合数据的多伴随三支决策

2019-02-27赵天娜苗夺谦米据生张远健

智能系统学报 2019年6期
关键词:粗糙集代价概率

赵天娜,苗夺谦,米据生,张远健

(1.同济大学 电子与信息工程学院,上海 201804; 2.同济大学 嵌入式系统与服务计算教育部重点实验室,上海201804; 3.河北师范大学 数学与信息科学学院,河北 石家庄 050024)

混合数据[1]是非结构化的、互补的、超高维的,包含大量冗余信息,研究如何有效表示,特征选择和融合混合数据有重要的实际意义。尤其是在数字化时代,多通道传感器广泛化产生,混合数据的分类任务普遍存在于实际生活中,如文本情感分类,医学影像分析更多复杂的语义以混合属性值形式表示。数值型和符号型数据的相互作用,导致概念往往具有不一致性和模糊性。如何利用混合数据的上述性质降低此类数据的不确定性是一个值得研究的课题。

模糊粗糙集[2]是一种处理不确定性问题的有效数学工具,然而现有的模糊粗糙集模型不能处理混合数据分类问题。因此,研究模糊粗糙集扩展模型,并应用于混合属性分类具有重要的理论创新价值。Mi 等[3]用对偶三角模构造逻辑算子,发展了粗糙近似算子的构造方法。Feng 等[4]用概率方法研究并构造了信任函数与似然函数。目前,模糊粗糙近似算子的构造大多使用一对三角模与蕴含算子作为逻辑算子,没有考虑对象或者属性之间的差异性。用多伴随对构造模糊Galois连接,模糊粗糙近似算子,可以体现数值型数据和符号型属性之间的偏好。近几年来,Medina 等[5]研究了多伴随理论,并探究其在多伴随概念格和多伴随粗糙集等概念上的应用,但混合数据的表示方面需进一步深入研究。不同类型属性获取所需的不同代价问题,是现实生活中数据处理时必不可少要考虑的因素。Tan[6]提出代价敏感学习,并将其应用到许多方面,如遗传算法[7]、粗糙集[8-9]等。国内学者也研究进展颇丰,如Fan 等[8]针对测试代价敏感决策系统,构造数据模型。Ju 等[10]提出了带有多粒度指标的代价敏感粗糙集模型。一系列学者都将获取数据的代价作为数据处理时的重要因素。受上述工作的启发,本文引入代价敏感多伴随模糊粗糙集表示数值型属性和符号型属性之间的异构互补关系,使得伴随对与不同类型属性之间产生关联;在利用多伴随算子表达不同类型属性之间偏好的同时,兼顾了获取不同类型属性值的代价。

Yao[11-12]提出的三支决策是处理数据分类任务时基于人类认知的高效决策模式,已有许多专家将其与其他模型结合,大大提高了数据分类能力。Liang 等[13-14]研究了处理多阶段信息和双犹豫模糊信息的基于直觉模糊粗糙集的三支决策模型。Qiao[15]将三支决策引入到推荐系统时,考虑了代价和用户的偏好,极大改进了推荐质量。徐健锋[16]以混淆矩阵为工具,多目标优化三支决策阈值求解模型,同时发现了三支决策的代价与决策的条件概率之间存在非单调现象[17]。混合数据分类模型结合三支决策模型的研究已有成果,AL-Hmouz[18]运用三支决策的思想做多模态生物识别系统的开发。赵天娜[19]初步研究了多伴随直觉模糊粗糙集与三支决策模型的简单结合。鉴于模型与三支决策组合的优越性,本文将进一步深入地研究用三支决策模型处理混合数据分类问题更优化的方式,代价敏感多伴随模糊粗糙集模型赋予三支语义,并在决策代价最小化意义下优化混合数据三支分类结果,扩展三支决策理论的应用范围。

本文的贡献可从以下几个方面体现:混合数据的非结构化,互补以及大量冗余无关信息等特点造成数据的高度不确定性,因此数据分类不一致性和模糊性使得挖掘混合数据蕴含的内部信息有难度。找出数值型和符号型属性之间的各种关系,降低分类的不确定性是混合数据挖掘中亟待解决的问题。针对上述问题,本文用多个伴随对模拟不同类型属性之间的关系,多伴随算子可充分表达不同类型属性对对象之间的偏好,同时考虑了获取不同类型属性值的代价,提出代价敏感多伴随模糊粗糙集模型。给出充分体现此模型特点的概率公式,并优化了损失函数。改造三支决策模型,挖掘出不同类型属性的关系特点。针对混合数据的不确定性特点,提出此模型。此模型是数据特点驱动的,从数据本质出发,分析混合数据的特点,找出数值型属性和符号型属性之间的各种关系。

1 基本概念

1.1 多伴随模糊粗糙集理论

Cornelis 等[20]提出的多伴随模糊粗糙集理论研究了多伴随对与模糊粗糙集理论结合的基本定义和简单性质。

定义1[20]给定偏序集(P1,≤1)、(P2,≤2)、(P3,≤3)和映射 & :P1×P2→P3, ↙ :P3×P2→P1,↖:P3×P1→P2, 称 (&,↙,↖) 是一个伴随三元组,如果满足:

1 )对于x∈P1,y∈P2,z∈P3, 都有x≤1z↙y⇔x&y≤3z⇔y≤2z↖x;

2) & 在P1、P2、P3上是保序映射;

3) ↙ ,↖ 在第1 和第2 论域上是保序映射。

定义2[20]设 (L1,L2,P,&1,···,&n) 是多伴随框架,称 (A,U,R,τ) 为多伴随背景,其中A是非空对象集,U是非空属性集,R:A×U→P是P-模糊关系,满足自反性和对称性。τ:A×A→{1,2,···,n}是将A×A中元素对映射到多伴随框架上一个特定的伴随三元组。

定义3[20]在模糊决策信息系统(U,A∪{d})中,给定属性子集B⊆A, 和P-模糊关系Ra:X×X→P,∀a∈A, 对于x,y∈U,模糊关系RB:U×U→P定义为:

@:Pm→Pa∈A

其中 是一个聚合算子,对于 ,有

其中TP是P的最大值。

定义4[20]在多伴随面向属性框架(P,L,L,&1,···,&n) 下,考虑形式背景 (U,U,RB,τ), 对于x,y∈U,定义似然算子 ↑π:LU→LU和必然算子 ↓N:LU→LU

那么g↑π

是g的上近似,f↓N是f的下近似。其中LU表示所有由U映射到L的函数的集合。

定义5[20]对于模糊子集h∈LU, (h↓N,h↑π) 称为多伴随模糊粗糙集。

1.2 基于决策粗糙集的三支决策

决策粗糙集模型用状态集和行动集来描述决策过程。状态集 Ω ={C,¬C} 中的2 个状态分别表示某事件属于C和不属于C, 行动集A={aP,aB,aN}分别表示接受某事件、延迟决策和拒绝某事件3 种行动,用λPP、λBP、λNP;λPN、λBN、λNN表示采取不同的行动会产生不同的损失,分别表示当x属于C或x不属于C时采取行动 A ={aP,aB,aN} 的损失。采取3 种行动的期望损失函数由如下式子表示:

根据贝叶斯决策规则,以期望损失函数最小为原则选择最佳行动方案,决策规则如下:

(P) 若R(aP|[x])≤R(aB|[x]) 且R(aP|[x])≤R(aN|[x]),则x∈POS(C) ;

(B) 若R(aB|[x])≤R(aP|[x]) 且R(aB|[x])≤R(aN|[x]),则x∈BND(C) ;

(N) 若R(aN|[x])≤R(aP|[x]) 且R(aN|[x])≤R(aB|[x]),则x∈NEG(C)。

2 代价敏感多伴随模糊粗糙集

混合数据的数值型和符号型属性是由多通道传感器产生的,获取途径差异很大,采集不同类型属性付出的代价均不相同。在现实生活中,考虑经济因素,研究人员希望用几个代价较小的属性,提取同样有价值的信息,因此不同类型的属性代价是必不可少要考虑的因素。本文希望用更少的代价获取更有价值的信息。

定义6设A∗=(U,A∪D) 是混合数据决策系统,U是非空论域,A∩D=ϕ,A=AS∪AR,AS= {a1,a2,···,ai,···,am} 和AR={am+1,am+2,···,am+i,···,am+n}分别是符号和数值型条件属性的集合。获取对象x分别关于不同模态属性AS和AR的信息付出的代价为 Co str、 CostR。考虑模态属性代价得到的权重wC定义如下:

i

1) 对于ai∈AS,i∈{1,2,···,m},每个属性的权重定义为:

2) 对于ai∈AR,i∈{m+1,m+2,···,m+n},每个属性的权重定义为:

定义7 设A∗=(U,A∪D) 是混合数据决策系统,U是非空论域,A∩D=ϕ ,对于a∈A,a-模糊关系Ra:U×U→[0,1] 定义如下:

∀B⊆A,B- 模糊关系定义如下:

性质1满足自反性和对称性。

证明1)由的定义可知,Ra(x,x)=1,进而推出(x,x) =1。因此,CB满足自反性。

性质2满足单调性,即

证明1)若B1=B2, 则显然

2) 若B1⊂B2,则必存在ai∈B2,但是ai∉B1。由则对于其他属性aj∈B1∩B2=B1, 有成立。由的定义可知

定义8在多伴随面向属性框架(P,L,L,&1,···,&n) 下,考虑有代价的形式背景对于m∈LU,定 义似 然算 子 ↑π:LU→LU和 必 然 算 子↓N:LU→LU:对于x,y∈L

对于模糊子集m∈LX,称为代价敏感多伴随模糊粗糙集。

经过对代价敏感多伴随模糊粗糙集的研究,本文发现,添加一个简单条件后,它仍满足经典的粗糙集中上下近似的性质。由性质1 和性质2 可知,本文定义的关系满足文献[13]中关系RB的性质,因此,本文中代价敏感多伴随模糊粗糙集的上下近似需添加的条件和文献[7] 中3.2中命题1 的条件一致。

m∈LU

性质3对于 ,

证明过程可参照文献[12]中3.2 中命题1 的证明。

3 基于代价敏感多伴随模糊粗糙集的新型三支决策模型

基于决策粗糙集的经典三支决策模型利用状态集 Ω ={C,¬C} 和行动集 A ={aP,aB,aN} 描述决策过程。采取不同的行动产生不同的损失函数矩阵如 表1 所示, 这些 损 失函数 满 足λPP<λBP<λNP;λNN<λBN<λPN,其中λ••∈(0,1)。

表1 经典模糊损失函数矩阵Table 1 Classical fuzzy loss function matrix

由经验可知,对象属于状态集的概率直接影响决策过程。在三支决策模型中,体现为概率是定义决策目标函数(期望损失函数) 的关键因素。因此,给出体现模型特点的概率定义对精确决策至关重要。

在经典的三支决策模型中,代价与决策的条件概率是单调的线性关系,如图1,但在实际生活中,三支决策的代价与决策的条件概率之间存在着非单调情况[17],如图2,针对这种现象,徐健锋等[17]以延迟代价目标函数为研究对象,提出了一种双延迟代价目标函数的策略。本文借鉴这一思想,在代价敏感多伴随模糊粗糙集模型上,给出充分贴近此模型特点的概率定义,并优化做延迟决策aB时的非线性损失函数,期望得到更准确处理分类任务的三支决策模型。

图1 经典三支决策 F N、FP、FB 的线性关系Fig.1 Classical linear relation diagram of three decisions

图2 新型三支决策 F N,FP,FB′,FB′′ 的非线性关系Fig.2 Novel linear relation diagram of three decisions

3.1 改进的三支决策模型

改进的三支决策模型,与传统三支决策模型相比,λPP、λPN、λNP、λNN定义不变,只改进、和如表2,它们的含义为:分别从正域和负域视角出发,实际为正域元素和负域元素但决策时被划分为延迟域的2 组代价函数。正域决策代价目标函数FP、 负域决策代价目标函数FN不变,只改进双延迟决策代价目标函数,记为、。由于非线性函数FB有很多种定义方式,不同的定义方式导致不同的非线性函数FB,为了简化和一般性,本文选取最简单的非线性模型进行说明,由这2 个线性函数组成一个非线性函数,并假设本文只讨论图2 这种非线性的情况。其他情况类似,在此不再赘述。

表2 新型模糊损失函数矩阵Table 2 New fuzzy loss function matrix

多伴随模糊粗糙集充分考虑了数值型和符号型属性之间的互补性、关联性、大量无关冗余信息的特点,用此模型从混合数据中提取的蕴含信息高效体现对象属于状态集的可能性程度。本文用3 种策略描述对象属于状态集的概率。

定义9(平均概率)对象x属于状态集C的平均概率定义为:

定义10对象x分别采取 A ={aP,aB,aN} 3 种行动的平均模糊期望损失函数计算公式为:

定义11(悲观概率)对象x属于状态集C的悲观概率定义为:

定义12对象x分别采取 A ={aP,aB,aN} 3 种行动的悲观模糊期望损失函数计算公式为:

比较F(aP|x)P、F(aB|x)P、F(aN|x)P的大小,确定行动ai(i∈{P,B,N}) 使悲观模糊期望损失函数FP最小。

定义13(乐观概率)

定义14对象x采取 A ={aP,aB,aN} 3 种行动的乐观模糊期望损失函数计算公式为:

4 基于代价敏感多伴随模糊粗糙集的三支决策算法

比较F(aP|x)O、F(aB|x)O、F(aN|x)O的大小,确定行动ai(i∈{P,B,N}) 使乐观模糊期望损失函数FO最小。

算法1基于代价敏感多伴随模糊粗糙集的

本文提出的基于代价敏感多伴随模糊粗糙集的三支决策算法,是处理具有偏好的模糊信息的不确定性决策理论,以最小期望损失为目标,得到损失最小的决策。

本文仅以乐观概率为例给出混合数据分类的基于代价敏感多伴随模糊粗糙集的三支决策算法。整个算法流程图,如图3 所示。乐观三支决策算法

图3 三支决策算法的流程Fig.3 Flow chart of three decision algorithms

输入混合数据决策表 (U,A∪D),属性代价CostS, C ostR, 模糊集m,损失函数矩阵λ。

输出行动集,分类精度 A cc。

2) For 每个对象x∈U

比较期望损失函数Fai,i∈{P,B,N},选择期望损失Fai最小的行动集ai作为最佳行动方案;

End For

5 实例验证

设混合数据的决策表 (U,A∪D) 如表3,获取符号型属性和数值型属性的代价比为CostS:CostR=1,则由定义6 得每个符号型属性和数值型属性的权重分别为由定义7 得到模糊关系如表4 所示。

表3 混合数据的决策表Table 3 Decision table of heterogeneous data

设每个对象对应的m(x) 的值分别为:0.76、0.17、0.15、0.76、0.53、1、0,由定义8,利用Godel t 模和相应的蕴含算子构造的伴随对 ( &G,↙G,↖G),Product t 模和相应的蕴含算子构造{的 伴随对(&P,↙P,↖P), 其中得到代价敏感多伴随模糊粗糙集为:

由对象属于状态集的概率的定义11,得P(x1) =0.76、P(x2) = 0.17、P(x3) = 0.15、P(x4) = 0.76、P(x5) =0.53、P(x6) = 1、P(x7) = 0。

参照徐健锋[16]中双延迟代价双量化三支决策模型第4 章模型1 的参数:

表4 模糊关系Table 4 Fuzzy relation

表4 模糊关系Table 4 Fuzzy relation

RC B x1 x2 x3 x4 x5 x6 x7 x1 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x2 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x3 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x4 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x5 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x6 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x7 0.5 0.375 0.375 0.5 0.375 0.5 0.5

以代价风险函数最小为原则,得到数据分类规则为:

得到数据分类如表5 所示,由此可知分类精度为85.7%。

表5 是分别采用乐观概率,悲观概率,平均概率时,对每个对象的采取决策的结果,从结果可知,依据3 种概率得到的期望损失函数的判断结果是一致的。

表5 乐观、悲观、平均概率情况下数据分类结果Table 5 Data classification results in positive, negative, average cases

6 结束语

混合数据的分类问题是研究热点。本文从混合数据的模糊性和符号型、数据型属性的不一致性等特点出发,利用多伴随,模糊粗糙集给出不同类型属性之间的不同度量,考虑不同类型属性的代价,期望花费最小的代价得到最有价值的信息。在延迟代价双量化的基础上,研究了多种不同的模糊概率策略,构造了混合数据分类过程中的三支决策模型。该模型既能反应出数据本身的客观不确定性,也可以表达决策者主观上对不同类型属性的偏好及数值型和符号型属性数据获得难易程度的认识。未来可继续研究更多的模糊粗糙集的扩展模型,期望在超大规模数据集上刻画混合数据的精确表示,挖掘出更多数据内部蕴含的信息。

猜你喜欢

粗糙集代价概率
粗糙集与包络分析下舰船运行数据聚类算法
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
基于Pawlak粗糙集模型的集合运算关系
爱的代价
幸灾乐祸的代价
代价
一种基于粗糙集理论的社交网络潜在路径研究