APP下载

顾及用户画像的多源遥感信息智能推荐方法

2023-03-15吕守业岑鹏瑞杨宇科韦二龙

测绘学报 2023年2期
关键词:画像特征值区间

龙 恩,吕守业,岑鹏瑞,杨宇科,韦二龙,白 龙

1.北京市遥感信息研究所,北京 100011;2.中国电子科技集团公司第五十四研究所, 河北 石家庄 050081

近年来,随着我国各类卫星井喷式发射及遥感数据无偿使用等多个利好政策,国内各类遥感用户卫星图像需求多样化、个性化、大众化特点日趋突出[1]。但受传统意义上卫星资源少、产品昂贵、普及度不够等众多因素影响,我国各类天基遥感服务目前多为人工筛选而后推送模式,无法满足服务的主动性、针对性、时效性等新型需求[2],须开展考虑用户应用特点、兴趣特征、使用偏好等进行个性化的主动推荐[3-4],促进天基遥感产品更好地应用于各个领域。

用户画像是大数据背景下实现产品主动个性化服务的前提,可以较好地刻画用户需求。该概念早期是以用户为中心的服务理念提出的,随后,文献[5]进一步对其相关含义进行阐述。之后,该技术被相继应用于各类电商产品、图书馆服务、媒体信息服务等领域的主题推荐[6-13],用于解决各类产品服务的主动性、针对性不足问题。然而,在遥感产品服务领域,受限于各类用户需求样本积累匮乏、产品专业性强、空间属性鲜明等原因,上述未考虑空间特性的常规画像方法并不能直接适用遥感用户画像模型构建。近年来,随着遥感大数据、人工智能、智慧服务、在线服务等相关技术发展[14-25],在各类遥感产品大众化需求日益迫切背景下,空间信息智能化服务已逐步成为研究热点。文献[24]采取区间数表示具有连续覆盖属性的元素特征。文献[25]进一步引入权值衰减函数来反映随动态变化。文献[21—22]引入区间数学建立用户模型描述需求核心元数据分布特征等,均取得了较好的研究成果,但在区间长度设置、权重解算及离散元素区间表达等方面,仍存在区间零碎化、总样本数欠考虑、离散元素表达不全等不足,需结合具体用户优化改进。

鉴于以上我国天基遥感发展服务现状及存在问题,本文面向各类天基遥感用户新型服务需求,构建融时间、空间、载荷、分辨率、产品级别5项核心元素的可扩展主题用户画像模型,挖掘用户兴趣特征,并将待分发遥感信息与用户兴趣特征关联,实现满足用户个性化需求的天基遥感信息主动推荐。

1 画像模型构建

1.1 模型结构及构建流程

有别于常规电商产品,天基遥感产品部分属性具有一定的区域覆盖特性,需通过一个范围进行描述。本文根据用户需求单主题词,采用四元组模型,综合文献[20,24]的优势加以改进,模型结构为

M={X,W,R,V}

(1)

式中,X={x1,x2,x3,x4,x5},xi为主题元素项;W={w1,w2,w3,w4,w5},wi为主题元素xi权重值;R={r1,r2,r3,r4,r5},描述各元素分布值域和区间长度;V={v1,v2,v3,v4,v5},vi为元素xi分布特征。流程如图1所示。

图1 用户画像模型构建流程

1.2 元素选择

主题元素一般是基于用户需求订单或检索记录对用户关心的核心元素项进行抽取,不同用户一般具有不同的主题元素项,且元素个数可扩展。这里主要选取各类遥感用户关注相对较多的5个常规遥感产品共性元素:拍摄时间x1、空间范围x2、载荷x3、分辨率x4及产品级别x5。

1.3 元素权重

用户兴趣隐含于需求记录中,一组需求记录中需求频率越高的元素对用户兴趣贡献越大,反之越小[22]。基于该思想,该文设计综合考虑各元素项与总样本的检索频次关系计算方法,具体为:将用户在过去一段时间内的需求记录分成m组,每组需求记录总数Mi,分别统计每一组内用户对n个主题元素的需求次数,并且用一个矩阵B=(bij)m×n进行记录,则各主题元素xj的权重wj为

(2)

式中

1.4 区间单元

依据覆盖连续性,这里将主题元素时间x1、空间x2、载荷x3、分辨率x4、产品级别x5归为3类。

1.4.1 一维连续覆盖元素区间单元

(3)

1.4.2 一维离散覆盖元素区间

载荷x3和产品级别x5两元素在一维空间上为某一定值,且个数有限,不具备连续性,因此,对于该类元素其区间单元可直接根据元素值进行划分。用户k个需求单,ai为第i个样本值,则存在

(4)

1.4.3 二维连续覆盖元素项表示

(5)

(6)

式中,i=1,2,…,h,j=1,2,…,t。h、t分别为沿经纬度方向Ix、Iy分割的二维区间单元的个数。

1.5 分布特征值

以主题元素分布特征值表征用户需求分布特征,对各区间单元用户需求出现频率进行线性变换,并映射到一定取值范围[24],用于体现用户需求对不同区间的重要程度。

1.5.1 一维连续/离散覆盖元素分布特征值

时间x1、载荷x3、分辨率x4、产品级别x54个元素各区间单元/各分量Ii在k个需求记录中的分布特征值vi计算式为

式中,fi表示第i个区间单元或分量在k个需求记录中的出现频率,fi的计算方法为

式中,At为第t个样本值;Ii为第i个区间单元;IA(·)为示性函数,当At∩Ii非空时为1,空集时为0。

区间单元Ii对应分布特征值vi越大,意味着Ii在用户需求记录中出现越频繁。定义一维分布特征函数描述特征值随区间的分布为

(7)

式中,I包含k个样本所有样本值的最小区间。

1.5.2 二维连续覆盖特性元素分布特征值

对于空间元素x2,计算二维区间单元Dij在k个需求记录中的分布特征值vij

式中,fij为二维区间单元Dij在k个需求记录中的出现频率,计算方法为

式中,At为第t个样本值;Ixi为经度向第i个区间单元;Iyj为纬度向第j个区间单元;Ik(·)为示性函数,当(At∩Ixi)∩(At∩Iyj)非空时为1、空集时为0。

对于用户建模,定义二维分布特征函数来描述特征值随二维区间的分布情况为

(8)

式中,Ix表示包含k个需求样本中所有样本经度值的最小二维区间;Iy表示包含k个需求样本中所有样本纬度值的最小二维区间。

2 主动推荐解算

2.1 解算流程

基于用户画像模型,对待分发数据进行推荐度解算,最终将推荐度高的数据推送给用户。流程主要包括理想解确定、兴趣关联度计算、推荐度求解及推荐度排序等环节(图2)。

图2 推荐度解算流程

2.2 兴趣特征值

兴趣特征值这里定义为各主题元素分布特征值中满足其需求的较大特征值域。各元素项在子区间分布特征值V越大,则该子区间值越符合用户实际需求,由n个元素对应的兴趣特征值区间单元组成的集合为兴趣特征值域A*,表达为

(9)

(10)

2.3 兴趣关联度

对主题元素信息标准化处理,基于空间拓扑关系解算待分发数据与兴趣特征值间的关联度,刻画各个元素项上待分发数据对用户兴趣的满足程度。

2.3.1 一维离散元素兴趣关联度

2.3.2 一维连续元素关联函数

Z=(vB·(a+-a-))/(max(a+,b)-min(a-,b))

2.3.3 二维覆盖元素关联函数

式中,B′为B线性变换后的表达,即

Interest(A)、Interest(B)、Interest(B′)分别是兴趣特征值域A,待分发数据B和变换后B′的兴趣度,对于二维区间〈[a,b],[c,d]〉,凝聚在该区间的兴趣度为在该区间上的分布特征函数做定积分,如式(11)所示

(11)

2.4 推荐度

推荐度ui表示待推选数据与兴趣特征值域之间的贴近程度,推荐度越大越能满足用户兴趣需求[22-23],其计算公式为各元素关联度的加权和,具体为

(12)

式中,Zij为第i个待选数据在元素项xj的兴趣关联度,Wj为元素项xj的权重。

3 试验验证

3.1 试验数据

以我国遥感系列卫星数据满足用户需求情况为例,选取重大专项任务中对遥感系列卫星数据需求相对较多的国家减灾中心、北京市公安局禁毒总队两个用户,分别整理近3年的60条和45条真实需求订单,主题元素均为前述5个共性元素项(表1)。其中,80%订单作为训练数据集,20%用于测试数据集,模拟生成测试数据的30%与真实订单有较大差异的需求订单作为测试集的负样本。

表1 部分订单主题元素项(X)的值

其中,模拟订单的生成方法主要是根据用户各主题元素属性特征随机生成模拟订单的各元素值,判断订单的各元素值是否属于用户相应元素区间范围,属于则为正样本,不属于则为负样本。

3.2 试验结果及分析

3.2.1 国家减灾中心用户

3.2.1.1 用户主题元素特征分布

基于国家减灾中心真实订单训练数据集,分析年内月特征,时间元素x1的最小区间I1=[1,12],取固定区间长度r1=1,则划分12个区间,代表一年12个月,根据式(7),则其分布特征v1如图3(a)所示;空间元素x2最小二维区间I2=〈[93.5°E,123.0°E],[21.5°N,52.5°N]〉,取经纬度区间长度均为r2=0.5,则共划分为59×62=3658个区间单元,据式(8),其分布特征v2如图3(c)所示;载荷元素x3最小区间I3=[CCD,MSS,IRS,HSI,SAR],共划分为5个区间,据式(7),其分布特征v3如图3(b)所示;分辨率元素x4最小区间I4=[0.1,20],结合遥感系列数据实际,采取不定长区间长度,划分7个区间,区间长度分别为r4=0.2,0.2,0.5,2,2,5,10,据式(7),其分布特征v4如图3(d)所示;产品级别元素x5最小区间I5=[1,2,3,4],划分4个区间,据式(7),其分布特征v5如图3(e)所示。

3.2.1.2 推荐度

取特征值Eij为0.9,据式(9)、式(10)及图3得A*={[7,8],〈[98.0,99.0],[31.0,31.5]〉,[CCD,SAR],[0.5,3],[2]},即为国家减灾中心兴趣特征值域。将训练集随机分成4组,统计各组各主题元素的需求频次,依据1.3节得到各元素权重W(表2)。将测试集作为待推荐数据,依据2.3节计算每个待分发数据与各元素的兴趣关联度,依据2.4节计算相应推荐度,并给出推荐排序(表3)。

表2 各主题元素项需求频次及权重

表3 待分发数据推荐度及各元素的关联度(国家减灾中心)

3.2.1.3 结果分析

图3为用户主题元素分布特征,由图3可知,时间兴趣特征具有明显的集中特征,主要集中于每年的7、8月;空间兴趣特征具有一定程度的聚集效应,主要集中于西南川贵及东南沿海一带;载荷兴趣特征SAR偏好明显,全色次之;分辨率兴趣特征主要集中于0.5~3 m之间。进一步分析该结论可发现,该特征一方面与减灾中心职责相吻合,符合实际应用情况,即洪水、泥石流、火灾、地震等灾情监测及排查,时间上正值我国7、8月多雨季节,空间上主要为分布泥石流多发的西南川贵地震带上、洪涝频发于东南沿海及冬季林火高发的东北区域等,载荷上不受气象条件影响的SAR优势凸显;另一方面与遥感系列卫星本身数据特点相关,该时期分辨率主要集中于0.5~3 m之间,红外、高光谱整体偏少,产品级别主要为系统自动化生产的2级产品。

图3 各主题元素分布特征(国家减灾中心)

由表3可知,12条正样本(即真实订单)具有较高推荐度,均高于0.48,相比而言,4条负样本推荐度均相对较低,最大仅为0.108,二者之间推荐度差异较大,存在较好的自然断点,误推荐个数为0,整体推荐排序符合该用户实际需求情况。

3.2.2 北京市公安局禁毒总队(简称“禁毒总队”)用户

3.2.2.1 用户主题元素特征及推荐度

基于该用户训练数据集分别解算各主题元素特征值(图4)及各主题元素权重,进而基于测试数据集,求取各条测试数据相应的推荐度,最后给出各数据的推荐排序(表4)。取特征值Eij为0.9,则该用户的兴趣特征值域为:A*={[4,5],〈[116.50,116.60],[40.80,40.85]〉,[MSS],[0.1,0.5],[2]}权重分别为W={0.299,0.276,0.201,0.157,0.068}。

表4 待分发数据推荐度及各元素的关联度(禁毒总队)

3.2.2.2 结果分析

由图4可知,该用户主要表现为:时间上有明显的集中特征,主要集中于4、5月;空间具有一定的聚集效应,主要环北京周边山区一带;载荷MSS偏好明显,CCD次之;分辨率集中于0.1~0.5 m之间。分析该特征产生原因,主要与禁毒总队进行北京罂粟非法种植卫星监测任务密切相关,且符合实际情况。具体为:北京地区罂粟开花季节主要集中于4、5月,是遥感监测的较好时相;罂粟是国家禁止种植作物,一般属于非法种植,因此,空间上多位于人工不便到达的周边山区;罂粟卫星监测,图像数据需具备光谱信息和高分辨率特征,才能支持室内检测;产品级别主要为系统自动化生产的2级产品。

图4 各主题元素分布特征(禁毒总队)

由表4可知,9条正样本(即真实订单)具有较高推荐度,均优于0.5,而3条负样本推荐度均较低,推荐排序最后,最大值为0.063,二者之间差异较大,存在明显自然断点,误推荐个数为0,推荐排序符合该用户实际需求。禁毒总队用户的各主题元素特征及推荐排序试验结果,进一步验证了本文方法的科学性、可行性及泛化性。

3.2.3 各用户推荐精度

为进一步验证本文方法对其他用户的适用性,本文在前两个用户基础上,进一步补充了国家海洋局海洋环境预报中心、环保部卫星环境应用中心及交通部交通信息中心等不同用户,对近两年各用户遥感系列卫星数据的实际订单进行了整理,共录入117条(表5中各用户组号为0的数据),并在此基础上根据各用户实际订单情况,分别模拟各用户时间、空间、载荷、分辨率及产品级别数据上千条,分别随机抽取2400条数据,构建各用户3组不同规模模拟训练数据集,然后基于本文方法进行试验。从推荐结果可以发现(表5):①基于本文方法整体推荐度较高,平均精度优于94%;②专项任务中,基于少量需求订单即可对用户进行初步画像并开展主动推荐,精度优于85%;③实际订单越多,推荐精度越高,各用户真实订单中(0号组数据),推荐精度达100%;④推荐精度与样本数整体呈正相关,样本越多,画像越精准,推荐精度越高。

表5 主要用户推荐精度情况

4 结 语

本文针对目前我国天基遥感信息服务个性化保障不足的问题,在现有遥感用户需求模型的基础上,对模型要素及其解算方法改进优化,设计了一种应用用户画像模型的天基遥感信息主动推荐方法。采用时间、空间、载荷、分辨率、产品级别5个核心主题元素,使得画像模型要素考虑更为全面;采取不等长区间长度划分方法,有效避免区间单元过度破碎化;提出考虑总样本数的频率占比权重确定法,提高运算效率及结果连续性;制定涵盖离散/连续元素的兴趣关联度计算方法,提升推荐准确度。试验结果表明,本文方法构建的主题元素分布特征符合用户实际应用需求,计算简便,推荐准确度高,研究成果为实现天基遥感信息个性化服务及智能推荐提供了模型。

本文在进行用户画像及推荐过程中,为确保能够准确判断推荐结果是否符合用户真实需求,主要采用真实订单数据进行模型构建及推荐实验。后续研究中,随着各系列卫星数据智能服务网站的研制及投入使用,可在本文研究基础上进一步引入用户查询、浏览、操作等隐含信息,同时结合用户反馈信息,进行用户画像精化迭代,采用“用户需求-初步画像-主动推荐-用户反馈-画像精化-精准推荐”模式,不断循环逼近用户精准需求,持续提升天基遥感数据服务保障水平。

猜你喜欢

画像特征值区间
你学会“区间测速”了吗
威猛的画像
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
“00后”画像
画像
全球经济将继续处于低速增长区间
区间对象族的可镇定性分析
基于商奇异值分解的一类二次特征值反问题
关于两个M-矩阵Hadamard积的特征值的新估计