结合质量控制的震后房屋倒塌众包评估模型*

2019-05-27贾莹玉刘士彬段建波

中国科学院大学学报 2019年3期

贾莹玉，刘士彬，段建波†，谢帅

(1 中国科学院大学，北京 100049； 2 中国科学院遥感与数字地球研究所，北京 100094)

航天航空遥感技术具有响应速度快、地面分辨率高、使用灵活等特点，可以对震后地区进行灾情监测[1-4]。地震灾害具有突发性，在震后初期，因为通信和交通道路的损坏，往往难以进行灾区大规模实地调查，大多依靠遥感像片对灾情进行判断。房屋倒塌损毁情况是判断灾区受灾程度的一个重要指标，对灾后的应急救援有很大指示作用[5-6]。

目前，计算机自动分类方法存在难以区分矢量图形边界的缺点，而目视解译的工作者可以根据地物的边界、形状、颜色、阴影等特征并综合运用图像解译知识，对遥感影像进行分类、识别和信息提取，因而在现阶段，目视解译在遥感影像信息提取方面仍占有不可取代的重要地位[7-8]。基于少数专家的人工目视解译精度比较高，但因为人工解译工作量大、效率低，难以满足震后快速评估灾情、展开救援的实际需要。

众包是公众在互联网上通过独立或者合作的方式完成复杂任务的一种方式。众包可以解决那些计算机难以解决而人类比较擅长的问题，被应用于人机交互领域、数据库领域、信息检索领域等[9]。目前比较流行的众包平台有带有经济奖励的Amazon Mechanical Turk平台[10]、提供食品即时问答服务的Foodpickle平台[11]、免费开源可编辑的OpenStreetMap电子地图平台[12]等。在地理信息方面，童咏昕等[13-15]提出“时空众包(spatiotemporal crowdsourcing)”的概念，认为应用众包技术处理时空数据方式可以称作时空众包数据管理。研究者进一步探索出时空数据在线任务分配新方法[16]，为解决实时空间数据问题提供了统一的实施方案[17]。2010年海地地震之后，OpenStreetMap以卫星照片为基础，召集众多志愿者为海地救援队提供受灾区建筑物的损毁情况，及时传递最新消息，极大地提高了救援队的工作效率[18]。在2012年台风海燕袭击菲律宾之后，OpenStreetMap再次快速响应，志愿者根据受灾前后的遥感像片判断出受灾区的损毁程度，为救援队的救援活动提供信息上的支持[19]。在遥感影像信息提取方面，Fritz等[20-21]的GeoWiki和DIYlandcover平台，参与者可以通过平台提供的卫星图像进行信息反馈从而参与环境监测。平台通过全球土地覆盖监测，标注出非洲中部森林砍伐情况。在众包判断震后建筑物损毁情况方面，2015年4月尼泊尔大地震后，DigitalGlobe公司的Tomnod平台把受灾地区的高分辨率遥感影像提供给全球各地的网络志愿者，公众可以标注出受损的建筑物、道路等信息，为现场的救灾人员提供帮助[22]。

众包为网络大众参与地理信息的采集、修改和维护提供了便利条件，在突发地震灾害的情况下，受灾区遥感数据会短时间内大幅增加，普通公众可以通过众包的方式分担专业人员的一部分工作，加快应急响应速度。但由于参与者的背景和水平不同，在完成众包任务时，难免会出现数据质量参差不齐、众包结果不准确的情况，同一位参与者在工作时的注意力也可能不断变化。因此，对工作者答案进行质量控制成为提升众包结果质量的一项重要工作。在众包质量控制方面，Zheng等[23]提出众包数据管理中存在的问题，指出改善众包管理的关键因素，Feng[24]研究在线任务分配问题，提出QASCA系统。Fan等[25]提出iCrowd自适应众包框架，可以显著提高众包质量。Li等[26]总结出改善众包管理的3个重要问题，分别是质量控制、成本控制、延迟控制。Feng等[27]提出一个工人模型，设计增量推理策略来计算工人质量。唐思[28]提出一种基于工作者过滤的最大期望算法，并引入用户应答时间作为隐式反馈评价工作者的准确率。张志强等[29]提出一种阶段式的动态质量评价控制策略，同时给出一种组合式众包结果质量评估方法框架。逄居升[30]从工作者所提交数据的方向出发，通过收集评估任务的提交结果，对众包工作参与者进行验证分析，对相关性评估任务的众包结果进行质量分析，提出一种新的众包质量识别模型。在计算震后房屋倒塌损毁情况方面，Xie等[31]提出一种通过概率模型和最大期望算法来定量地计算出单个房屋的真实损毁类型的方法。

本文针对目前遥感灾害评估工作中存在的问题，以青海省玉树藏族自治州结古镇的研究区为例，提出一种结合质量控制的震后房屋倒塌众包评估模型，并实现模型的原型系统。为避免低质量答案对众包结果产生不良影响，本研究在众包的工作流程中加入工作者答案质量过滤的环节，引入一致性检验方法，去除低质量答案。随后通过概率模型和最大期望算法，定量地计算出单个房屋的真实损毁类型，得到震后房屋倒塌情况空间分布专题图，为地震后快速评估建筑物倒塌提供了一种新模式。

本文的创新性主要体现在：

1)在遥感灾害评估领域，以往主要依靠计算机自动识别和专家目视解译的方法来判断建筑物损毁程度。本文将众包方法应用到判断震后建筑物损毁程度领域，提出一种新的结合质量控制的震后房屋倒塌众包评估模型。

2)将黄金标准数据和一致性检验方法引入到房屋倒塌评估模型的众包质量控制环节，为提高遥感评估众包结果准确度提供了一种新思路。

3)实验实现了模型的原型系统，搭建基于B/S(浏览器/服务器)结构的震后房屋倒塌评估众包平台，并给出具体实验结果，证明众包模式在遥感领域是可行的，具有推广价值。

1 研究区与数据

实验数据选自青海省玉树藏族自治州中受灾较为严重的结古镇地区的多光谱航空遥感像片，空间分辨率为 0.33 m，高分辨率影像可以更加清晰地表达目标地物的空间结构和纹理特征，为目视解译提供丰富的细节特征。结古镇位于青海省南部，海拔3 681 m，属于大陆性高原气候，拥有2.3万人口，该地区的房屋在影像上呈现出多种破坏类型。结古镇城区的房屋以混凝土结构为主，在地震过程中遭到损毁，城区以外的房屋以土木结构为主，几乎全部损毁[32]。研究区的位置及航空遥感影像图如图1所示，影像由RGB三波段真彩色合成。

图1 研究区的位置及航空遥感影像图Fig.1 Location of the study area and the aerial remote sensing image

2 方法

2.1 技术路线

实验系统采用B/S结构搭建，该结构即是WebGIS所采用的结构，通过Internet/Intranet 实现互联，服务器端向客户端提供信息和服务，浏览器具有获得各种空间信息和应用的功能。实验平台包括浏览器、WebGIS服务器和数据库3部分。

基于众包的遥感影像灾情判断模型主要由4层构成，技术路线结构如图2。基础数据准备层存储众包任务的任务库，任务库中存储了经过遥感影像预处理并且在线发布的遥感影像，用户可以根据自己的喜好挑选要完成的众包任务；灾害数据采集层用来收集工作者的答案，将他们存储到数据库中；数据质量评估层对收集到的数据进行一致性检验，过滤质量较低的答案，同时将合格的答案通过概率模型利用最大期望算法进行整合，定量计算出房屋倒塌的最终类型；结果输出层输出众包结果，即震后房屋倒塌类型专题图。技术路线图如图2所示。

2.2 工作者答案质量检验方法

一致性检验法是医学中用来评估两种检验方法或者两名被检验人员是否具有一致结果的常用方法。在对工作者答案进行过滤时，一致性检验通常用于评价工作者答案是否与黄金数据一致。

图2 技术路线图Fig.2 Architecture of the processing

本文引入“黄金数据”(gold data)的概念，黄金数据注入算法是一种基于专家标签的方法。专家首先对被评估数据的一小部分进行标签化判定，把这些专家判定的数据当作黄金数据，再与工作者的判定答案作比较，对工作者的答案质量进行评估，得到工作者的可靠度。

本研究采用一致性检验中的kappa检验法。1960年，Cohen等[33]提出用kappa值作为评价判断一致性程度的指标，kappa检验已经成为目前一致性检验中常用的检验标准。kappa统计量的计算公式为

(1)

Kappa值指内部一致性系数，是作为评价判断的一致性程度的重要指标，它的值波动在+1～-1之间，kappa值越大，一致性越好。若kappa值为1，说明两次判断的结果完全一致；若kappa值为0，说明两次观察结果是由于机遇造成的；Kappa值若为负数，说明一致程度很差，在实际中无意义[34]。表1 展示kappa值与一致性程度的对照情况。

表1 Kappa值与一致性程度对照表Table 1 Kappa values and the degrees of consistency

2.3 建筑物倒塌类型评估方法

(2)

假设Gjk已知，则应用最大似然估计，得到待估参数的精确表达式

(3)

(4)

但在该问题中，建筑物的真实倒塌类型是未知的，即似然函数中Gjk未知，利用贝叶斯理论估计二值变量Gjk，得

p(Gjk=1|m_r)

(5)

式中，m_r表示所有工作者对建筑物j的评估结果。式(5)的意义是对于建筑物j，在所得到的当前所有工作者的评估结果的条件下，其倒塌类型为k的后验概率。进一步整理，得到

p(Gjk=1|m_r)

(6)

由于Gjk未知，因此将其看作该问题的隐藏变量，这样就满足最大期望算法的条件，利用最大期望算法计算得到概率模型(2)式中参数的最大似然估计值。EM算法是最大期望算法(expectation maximization)的简称，用来从不完全数据中计算极大似然估计，是一种迭代算法。EM算法的每一次迭代包括两步：E步和M步。E步计算期望，利用对概率模型中参数的现有估计值计算隐藏变量的期望；M步最大化隐藏变量的期望，进行最大似然估计，得到的参数估计值再次计算E步。将以上两步不断迭代直至结果收敛。迭代过程如下：

1) 估计Gjk的初值；

4) 重复第2)、3)步，直到结果收敛。

在第1)步中，利用下式计算Gjk的初始估计值：

(7)

3 实验结果与分析

实验首先在众包平台上进行数据收集，随后通过黄金数据和一致性检验方法对众包答案进行质量控制，最后采用房屋倒塌众包模型得到众包最终结果。为进行实验对比，我们还比较了最大期望算法与大多数投票方法，以及变化每张图片标注人数进行结果比较。

3.1 众包数据收集与质量控制

本研究主要使用ENVI软件对航空遥感影像进行预处理工作。首先对遥感影像进行几何校正、图像配准、镶嵌和裁剪的工作，并将其发布到互联网，由工作者对单个房屋倒塌情况进行目视解译，在网站中标记房屋倒塌类型。实验的工作者大多是非专业的网络志愿者，我们把链接发布到年级群、社交网站、亲友群中，由他们自愿进行作答。实验标注采用较为直观的、容易理解的3种房屋损毁标注类型，分别是“完好”“部分倒塌”和“完全损毁”，标注的数据被存储到后台的数据库中。对收集到的所有工作者的评估结果，首先根据质量过滤模型过滤出低质量答案，并且去除。随后通过概率模型利用最大期望算法将过滤后的答案进行整合，得到每个被评估房屋的损毁类型。最后进行结果输出，得到震后灾区房屋倒塌情况专题图。图3是基于B/S模式的众包数据采集系统界面，公众注册登陆后即可看到任务信息采集页面，界面左侧设置有答案选项，公众可根据自己的判断作答。

本次实验一共收集3 450条记录，包含30名工作者对实验区中115个房屋的标注信息。在进行工作者答案质量判断时，分别计算工作者答案与黄金数据的kappa值以及工作者与其他工作者答案的kappa平均值。

本文将需要判定的房屋分成黄金数据样本和测试样本。其中，黄金数据样本是指专家已经给出答案的题目，测试样本是指需要工作者给出答案的题目，本次实验选择115个需要工作者判定的测试样本，同时选择34个黄金数据样本，其中完好16处，部分倒塌10处，完全损毁8处。分别选取2、3、12、13、27、28、37、38、87、88、94、95、96、97、102、103号房屋为完好房屋，用绿色区域来标识。选取10、20、33、34、69、70、79、80、100、108号房屋为轻微倒塌房屋，用黄色来标识。选取40、45、58、61、75、81、99、106号房屋，用红色来标识。(房屋序号从图像左上角开始，向右向下依次递增)具体选择情况如图4所示。

图3 众包数据采集系统界面Fig. 3 Interface of crowdsourcing data collection system

图4 黄金数据选择情况图Fig.4 Spatial distribution of the gold data

为减少极端值对质量控制结果的影响，需要综合工作者的kappa值进行判断。本次实验先将每个工作者答案与黄金数据做kappa计算，值记为kappag；再将每个工作者答案与其他工作者的答案做kappa计算后求平均值，值记为kappaa。为保证实验的公平性，实验中采用的淘汰阈值为0.4，取kappag和kappaa均低于0.4的答案，标记为低质量答案值，若工作者只有一个kappa值小于0.4，那么将不被标记。

计算每位工作者的kappa值，发现，ID为3、19、20、21、25的工作者的kappag和kappaa均小于0.4，在本次实验中，他们的答案可以看作是低质量答案，为保证今后实验的准确度，这些工作者的答案将被去掉。每位工作者与黄金数据的kappag计算值以及工作者之间的kappag计算值见图5。

图5 工作者kappa值计算Fig.5 Kappa values for workers

3.2 实验结果与对比分析

过滤掉低质量答案后，实验利用建筑物倒塌评估的概率模型对单个房屋计算倒塌类型估计值。最大期望算法考虑了每位工作者的权重以及参与者在评估过程中的整体表现情况。图6给出在最大期望算法迭代过程中，3种破坏类型的边缘概率随着迭代次数的变化趋势，当迭代次数达到30次时，结果收敛。对于大多数建筑物来说，基本都是其中一种破坏类型的后验概率值为1，说明结果具有明显的一致性。

图6 3种破坏类型边缘概率随最大期望算法迭代次数波动情况Fig.6 Fluctuations in marginal probabilities of the three damage types with the number of iterations

根据上述得到的单个建筑物损毁类型，得到如图7(b)所示的房屋倒塌情况专题图。为对比一致性检验前后结果的准确率，实验将没有对工作者答案进行质量控制的数据也使用最大期望算法进行计算，得到图7(a)所示的专题图。

实验以34个黄金数据作为评判标准，分别计算质量控制前和质量控制后模型判断结果的建筑物损毁情况正确率。需要注意的是，输出的专题图中并没有黄金数据，结果完全由建筑物倒塌评估模型得到，这里的黄金数据仅用来比较质量控制前后答案的准确率。将图7的两幅专题图同图4对比可以发现，图7(a)中的2、20、27、28、37、69、70、79、80、100号房屋同黄金数据标注的答案不一致，图7(b)中的20、69、70、79、80号房屋同黄金数据标注的答案不一致。

进行质量过滤前，通过建筑物倒塌评估模型计算出的单个房屋损毁情况与黄金数据有10个不一致，正确率为70.59%。使用一致性检验方法对工作者答案进行质量过滤后，单个房屋损毁情况与黄金数据有5个不一致。正确率为85.29%，正确率提升14.7%。这说明，质量过滤后建筑物倒塌评估结果可以作为可靠结果用于判断灾区建筑物倒塌的真实情况，供灾区救援人员参考。

图7 房屋倒塌情况专题图Fig.7 Thematic map of building damage types

为进行对比，在建筑物倒塌类型评估环节，我们还选用大多数投票算法与最大期望算法进行比较。大多数投票算法是一种将大多数人的评估结果作为最终结果的简单方法，这种方法下的工作者权重都是一致的。使用大多数投票算法得到的房屋倒塌情况结果见图8。

图8 大多数投票算法结果Fig.8 Results of most voting algorithms

将结果与黄金数据进行计算后可知，采用大多数投票算法质量控制前正确率为65.71%，质量控制后正确率为77.14%，低于最大期望算法的70.59%和85.29%。这表明由于工作者的经验背景不同，采用大多数投票算法得到的结果具有一定的局限性。实验最终选择最大期望算法的计算结果作为最终结果。

实验还将经过质量控制后的记录，变化每张图片的标注人数得到如下结果，由于图7(b)已经展示全部工作者(25位)的答案，为避免内容重复，图9展示的是8位工作者和16位工作者的结果。当展示8位工作者时，结果的正确率为77.14%；展示16位工作者时，正确率为74.29%；展示全部工作者时，正确率为85.29%。

图9 变化每张图片标注人数所得到的结果Fig.9 Results of the changes in the number of annotations for each picture

上述实验表明，参加众包任务的工作者人数与结果正确率之间表现出一些关联。并非工作者人数越多结果正确率越高，受限于实验规模，结果偶然性较大，未了解更多人数参与时结果正确率的变化情形。但是实验结果至少告诉我们，在给定任务的前提下，如何选择恰当数量的工作者使得在费用开销与结果质量等多方面获得最优目标是一个值得深入探索的问题。

在实验区收集到的3 450个记录中，“完好”的房屋占36.52%，“部分倒塌”占39.13%，“完全损毁”占24.35%，结果没有明显地偏向某一种房屋损毁类型。根据上述的众包结果，损毁类型为“部分倒塌”和“完全损毁”的房屋占房屋总量的63.48%，其中实验区东南部房屋损毁情况比较严重，需要救援队展开重点搜救行动。

通过观察房屋倒塌情况专题图，可以发现，震后完好的建筑物一般拥有规则的边界和阴影、规则的纹理特征、一致的光谱特征，建筑物倒塌后会展现出不规则的边界和阴影、破碎的纹理特征、表面灰度值由亮变暗等特征。此外，有一些建筑物的顶部边界形状没有遭到破坏，但侧面墙体受到损坏，甚至整体发生移位，这种情况是遥感像片目视解译难以判断的，需要进一步进行实地考察。此外，在数据源方面，后续研究可以增加多角度的高分辨率光学遥感影像，为解译工作提供更多的房屋视角，进一步提高众包解译精度。

4 结语

本文提出一种带有质量控制的基于众包的遥感影像灾情评估模型，模型考虑到工作者答案质量对众包结果的影响，使用一致性检验方法对工作者答案进行过滤，随后采用最大期望算法得到震后灾区的房屋倒塌损毁情况专题图，最终结果可以作为可靠的样本来分析震后损毁房屋的类型特征。这种改进的模型能在地震灾害初期调动广大互联网用户的力量，在震后初期提供可信度较高的遥感目视解译结果，为使用遥感影像评估自然灾害提供出一种新模式。