APP下载

基于微博舆情数据的地震有感范围自动成图系统的设计与实现*

2022-06-13赵学志程显洲

科技与创新 2022年11期
关键词:插值灾情舆情

赵学志,肖 爽,程显洲

(上海市地震局,上海200062;上海佘山地球物理国家野外科学观测研究站,上海200062)

发生地震灾害后,如何准确高效地获取灾情信息是政府和应急管理部门一直研究的课题[1]。随着科技的发展和互联网的普及,利用震后互联网上舆情数据对灾情信息快速感知和有感范围的快速获得提供新的思路和途径。

根据中国互联网信息中心发布的第47次《中国互联网络发展状况统计报告》,截至2020年12月,中国的网民规模达9.89亿,网民使用手机上网的比例达99.7%。从统计的数据中可以看出,互联网的发展正在改变人们的生活习惯。网民个体更愿意借助网络购物、网上外卖等方式解决生活所需,也更倾向于通过社交平台表达自己的想法、情感、状态与诉求。尤其是在重特大突发事件后,在中心辐射范围内,会有大量受影响的民众在社交平台上发布和灾情有关信息。往往这些舆情信息能够快速直观地反映出灾区的真实情况。因此在地震灾害发生后,能够快速收集和处理大量的网民在社交平台上发布与地震相关的信息,对于政府和应急管理部门应急指挥以及舆情监控有着重要的意义。

在地震舆情数据分析处理方面,很多国内专家学者已经做了大量研究。2015年,褚俊秀等[2]建立了位置微博地震灾情抓取框架,实现微博地震灾情的提取与展示;2016年张方浩等[3]根据中国地震烈度表和地震现场工作调查规范,将微博特征词库和地震灾情速判指标进行关联匹配,建立了微博信息分类指标体系;2017年,曹彦波等[4-5]调用新浪微博APⅠ,通过对微博数据清洗挖掘,分析微博灾情时空演变特征以及灾区民众的情感。2017年至今,多位专家学者[6-8]利用地震舆情数据对四川九寨沟7.0级地震、云南通海5.0级地震和新疆伽师6.4级地震等地震事件进行了分析研究,研究成果在地震应急工作中得到了很好的应用。

1 需求分析

1.1 主要目标

设计建立一套基于微博舆情数据的地震有感范围自动成图系统,完成震后对微博舆情数据的自动收集、处理和可视化展示功能。

1.2 功能需求分析

1.2.1 舆情信息数据的获取

面对震后海量的微博舆情信息,为提高信息收集的效率和准确性,需要通过自动化的方式进行收集[9]。由于微博建立的反爬机制,通过传统网络爬虫技术,无法确保收集到信息的全面性和系统的稳定性,需要借助微博开放平台的商业APⅠ接口,才能高效稳定地获取带有地理信息位置的微博舆情信息数据[2]。

1.2.2 舆情信息的预处理

对于收集到的数据,由于内容表达方式的随意性、复杂性和个体感受不一致性,需要对数据进行自动分析清洗,并剔除一些与地震灾害事件无关条目。再对进行过预处理的信息数据与相应的规则对应进行分级赋值,存入地震舆情数据库。

1.2.3 建立舆情信息数据库

通过数据库的建设,分类存储微博舆情数据。可在未来的研究中,对地震舆情的时空变化规律、情绪变化分析进行进一步研究,也可以针对单个地震事件进行更加细致的研究。同时可以作为舆情信息共享平台,方便为其他协作部门提供地震舆情信息。

1.2.4 自动成图

由于获取到的舆情数据均为离散分布的位置点,需要通过地理信息系统的空间插值方法建立有联系性的连续分布,形成的震后有感范围图需在系统中展示。

1.2.5 人工干预

由于信息表达方式的随意性,分类和赋值的准确性无法完全保证,需要建立人工复核机制和功能,干预系统自动产出的结果。

2 地震有感范围自动成图系统的设计

2.1 系统的框架设计

当发生地震后,根据地震的发震时间、震中、震级,通过调用微博开放平台APⅠ接口获取微博的内容,包括文本、发布时间、图片、视频、经纬度信息等,并对数据进行清洗去重、识别分类,存入舆情数据库中,再从舆情数据库与特征词库进行比对,根据《中国地震烈度表》和《地震现场工作调查规范》,建立地震灾情速判指标进行分级赋值,建立空间和属性关联。最后通过空间插值将离散分布的坐标点转换为连续分布的有感范围自动化产出。系统框架如图1所示。

图1 系统框架图

2.2 数据分析处理

由于获取到的微博内容随意性较强,口语化程度高,人口判读工作量巨大,为提高数据处理效率和准确率,系统需要提供对原始微博数据自动解析、去重、清洗、过滤的数据分析处理功能,支持根据关键词库自动提取与地震灾情相关的特征词进行比对,对微博数据进行分级赋值[10],如表1所示。同时需提供人工复核解译、手动重分类的功能。

表1 关键词对应分级赋值参考表(部分)

2.3 空间插值

由于微博舆情信息为民众的主观感受,由于个体对地震的感受不一,描述的信息也不一致。为使有感范围空间数据更加接近实际,需要对离散的分布点进行空间插值。常见的空间插值方法有反距离加权插值法(ⅠDW)、克里金插值法(Kriging)、核密度算法、自然邻点插值方法(Natural NeighborⅠnterpolation)等,本系统根据既往研究,设计采用反距离加权插值法(ⅠDW)、克里金插值法(Kriging)和核密度算法这3种主要的空间插值算法。

2.4 数据可视化展示

微博数据的空间可视化表达是实现分析灾情时空演变规律的基础,震后获取到的微博灾情数据往往在地理上是分布不规则的离散数据,为了能够更加清楚、直观地了解地震灾情时空分布特征,系统需要提供数据可视化功能,支持清洗后的微博数据点生成空间插值面并在地图上进行展示[11-12]。

3 系统实现

3.1 微博舆情有感范围自动成图系统

该模块可以实现地震事件和历史地震的微博舆情数据的浏览查看、数据分析处理和可视化展示功能。可以通过输入地震名称或地震震级进行筛选查询,同时也能进行地震定位、原始微博详情查看、清洗后的舆情微博详情查看和可视化展示操作,如图2所示。在“原始微博详情页面”中,可以对原始微博详情进行浏览查看。该功能模块提供了“微博数据导入”功能,可以将获取到新的微博数据导入到系统中进行处理查看,如图3所示。

图2 系统界面

图3 原始微博详情查看

3.2 一键清洗

提供了“一键清洗”功能,点击后系统将自动进行微博数据的解析、去重、清洗、过滤、关键词提取等后台操作,清洗完成后的数据可以在“舆情微博详情”界面进行查看,如图4所示。

图4 手工清洗操作

经过“一键清洗”后,有些舆情信息依旧不能被系统识别分类,为了增加产出结果的准确性,支持人工对微博增加“手工清洗”功能,对数据进行人工复核判别和关键词分类、赋值,如图5所示。

图5 舆情微博详情查看

3.3 有感范围生成

系统提供3种空间插值方式进行插值计算以实现可视化展示:普通克里金插值、反距离加权插值(Ⅰnverse Distance Weighting,简称ⅠDW)和核密度插值[13],如图6所示。可以使用系统默认的插值方法和参数进行插值计算,也可以手动选择空间插值方法并调整相关参数进行地图可视化效果浏览,如图7所示。

图6 可视化展示方法和参数设置

图7 3种插值效果展示

3.4 关键词库

该模块可以实现关键词库的浏览查看和管理维护功能[14]。通过下拉菜单,选择想要查询的关键词类别进行筛选查询,如图8所示,同时也能进行关键词的新增和删除操作。同一个类别下可以添加多个关键词,当关键词类别中没有想要的选项时,可以自己输入添加类别[15],如图9所示。

图8 查询条件

图9 关键词新增

4 结束语

本系统设计开发完成为获得地震灾害有感范围的提供了新的实现途径,但本系统在未来的使用中还需继续完善。舆情信息分类的特征关键词库根据实际情况还需要进一步研究和扩充,产出的结果还需和真实有感范围进行比对,提高系统产出的准确率。

在今后实际应用过程中,可将仪器烈度、地震灾害评估系统以及人口热力数据相结合,能更好地服务地震应急工作,为政府和应急管理部门决策提供有力的帮助。在研究方向上,可以向其他灾种研究进行延伸,例如爆炸和化学品泄漏等事故灾害,以实现中国应急管理的“多灾众”和“大应急”的综合防灾减灾救灾理念。

猜你喜欢

插值灾情舆情
无定河流域降水量空间插值方法比较研究
福州市PM2.5浓度分布的空间插值方法比较
“灾情”
1917年天津水灾与赈济情况略述
不同空间特征下插值精度及变化规律研究
消费舆情
月度最热舆情事件榜11月
月度最热舆情事件榜9月
基于混合并行的Kriging插值算法研究