APP下载

青岛市生态环境大数据资源体系的构建与应用研究

2022-01-04刘倩男崔俊梅

资源信息与工程 2021年6期
关键词:青岛市体系资源

彭 亮, 刘倩男, 华 丽, 杨 隆, 崔俊梅

(1.青岛市环境信息中心,山东 青岛 266003;2.北京思路创新科技有限公司,北京 100085)

为贯彻落实国务院和环保部关于“大数据”发展行动纲要和“互联网+”行动的指导意见,2016 年以来,山东省人民政府相继发布《山东省“互联网+”行动计划(2016—2018年)》、《山东省生态环境监测网络建设工作方案》、《山东省人民政府关于促进大数据发展的意见》、《山东省环保机构监测监察执法垂直管理制度改革实施方案》等文件,在环境管理战略转型大环境下,充分运用信息化手段规范和创新环境管理工作。结合青岛市生态环境建设面临的主要问题,本文研究青岛市生态环境大数据资源体系的构建,将互联网、云计算、大数据、物联网等的创新成果深度融入环保领域之中,发挥大数据在精准监管、科学决策及环境管理转型等方面的创新带动作用。

1 生态环境大数据概述

1.1 生态环境大数据的概念

大数据是以容量大、类型多、存取速度快、价值密度低为主要特征的数据集合,国际前沿学术期刊《Nature》于2008 年出版有关大数据的专刊并将大数据定义为: 大数据是指数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据[1]。生态环境大数据是大数据理论在生态环境领域的应用,数据资源体量大,涉及的领域广泛,结构复杂,涵盖水、土壤、大气、噪音、辐射等多方面海量的数据,使用传统的技术手段很难进行有效收集、处理,难以实现其实践价值。构建完整、系统的数据资源体系对于生态资源大数据库的建立具有非常重要的意义。

1.2 生态环境大数据的发展现状

生态问题已跨越局域尺度扩展至全球尺度,这促使生态学家们在更大的时空尺度、更多的领域收集数据, 进而完成更为复杂的分析[2]。为了能够完成生态环境大数据的收集与监测,目前国际上已经建立了多套覆盖全球的生态环境监测网络, 总体来说可分为全球卫星遥感监测网络和地面监测网络两大类。主要的全球观测网络包括全球环境监测系统( GEMS)、全球陆地观测系统(CTOS) 、国际长期生态研究网络(ILTER) 、全球通量观测网络(FLUXNET) 以及国际生物多样性观测网络(GEO·BON) 等。有代表性的国家生态环境观测研究网络包括美国的US-LTER 生态环境观测研究网络、英国的ECN生态环境观测研究网络、中国的CERN生态环境观测研究网络和日本的长期生态研究网络(JALTER)[3]。

在我国,大数据战略已上升为国家基本战略,“十三五”规划纲要明确提出,实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用。在国家的战略支持下,近年来,大数据已经在环境、气象、交通、医疗、通信等领域得到了有效应用,尤其在生态环境领域,大数据已经逐步发挥出明显的效果。2011年,为促进中国—东盟的海洋综合管理和公益性服务等领域的双边或多边合作,特设立中国-东盟海洋环境大数据服务平台,该平台实现了数据服务、产品服务、大数据可视化、大数据技术研究、新闻动态等门户系统功能,以及综合信息发布、系统管理等平台管理功能[4];2017年,四川省构建了环保云平台,通过建设同城灾备中心和异地中心来保证数据资源中心系统和数据的安全,从而实现服务全省21个市(州)及183个县(市、区)的四川省环境大数据环保云战略[5];2018年,内蒙古自治区环境保护厅建立了大数据管理平台,实现了乌海及其周边地区生态环境大数据分析、自行监测数据可靠性评估、电力行业分析应用等面向区域、流域、行业的污染治理[6];2019年,陕西测绘地理信息局构建了时空大数据资源体系,完成了海量数据资源的组织管理、混合存储、云平台构建等众多功能为一体的时空大数据环境下的陕西测绘地理信息大数据资源体系[7]。

1.3 生态环境大数据研究存在的问题

虽然大数据在为解决各种生态环境问题方面提供了新的机遇,最近几年在我国多个省级行政区也有了初步的应用,但由于处于起步阶段[8],尚有许多问题亟待解决。

1.3.1 数据共享服务能力不足

生态环境领域涉及的数据资源主要包括地面监测数据、遥感影像数据、地理信息数据、社会调查数据以及科学研究数据[9],这些数据分布在环保、国土、水利、农业、林业、卫生、气象、海洋等多个政府部门,各部门都有自己的信息中心、自己的数据库、自己的操作系统、自己选定的用户界面,每个单位完全是一个独立的体系,数据之间互不连通,数据共享存在难度,容易形成信息孤岛。再者,数据类型、来源及格式复杂多样,如果不具备先进的数据整合与处理技术,这些海量的数据资源也很难真正体现生态环境大数据作为一个整体的优势[3-4]。

1.3.2 技术创新不足

生态环境大数据来源广泛,不仅包含“空天地”的检测和调查数据,同时也包含如物联网传感器、网络定位、视频影像以及互联网上的文本、图片等海量的数据信息[10]。如何将这些多源异构数据转换成合适的格式和类型、将这些爆发式的数据资源集中存储并将这些数据应用于环境决策和监管,还在探讨之中。传统的SOL数据库已不适合用于大规模非结构化数据的存储和处理。

1.3.3 缺乏对数据的管理,质量监管不严,安全性、可靠性无法保障

大数据的多样性决定了数据来源的复杂性,在数据的获取、存储、传输和计算过程中可能产生更多错误,数据的大量更新会导致过时数据迅速产生,再者,由于市场庞大,厂商众多,数据标准不完善,使得数据更易产生不一致和冲突。由于大数据在我国尚处于初步应用阶段,政府生态环境职能部门缺乏“大数据”思维和意识,质量监管尚不完善,我国已经数字化的生态环境数据资源数量和质量都表现出“双低”状态,数据可靠性无法保证[11]。在大数据的收集过程中,因人为操作不当或黑客外部网络攻击,如对静态数据和动态数据的数据传输攻击、数据内容攻击、数据管理和网络物理攻击等,还会形成严重的安全隐患[12-13]。

2 青岛市生态环境大数据资源体系的构建

2.1 研究目标

本研究以青岛市现有大数据平台为技术支撑,充分利用物联网、云计算、大数据等先进技术,以生态环境数据资源为抓手,构建“数据大集中、应用大整合、支撑大服务”的青岛市生态环境数据资源体系,提升青岛市生态环境数据资源服务能力。

2.2 构建方案

2.2.1 数据资源规划

将青岛市生态环境大数据资源进行规划,对涉及的环境数据资源进行整体梳理,构建规范的分类体系,并基于此进行完善的数据、数据库体系设计,最终形成数据完整、结构清晰、分类合理的生态环境大数据资源体系,为数据规范存储和管理奠定基础。

2.2.2 大数据汇聚整合

构建“一纵一横”的数据整合共享体系,纵向贯穿山东省、市、县、企业环保内部数据,为顺利实现监察监测垂直管理奠定数据基础,横向整合其他委办厅局及互联网数据,为大数据分析应用提供有力的数据支撑,实现生态环境数据体系建设。实现数据全面采集、来源维护、自动入库、智能加工等全过程的动态可视化配置,采用整合匹配、多维度融合等方法手段,实现基于固定源、水专题、大气专题数据的整合关联,形成专题数据体系,最终为生态环境资源管理应用奠定坚实基础。

(1)建设数据集成与交换平台。建成由交换服务总线、开发平台、管理平台、数据交换标准等部分组成的数据集成与交换平台。

交换服务总线为平台的核心,负责解析数据集成模型定义、处理请求、处理引擎自身的模型调度等;开发平台满足集开发、调试、配置、部署等功能于一体;管理平台提供系统管理监控与任务调度工具。

(2)数据汇聚接入。青岛市生态环境数据资源体系将汇聚生态环境内部数据、市直部门相关数据、物联网数据、互联网数据等资源,实现“一横一纵”数据交换共享,为生态环境监测奠定数据基础。

生态环境局内部数据,包括环境质量数据、污染源数据、政务数据等,主要来自国发系统、省发系统、局内自建业务系统等业务数据;市直部门相关数据包括自然资源、住房城乡建设、交通运输、农业、林业、气象等部门和单位的外部数据资源。实现与现有物联监测平台对接,整合现有监测点位的数据进入生态环境大数据资源中心。建立互联网数据采集系统,使用网络爬虫技术实现对生态环境部网站及周边城市生态环境部门网站公开数据以及气象公开等数据进行动态采集,并存储至数据资源中心数据库。

(3)数据整合。对青岛市生态环境局与监管对象包括污染源、环境质量监测点等相关联的不同来源的异构数据进行高效整合,保证数据的唯一性及原始数据的关联性,完成固定污染源整合匹配、大气专题数据整合和水专题数据整合。

2.2.3 大数据治理与深度融合

构建大数据治理与深度融合组件,构建从元数据至主数据至全面质量管理与安全管控的组件体系,并构建智能生产线,将治理组件底层打通,实现数据智能化入库、加工,同时提供数据的资源目录管理、大数据治理、数据资源监控及智能生产功能。

(1)大数据资源目录管理。大数据资源目录管理在数据资源梳理整合基础上,提供资源目录分类管理、数据集元数据管理、指标元数据管理、数据权限管理功能,为资源的高效共享提供基础支撑。

(2)大数据治理。构建大数据治理组件,包括数据标准管理、元数据管理、主数据管理、数据质量管理,实现对数据生命周期的管理,方便对各类数据进行增删、查询、维护,保证数据安全和质量。

(3)大数据资源管控。通过数据资源综合监控平台,对大数据资源中心现有数据资源应用、集成、交换情况进行监控统计,以便用户及时掌握整体数据资源情况。大数据资源管控平台具备总体监控、数据资源监控、数据交换监控、数据服务监控和数据访问监控等功能。

(4)智能生产线。智能生产线以每个数据源为一条生产线,可支持对任意生态环境数据实现通过全业务过程动态可视配置方式完成元数据自动采集、数据自动入库、自动生成报表、服务接口数据监控等全过程的智能可视化配置,支撑对持续扩充的业务应用做到弹性数据融合集成。智能生产线包括四个阶段:数据资源体系初始化、数据来源管理、数据批量自动入库、数据智能加工。可支持对任意生态环境数据实现通过全业务过程动态可视配置方式完成元数据维护、数据自动采集、监控。

青岛市生态环境数据资源体系构架技术路线示意图如图1。

图1 青岛市生态环境数据资源体系构架技术路线

3 青岛市生态环境大数据资源体系构建取得的成效

自2019年10月份开展生态环境数据资源体系构建以来,青岛市已汇集整合环保、水务、农业、林业、气象、海洋等多部门、多要素的监测监管数据,实现了对生态环境重点领域数据高度集成共享。

3.1 数据汇聚能力

构建“一纵一横”的数据整合共享体系,在生态环境内部,实现面向部、省两级上层部门的32个系统的数据汇聚。市生态环境局内部规划对接已建、新建共39个系统,集成数据资源中心;生态环境局外部完成青岛市16个其他市直部门99类数据的对接;针对汇聚的海量数据资源提供全方位的监控,从数据交换、数据访问、数据服务等方面进行数据统计,用户可一目了然掌握数据现状。

3.2 数据存储能力

搭建完成多元化的大数据基础管理平台,对于PDF、WORD等没有业务系统支撑的非结构数据提供大数据平台的HDFS存储;对于舆情、日志等半结构数据采用HBASE存储;对于如污染源自动监控、水质自动监控、空气自动监控等小时、分钟级数据提供时序数据库实现海量数据存储。

3.3 数据治理能力

平台从元数据管理、数据标准管理、数据质量管理、主数据管理四个层面实现了数据的流程化、共同管控。对于水环境质量、大气环境质量、污染源监测、监管等进入资源中心的数据根据业务需要配置了规范性校验、空值校验、值域校验、重复数据校验等规则,并对每类数据形成质量报告,反馈业务部门检查。

3.4 数据分析支撑能力

依托大数据平台的分布式、模型调度执行能力,构建了规则分析引擎、AI分析模型开发环境,满足数据加工、挖掘分析的需求。同时根据统计分析、机器学习、业务模型算法的积淀,结合大数据应用场景的深入需求分析成果,面向水环境、大气环境、固定源监管三类核心环境业务提供敏感点预警分析、业务模型数据服务的输出。业务预警规则实施30多个,AI模型实施10多个。

3.5 数据共享服务能力

以青岛市生态环境局各业务处室、局属单位,以及相关市直部门的数据调研、确认成果为基础,以数据资源规划方法、理论为指导,根据用户内外部需求完成数据类别、数据集、指标元数据及数据内容的整理,共整理396个数据集、5 217个指标,并将数据集分别配置挂接至各分类体系下,为每类用户提供不同数据查看、下载、申请等角色与权限;对大气、水、噪声、土壤、辐射环境质量监测点位或断面的基础信息进行可靠处理,形成集测点统一编码、测点基础信息、管理属性、监测指标基础信息、相关监测业务数据为一体的测点档案库,实现“一站一档”,关联查询。

4 结论

大数据不等于大量数据,其核心在于数据之间的关联、融合、分析规律,从而找出新的价值,为决策提供科学依据,最终解决问题。

本研究在构建青岛市生态环境数据资源体系时,形成了“点、线、面”和“天、空、地”相结合的立体式环境大数据网络,增加了传统环境监测数据源;获取生态环境部、山东省生态环境厅、青岛市生态环境局以及周边地市的关键环保数据,为区域联防联控综合分析提供数据支持;加强与其他部门的合作,吸纳人口、气候、交通、社会、经济等多种环保相关数据;获取第三方监测数据、科研成果数据,巧妙借助外界力量强化自身数据资源;利用物联网以及移动互联等技术,拓宽数据采集渠道,获取国内外互联网、社交媒体、新媒体、智慧设施等与环保相关的其他新兴数据,建立统一的数据分析、处理标准。本研究利用可用的大数据平台,汇集青岛市各类环保数据,对各种形式的环保相关数据采取不同的采集策略,提供智能、灵活的数据资源自动采集功能,依托青岛市政务云提供统一的计算、网络、存储、安全等服务,为不同部门数据互通、共享、开发利用、资源整合提供基础,同时提高资源利用效率,节省政务信息化建设投资,为形成大数据应用环境创造有利条件。

本研究有效地解决了现有大数据存在的“信息孤岛”问题,已应用于青岛市生态环境大数据工程建设中,有效推进生态环境治理体系和治理能力的现代化。

猜你喜欢

青岛市体系资源
青岛市城阳区礼德小学 “五育并举”,让校园充满活力
织牢社保网底要不惜“细针密线”——论全球最大社保体系的建立、构成与延展
“三个体系”助力交通安全百日攻坚战
我给资源分分类
资源回收
做好绿色资源保护和开发
激活村庄内部治理资源
“曲线运动”知识体系和方法指导
“三位一体”建体系 长治久安防哮喘