APP下载

基于大数据技术的金融监管应用研究

2020-01-04卢康权

科学与信息化 2020年36期
关键词:分布式计算计算能力分布式

卢康权

中国人民银行杭州中心支行科技处 浙江 杭州 310001

引言

随着互联网技术迅猛发展,物联网技术的大量运用以及移动互联网的日益普及,大数据概念也应运而生。大数据不仅仅是一种新技术,也不是单一的新产品,而是一种新现象,是近来计算机研究的一个新热点。大数据泛指超大规模的数据集合,可从中挖掘出极具价值的信息,但利用传统技术无法进行及时分析和处理[1]。本文通过分析大数据计算框架、大数据关键技术,在金融监管领域应用大数据技术进行信息处理。

1 大数据计算框架

大数据的4V特征[2]对计算能力提出了扩展要求。计算能力扩展一般分为两种方式:第一是垂直扩展(scale up),是指向系统中的单个节点添加资源,通常涉及向单个计算机添加CPU或内存等,每一个组件的功能均会对总体性能造成限制。垂直扩展的好处是对上层应用系统透明,缺点是高性能资源成本较高,并且扩展上限是现有业界的软硬件技术水平。传统关系型数据库、中间件等软件一般采用垂直扩展。第二是水平扩展(scale out),是指向系统添加更多节点,比如向分布式软件应用程序添加新计算机。随着硬件价格的下降和性能的不断提高,低成本的节点可以不停地添加到一个集群中,提高集群的整体计算能力。弹性的水平扩展架构本质来说就是分布式架构,因此不会局限于任何单一计算机的资源容量,几乎可以线性扩展所有资源。水平扩充的优点是可以利用低成本的组件,扩充能力强,缺点是上层应用系统需要适当改造。分布式计算架构广泛应用于大数据系统。

大数据计算框架从本质上来说就是分布式计算架构的拓展。分布式计算的发展经历了多种不同技术路线的演化[3-6]。从20世纪80年代开始,人们就从操作系统等系统软件进行研究,探索通过网络以分布式替换单机式操作系统,尽管其理论、技术都已较为成熟,由于技术条件、市场等原因,没有被用户接受。在20世纪90年代,基于专有多级网络计算需求,业界开始研究部署分布计算环境(中间件),支持分布式应用,产生了一系列事务处理、远程过程调用、消息队列和面向对象等各类中间件,目前仍广泛应用在信息系统中。基于在互联网上进行大规模分布式计算的需求,陆续出现了Web Services网以及网格计算等协同技术,解决了中间件需要专有协议等缺陷,进一步提高了跨维度网络资源的共享程度。

为满足大数据处理对存储和计算能力的巨大需求,数据中心内部运用的分布式计算技术得到了长足进步。随着网络技术发展,局域网主流传输速度可以轻松达到万兆以上,数据中心内集群节点间的互联速度可与单一节点内部数据传输速度相媲美。同时单一节点的计算能力也突飞猛进,通过由普通PC组成的集群可以提供超大的存储容量和超强的计算能力。为了提高可靠性和可用性,通过分布式存储为同一数据创建若干个副本,或者通过算法提供一定冗余数据。传统高性能计算中的并行调用接口抽象度不高, 对开发人员的技术能力要求很高,较难推广。现代大数据分布式计算架构,通过高层次抽象,提供类似传统编程方式的接口,屏蔽并行处理细节,可以把大规模的计算自动并发和分布式执行。

2 大数据关键技术

Google公司开发了基于集群的分布式、并行处理整体基础架构,该技术是利用冗余和同步技术来处理可能的节点失效问题,包括GFS(分布式文件系统)、MapReduce(分布式计算模式)和BigTable(大规模分布式数据库)等关键技术[7]。这为其他的大数据架构提供了一个很好的参考思路。

分布式文件系统,用于处理大型分布式的大量数据访问。运行于普通的PC硬件上,必须提供防止单节点的损坏带来数据丢失的高冗余性。HDFS是分布式文件系统在开源大数据软件Hadoop中的实现。MapReduce,通过并行方式处理大规模数据集的数据以提升性能。包括两项核心操作:映射和归纳) 操作。对外提供了简单的接口服务,其后台复杂的并行处理和流程调度对开发人员是透明的。Hadoop也通过MapReduce编程模型进行计算资源调度。BigTable是用于存储和处理大规模结构化数据的非关系型数据库,是一系列分布式、多维度排序的映射表。HBase实现了类似的分布式数据库。

3 金融监管大数据应用实践

以某金融监管机构为例,通过金融监管大数据平台建设,有效提升数据治理水平。统一汇集政府部门、监管及金融机构等多方基础数据,多层次、多角度开展数据分析与展示,反映全省金融运行态势,在线分析蕴藏的金融风险,为业务履职和决策提供有力支撑。平台基于Elastic MapReduce(EMR)搭建,包括 Hadoop、Spark、Kafka、HBase等核心开源组件,构建了统一的大数据平台和底层应用支撑环境等基础设施。建设覆盖全省的统一身份认证系统,为各系统提供单点登录和统一门户。打通底层数据通路,实现互联互通,通过大数据平台,为全省系统内数据的一点汇聚提供统一服务,逐步推动改变各个业务“数据孤岛”的现状。开发一批有省域特色的金融监管应用。如:数字大屏、驾驶舱、数据仓等应用。

基于大数据的金融监管平台解决方案主要包括如下关键特性:

(1)统一基础平台规划,避免多次投入重复建设。统一规划建设全省大数据应用基础技术平台,功能涵盖数据的采集融合、统计运算、建模分析和可视化展示,平台可供全省员工开展工作所用。避免各地市/各业务条线在项目建设过程中对基础功能的重复研究、重复设计、重复建设和资金的重复投入。此外,通过对大数据基础技术平台的统一管理运维,也能确保平台运维的专业化和标准化,避免“各管一片、标准不一”的现象,节省重复运维成本。

(2)统一数据整合治理,规范采集渠道与流程。对全省的数据资源进行统一规划治理,制订形成一套全省统一的数据治理标准规范,并统一管理数据采集来源,规范数据统计口径,优化数据分类分级,制定数据资源目录,形成全省统一管理数据,各业务部门及分支机构统一使用数据的良好局面。逐步打破数据藩篱,打通数据孤岛,解决各业务条线数据互相孤立的问题。

(3)统一数据质量管控,解放人力为履职提质增效。建设基于大数据平台的统一数据采集系统,将监管所需各外部单位数据的采集工作纳入平台进行统一管理。制定数据质量管理标准,将以往各个业务条线日常需要投入大量人力进行的数据收集、格式订正、检查核对、统计汇总和问题反馈等工作全部纳入平台自动化管理。并为业务数据管理人员设计开发数据监控界面,提供“一站式”数据质量管理服务。

(4)统一业务数据仓建设,提供“自助式”数据服务。通过开展全省数据治理和统一管理,可整合形成完整的全省经济金融数据仓,解决以往数据分散,整合困难的难题。基于平台中完整的全省经济、金融大数据智库,配合合理的数据权限管理机制,全省各业务工作人员可便捷的访问和共享所需数据,可自行开展本业务或跨业务的自动化数据分类查询、统计分析等应用。避免以往不同部门间、同部门不同科室间在共享数据时耗费大量的人力沟通成本和整理加工耗时。

(5)统一应用系统部署,满足业务履职所需。围绕机构的履职目标,分期分批规划开展与央监管履职密切相关的大数据业务应用场景,如:金融统计类、经济/产业分析类、政策评估类、金融风险防控类、金融监管类和金融服务类等数据应用场景。其次,规划过程中不仅关注宏观和事后的各类金融统计分析,也加强对履职相关的关键业务数据采集的全量化、明细化、实时化。实现关键业务的非现场监管与现场检查协同,提升事中甚至事前的监测预警。

4 结束语

随着大数据技术的发展,必然可以通过数据挖掘技术,在低价值密度的数据分布中发现大数据的高价值。大数据在行业管理、数据标准化与决策分析等领域将大有作为,将极大提升中大型企业的网络信息服务水平。

猜你喜欢

分布式计算计算能力分布式
基于RTDS的分布式光伏并网建模研究
浅谈如何提高小学生的计算能力
小学生计算能力的提高策略
小学生计算能力的培养
浅谈小学生计算能力的培养
基于预处理MUSIC算法的分布式阵列DOA估计
基于云计算的大数据处理与分析综述
基于云计算的移动学习平台设计与实现
云计算中MapReduce分布式并行处理框架的研究与搭建
基于DDS的分布式三维协同仿真研究