大数据技术在金融行业内部审计中的应用探究

2016-05-30武茗馨

时代金融 2016年15期

武茗馨

【摘要】随着大数据时代的到来，审计工作在思维模式、技术方法、审计重点等方面发生了重大变化。在金融信息快速增长、金融创新不断升级的环境下，金融行业内部审计部门对大数据技术的需求也在不断增加。本文从金融行业内部审计应用大数据技术的背景出发，通过对大数据及其相关技术的介绍，分析大数据的具体应用，探讨大数据对相关领域的影响，对金融行业内部审计的发展做出展望。

【关键词】大数据大数据技术内部审计大数据

一、大数据及基本技术概述

（一）大数据概述

作为一个新兴概念，大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司（McKinsey & Company）认为，大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义：第一，随着时间推移和技术进步，符合大数据标准的数据集的大小会有所变化；第二，不一定要超过特定容量值的数据才算是大数据。此外，大数据研究机构高德纳咨询公司（Gartner Group）也对大数据给出定义：大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、快速和多样化的信息资产。这一定义提出了大数据的三大特征：大量化（Volume）、快速化（Velocity）和多样化（Variety），简称大数据的“3V”特点。近年来，随着对大数据的深入研究，大数据的特点逐渐由“3V”演变为“4V”甚至更多，包括：真实性（Veracity）、价值（Value）、可变性（Variability）、有效性（Validity）、波动性（Volatility）、复杂性（Complexity）等等，图1.1展示了大数据的特点。

（二）大数据技术

根据大数据处理的生命周期，大数据技术体系中的关键技术包括：非结构化数据采集技术、数据清洗筛选技术、数据分布式存储系统、数据并行计算分析技术、数据可视化技术等。

1.非结构化数据采集技术。大数据时代，数据信息来源十分广泛，包括手机、电脑、网络、卫星、社交媒体、交通工具、射频信号、电子发射器等。从这些渠道所采集的数据往往格式不一，对大量数据进行格式转换的效率低下，并会增加数据采集的难度。据统计，在现有大数据存储系统中，非结构化数据和半结构化数据约占80%，因此，传统的数据采集工具已经无法满足时代的需要，非结构化数据采集技术必不可少。如今，大多数互联网企业都建立了自己的大数据采集系统，例如：Facebook的Scribe系统、Cloudera的Flume系统、Apache的Chukwa系统、Linkedin的Kafka系统等。这些非结构化数据采集系统具有良好的可扩展性和容错机制，并且是开源的系统，用户可以根据不同需要选择适合的数据采集技术。

2.数据清洗筛选技术。在大数据采集之后，需要对海量数据进行简单的预处理，主要包括清洗技术和筛选技术。这两项大数据技术适用于将网络中的大量损坏、冗余、无用的数据进行彻底清理，优化多源数据和多模式数据，对采集来的数据进行整合，将高质量数据转化为信息，并加以提取用于分析。因此，数据清洗筛选技术能够控制不同来源的数据质量，为数据分析提供基础性的技术保障。Hadoop平台正是为了加快数据清理、数据转换、数据加载进程，提高并行数据预处理而开发的。概括来说，Hadoop是一系列开源产品的组合，其核心的内容是：HDFS（Hadoop Distributed File System）和MapReduce，HDFS可以为海量数据提供存储功能，MapReduce则为海量数据提供计算。

3.数据分布式存储系统。非结构化数据存储于分布式文件系统中，因而分布式存储系统在大数据时代相当重要。传统的数据存储系统采用集中的方式，将所有数据存储于一台服务器中，存储服务器的可靠性和安全性成为系统性能的瓶颈，也无法满足大规模数据存储应用的需要。而分布式数据存储系统采用可扩展的系统结构，借助多台服务器分担存储负荷，利用位置服务器定位存储信息，不仅可以提高系统整体的可靠性、安全性、可用性和存取效率，还具备可扩展功能。目前，常见的数据分布式存储系统主要有：GFS（Google File System）、HDFS、Lustre并行分布式文件系统、Ceph存储系统等。以HDFS为例，图1.2展示了数据分布式存储系统的运行模式。

4.数据并行计算分析技术。对于混合负载的大数据库进行分析处理是十分复杂困难的，对海量数据进行依次顺序计算分析不仅费时费力，还存在影响系统安全的风险。表1.1展示了大数据分析技术的基本要求，由此可见，数据并行计算分析技术是大数据分析的关键技术。

非结构化数据主要通过分布式计算结构进行处理分析，基于不同的计算模型。目前，主要的并行计算结构有如下三种：

第一，MapReduce模型。这一模型应用较为广泛，运用映射（Map）和规约（Reduce）函数，将一组键值对映射成一组新的键值对，从而保证所有映射的键值对共享相同的键组，适用于大规模数据集（大于1TB）的并行运算。

第二，Bulk Synchronous Parallel模型，简称BSP模型。这是一种具有可扩展并行性能的并行程序模型，与简单计算模型相似，但区别在于：BSP模型在每次运算过后，对所有节点都会进行同步处理，适用于迭代计算。Google的图算法引擎Pregel即基于此模型。

第三，DAG图模型。这一模型利用无回路有向图（DAG）描述复杂的计算处理关系和过程。微软公司的Dryad项目即采用这一模型。

5.数据可视化技术。数据可视化技术是指利用表格、图像、色彩、动画等形式，对数据信息加以可视化解释的技术。在大数据时代，面对海量数据信息，利用数据可视化技术能够更加直观、便捷的对数据分析结果进行展示，并进一步帮助研究人员进行大数据分析与挖掘。数据可视化技术适用范围广泛，涉及生物医药、气象地理、商务金融、社交媒体、公共服务等众多领域，并处在进一步发展开发阶段。

时代金融

2016年15期

大数据技术在金融行业内部审计中的应用探究

杂志排行

时代金融的其它文章