APP下载

大数据时代教育数据治理探索

2021-04-29张晓慧

关键词:底层分析

张晓慧

(浙江财经大学 党校办,浙江 杭州 310018)

在信息爆炸时代,人们越来越多地用“大数据(Big data[1])”来定义和描述工作、学习和生活等过程中产生的海量数据.随着大数据技术的飞速发展,大数据已渗透入各行各业,价值逐日凸显,国家试图通过大数据来推动社会变革[2],把其列为国家战略[3].在我国,大数据也早已被列为国家发展战略,对于学校而言,由于受地域、经济等因素的影响,各地各校信息化发展不一致,但大多已从基于服务器、网络等硬件设备的MIS系统,转变为基于虚拟化、专用数据中心机房等硬件设备的一站式信息服务平台.信息化过程中产生了结构化的常规业务管理数据、非结构化的多媒体教学资源数据、以及位置追踪数据等多维度、大体量的教育数据.“当今社会所独有的一种新型的能力:以一未有的方式,通过对海量数据进行分析,获大价值的产品和服务,或深刻的洞见”[4].因此,数据问题限制了智慧能够达到的高度,如何更好地建立大数据思维[5],分析教育大数据治理的现状和瓶颈,合理规划应对之策,着重攻克教育大数据治理中的技术难点,是教育大数据建设的必然趋势和努力方向.

1 教育大数据治理的现状与瓶颈

首先,从数据治理基础来看,现有数据范围不足,在质量上也有困扰.不同于互联网企业基于盈利导向的数据处理方式,金字塔结构、高效执行的数据底层结构,主动全面收集用户数据甚至收购公司补充数据形成的数据基础强的局面,学校数据处理基础是非盈利的,基于烟囱式系统建设,各块业务呈现割裂状态,不可避免地产生了“信息孤岛”[6]:一方面,在信息化发展的起步阶段,学校综合考虑各个部门之间的业务关联意识淡薄,没有站在学校发展的立场完成顶层设计的理念[7];另一方面,整体上未具有数据规范和数据化管理思维,随着信息技术的不断升级,各个系统之间的差别逐渐显现出来,所采用的信息编码标准不统一,资源分类方式不规范,信息储存格式不一致[8],数据底层薄.在进行数据治理时,现有的数据范围明显不足以满足需求,即便是已有的数据,也无法便捷地对其进行挖掘和分析.

第二,从数据治理现状看,需求日益强烈,底层计算组件无法有效融合,在实施时有困难.随着学校建成的信息管理系统越来越多,跨部门、跨系统、跨数据库的数据需求越来越强烈,大家都希望能以灵活便捷的方式对数据进行收集、分析,获取其中蕴含的巨大价值[9].其中,多维数据分析挖掘、一站式服务应用、各类数据上报业务(高基表、人才状态数据等)已成为当前及未来主要数据消费场景,“分析型、服务型”应用对于数据提出了更高的要求.使用需求越来越强烈,但事实上,底层计算组件无法有效融合给数据治理带来了极大的资源浪费和运维困难,各已有的应用系统数据只存不用,能够使用表数据表个数、贡献表数据表个数非常少.

第三,从数据治理发展来看,数据治理成果无法便捷复用,数据对接耗时耗力,每负责一个项目就像“掉了层皮”.应对当前数据消费的强烈需求,部分高校已建成了相当数量的数据应用平台,然而数据治理成果无法便捷复用是困扰当前学校数据治理的最大的因素.一是各校建设大数据分析项目,引入了不同厂商,结果数据集成对接工作复杂,且项目建设期间厂商底层环境不同,各自部署了不同的数据集群;二是在数据治理整个项目周期中,前期人工实施占据80%左右的时间,所有过程都在线下或人的脑海里,导致项目验收后无法将数据治理体系传承下来,无法保证数据的持续扩充,工作量大且无经验可循.数据对接耗时耗力,每负责一个项目就像“掉了层皮”.

2 教育大数据治理的关键技术

教育大数据的现状和瓶颈决定了大数据治理之路不会一帆风顺,需要从数据底层结构、系统设计等方面进行总体规划、分步实施,着重攻克数据挖掘、学习分析、测评分析等技术难点[10],任重道远.

2.1 数据挖掘模块

传统数据治理范围仅对中心库(或称主数据库)内容进行数据治理,无法覆盖全量的学校数据,包括学校归档数据,历史版本数据等.数据治理与共享交换平台是以“统一标准”“统一处理”“统一交换”[11]“保证质量”“透明开放”的方式,允许全量数据(第三方系统数据源)在平台进行注册,并纳入到数据服务体系的治理流程中,为各类数据格式、数据库、底层架构和业务系统之间提供数据交换与共享服务的平台,重新梳理数据资产,实现数据标准管理、标准调研、导入、交换、形成报表等功能,同时常态化监控学校现有数据情况.

2.1.1 数据量

教育大数据的单位通常为TB、PB,乃至EB[12],数据量大并不代表有效数据量大,因此,在数据分析之前必须对其进行数据清洗,通过合理应用数据挖掘算法,提取其中的有效数据.

2.1.2 特征维度

创建适用的算法,如基于列存储的大数据分析系统物化策略、MapReduce并行连接算法等,应对可能出现的因数据对象属性矩阵中的属性、对象数量庞大而导致的维度灾难.

2.1.3 数据关系

通过设置关联条件、属性等方法,有效揭示分散于不同数据源中的关联信息与知识.

2.1.4 算法性能

应充分考虑算法的实时性、伸缩性、扩展性等性能,选择最优算法.

2.2 分析与测评模块

数据治理与共享交换平台提供各业务系统数据接入的接口,实现数据交换平台和各信息系统的有机结合[13],以统一的数据模型、接口规范和质量标准,实现数据自动提取、数据转换、数据校验、数据审核等功能,支持数据同步、历史数据迁移等,在此基础上可设计实际运行的分析与测评模型[14],实现动态钻取.

2.2.1 相关分析

通过挖掘数据中的关联规则和序列模式,从学习到的数据中挖掘出相关的规则,揭示某种规律.

2.2.2 模式识别

通过应用仿真模拟、拓扑分析、数据建模等模式识别技术,实现智能化的自动处理和判读,使学习到的图像、语音等数据发挥其真正的作用.

2.2.3 预测分析

通过应用时序分析、决策树、回归分析等预测分析技术,预测学习到的图像、语音等数据的发展结果.

2.2.4 文本分析

通过应用概念挖掘、文档摘要、文本聚类等文本分析技术,发现学习到的文本中隐含的信息.

2.3 权限管理模块

根据不同系统用户的类型、账号、组织信息和角色,为其分配不同级别的访问权限,并可以对按不同业务主题建立的信息集中的数据内容进行管理,包括数据内容的访问权限以及系统元数据的访问权限进行控制,修改增加新的业务数据集,查看数据详细内容,并且可以实现数据的导入与导出.同时,数据治理与共享交换平台使用分布式技术,将数据统一集成在一套任务流程下,通过任务监控可以清晰看到数据从采集、ETL、供数等环节的执行情况,实现全流程监控.

2.4 查询模块

数据治理与共享交换平台的连接方式依托数据项的组合进行资源目录的发布,实现任意两点的数据同步,并在同步过程中执行治理,实现的数据联动,快速反应,为实时、可靠查询提供可能.

1)实现高综报表、学科报表、专项报表等服务,支持报表的历史管理、日志管理、数据调整和校对.

2)提供各类信息查询服务.

2.5 系统架构及功能要求

目前市场上,很多厂商提供的数据治理或者共享数据交换平台,以ODI和Kettle工具居多,随着任务量增多,就容易出现瓶颈,数据治理出现误差,工作效率降低.因此,数据服务平台将学校信息资源依据规范的数据描述,按照一定的分类方法进行排序的一组信息[15],用以描述学校各个信息资源的特征,以便于对全校信息资源的检索、定位与获取,为学校数据共享提供支持与指导,同时具有良好的扩展性,支持对各类服务进行分布式部署和注册,支持设定应用管理员.

3 教育大数据治理的应对之策

应对数据治理的现状和瓶颈,可以通过建设“大中台、小前台”的智慧校园架构(见图1),自下而上地封装底层计算组件,可视化计算任务调度,自上而下地统一应用编程接口(简称API),给数据中心插上海量数据“存储”和“计算”翅膀,实现应用与数据“解耦”,通过接口“屏蔽”底层,提升数据可“复用”性,让数据管控变得“简单”.

图1 大中台、小前台的智慧校园架构(基于数据角度)

3.1 实现全量数据兼容

建立关系型/非关系型数据统一汇聚端的数据平台,融会贯通关系型数据库(Oracle、MySQL、SQLServer、Postgress……)、非关系型数据库(HDFS、MongoDB、Hive、ElasticSearch……)和扩展支持数据库(第三方WebService、Redis、Kafka……)的各类数据,实现全量数据兼容[16].

3.2 标准化数据资产集

标准化设置校内全量数据的统一资源目录[17],预置全量标准数据集,建立清晰明了的数据资源目录结构,依托数据项的组合进行资源目录的发布,实现任意两点的数据同步,并在同步中执行治理,同时构建统一的数据返回格式.

3.3 统一API数据服务

构建统一的API数据服务,只要能够获取到数据表/视图,便支持封装为API发布(兼容任何厂商);实现无编码化操作、可视化配置,1分钟内发布一个数据API;支持跨库、多表关联发布为API,实现一次治理,多次复用.

3.4 在线数据调用体系

通过数据项与资源目录管理,建立连接开发商、校内核心数据、信息中心的统一渠道,将数据治理与数据交换融合打通,极大限度地降低数据对接和共享的门槛,一套流程,完成在线数据调用体系建设,实现全面盘活数据资产的最终目的[18].

3.5 可视化计算能力输出

通过屏蔽底层组件的复杂性,提供高性能计算服务,如复杂数据计算处理、分析模型构建管理能力、调度能力的统一支撑和下放等;改变当前大数据应用开发方式,分析应用只需要考虑前端页面逻辑和展现;支持多种语言,并提供自动化调度功能.

本文分析了大数据时代教育数据治理的现状和瓶颈,认为在教育大数据治理时应将分散在教、学、研、管多层面的有效数据整合起来,建立大中台、小前台的智慧校园架构,融合底层计算组件,复用数据治理成果,总体规划、合理设计教育数据治理中的关键技术点,使教育大数据治理得到本质上的提升,最大限度地发挥数据本身蕴含的巨大价值,更好地为学习者、教师、管理者提供服务.

猜你喜欢

底层分析
航天企业提升采购能力的底层逻辑
民航甚高频通信同频复用干扰分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
在底层
回到现实底层与悲悯情怀
南太平洋环流区底层水可培养细菌多样性研究
在线教育与MOOC的比较分析
中国底层电影研究探略