APP下载

“双一流”背景下商科院校数据仓库实验平台构建研究

2022-12-09李思维

科技与创新 2022年23期
关键词:数据仓库数据源双一流

李思维,徐 伟

(1.中国铁路兰州局集团有限公司,甘肃 兰州 730050;2.上海大学悉尼工商学院,上海 200444)

随着大数据时代的来临,越来越多的企业开始重视信息技术的发展,逐步建立部门级、企业级数据仓库。通过构建合理的数据仓库,企业可以集成存储生产信息、物流信息、人事信息等数据,并从相关数据中挖掘有价值的信息,及时做出科学决策以推动企业经营发展。数据仓库的应用遍布于各个行业,尤其是商科领域的应用效果显著,包括金融、财会、市场营销、管理、商务、物流、经济、人力资源管理等行业,对当代学生能够掌握构建数据仓库的方法提出更高的要求。合理建设数据仓库实验平台对提升当代学生实践创新能力具有一定的意义[1-5]。

国内高校很早就开始进行数据仓库实验平台构建的相关研究。2013年,同济大学提出构建数据仓库与数据挖掘教学实验平台[5],该平台可以开展Apriori、ID3、BP等算法实验,同时,可以在安卓移动端进行操作[6];2015年北京信息科技大学提出了基于专业信息的数据仓库实验平台建设思路[7];2018年安徽城市管理职业学院建立了习题式及项目式大数据实验教学平台[8];2020年大连理工大学构建了基于Hadoop的数据算法库教学实验平台[9]。目前,在建设数据仓库实验平台过程中,对数据源、数据标准与数据质量缺乏合理的处理技术及教学环境,无法对数据进行精准快速处理。针对上述问题,本文从数据仓库相关课程现状及提升学生能力的现实需求出发,提出了一种能够自主配置数据源、数据加载、数据清洗、数据可视化的智能化数据仓库实验平台。同时平台内置行业应用数据集,引导学生对数据进行智能化管理,提升学生解决实际问题的能力。

1 数据仓库实验平台的特点

目前,“数据仓库”课程开展过程中,教师主要讲述数据仓库的原理和应用,偏重理论教学,缺乏适量的实验教学活动。需要在完成相应的理论教学外,设计合理的配套实验,加深学生对数据仓库构建的深入理解。一个良好的教学实验平台具备如下特点。

1.1 数据集成

在进行数据仓库实验时,平台需要为学生提供多种可以使用的数据来源,确保学生可以接触多方面的数据,理解数据质量产生的原因。若平台提供的数据不够齐全,将导致学生进行的实验不够严谨,影响课程实验的效果。多方面的数据源是平台最主要的特征之一,可确保学生学习多样化。

1.2 良好的师生互动

在进行数据仓库教学平台设计时,需要保证学生与教师之间的交互,在教师布置任务时需要保证学生及时准确地接收到教师发布的作业,在学生提交作业时为教师提供批改与反馈的机制,确保双方具有和彼此沟通交流的机会。

1.3 可视化的简易操作

实验平台需要保证学生在进行实验时每一步操作都简易方便,并且操作的图标可以让学生不耗费太多时间就能记住并且熟练操作。

2 数据仓库实验平台的设计

数据仓库平台用来存储数据,为后续数据挖掘、数据分析及可视化分析提供服务,一般包括以下3部分:①多种数据源的连接。本实验平台提供多种数据源的访问接口,包括关系型数据库、分布式大数据库、文本数据,支持跨源跨库的分析。②ETL模块。提供丰富的处理转换组件,通过拖拽式的操作,实现了数据抽取、清洗、转换、装载及调度,用于构建数据仓库,完成数据融合,提升数据质量,服务数据分析。③数据处理及商务智能分析应用。具备数据挖掘处理功能,并可完成可视化报表构建,基于可视化工具完成数据分析等功能。数据仓库工作流程如图1所示。

数据仓库实验平台功能框架如图2所示。本平台基于B/S架构,学生只需要安装主流浏览器即可,通过访问网络地址,能够登录实验平台,开展实验教学研究。

数据仓库实验平台由登录页、实验操作区、师生互动区、作业管理区组成。

图1 数据仓库工作流程示意图

图2 数据仓库实验平台功能框架示意图

在“数据仓库”实验课上,任课教师预先导入班级数据。学生输入学号和密码进入实验平台,选择相应的功能模块进行后续实验操作。功能菜单包括实验操作区、师生互动区、作业管理区。在师生互动区,教师能够与学生在线交流和互动讨论。在作业管理区,教师可以发布实验,并设置实验有效期,学生可以完成实验并提交实验内容,教师可以对提交的学生实验进行在线批改。完成批改后,学生能够及时查看实验分数和批改信息。

实验操作区是数据仓库的核心功能区,主要包括数据源配置、数据加载,数据清洗、数据挖掘分析及可视化分析应用。本平台通过使用ETL—Kettle工具完成数据处理工作。Kettle平台作为功能全面的开源ETL工具,为平台的多种数据源和多种特色功能提供了保障,并且支持学生在平台内进行自主创新。

学生可以自主建立与不同数据源的通道,完成不同数据的加载工作。同时学生可以使用平台内置的爬虫框架对网页数据进行抓取。成功获取数据后,平台集成了Kettle的ETL工具,学生可以自主在实验操作区对数据进行过滤、排序和拖拽等多种操作。

学生可以完成数据集选择、Kettle操作界面、数据挖掘算法实验以及可视化实验,在进行数据抽取实验时,平台支持学生选择多种不同的数据源,通过Kettle建立数据库连接,包括本地的数据库连接及教师为学生提供的云端数据库连接,实验平台支持MySQL、SQL Server及Oracle等多种数据库,实验过程如图3所示。学生也可以选择使用平台提供的爬虫工具,将网站或网页内所需的数据进行提取,并将图片上的内容解析为文字,保证学生从自己所选的网址出发访问其相关网址的同时,从中获取自己需要且正确的数据。此外,该实验平台允许学生在平台内对需要的数据内容进行自定义并自行上传。在学生进行数据抽取实验时,平台会自动进行链接至Kettle,在使用学生所选择的数据来源之后,实验平台会确保学生可以及时准确地完成实验,并保存备份已完成的转换至平台内,以防丢失。

图3 数据仓库学生实验过程示意图

实验平台内置了多种现有的算法,在进行数据挖掘算法实验时,学生选择学习内容所需的算法进行实验,包括基于密度的聚类算法DBSCAN、粗糙集属性约简算法和BP神经网络等算法等[10],平台允许学生使用各种算法进行简单的数据挖掘,同时支持编写自定义算法对数据进行挖掘。本实验平台主要使用gcc编译器以供学生进行代码的编译[5],并对于学生已完成的代码部分进行及时保存。平台支持学生使用多种计算机语言,包括C++、Java、Python语言等进行编程,更加灵活。

在学生进行可视化转换时,实验平台将学生在实验时所使用的数据库自动导入进Power BI平台中,帮助学生快速对于所需可视化的数据库数据源进行选择,在进行编辑和建模[11]的同时完成可视化的实验。

3 结论

本文对商科院校当前的数据仓库教学现状进行了分析,探讨了学生掌握知识所面临的实验平台缺乏问题,阐述了开展数据仓库实验平台建设的重要性,从数据源、数据管理、数据处理及商务智能应用等方面提出数据仓库实验平台的设计方案,为双一流商科院校数据类课程提供指导性的解决方案。

猜你喜欢

数据仓库数据源双一流
基于数据仓库的数据倾斜解决方案研究
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
高校“双一流”能否打破身份制
“双一流”需 从去行政化做起
数据有增加 图表自适应
数据复用在存储数据仓库中的运用
异构数据源集成系统查询优化