APP下载

数据科学与大数据技术专业实践能力培养体系的探索与实践*

2018-07-04李知遥张志强

关键词:数据挖掘科学资源

杨 洪 李知遥 张志强

(成都大学 信息科学与工程学院, 四川 成都 610106)

一、引言

近年来随着全球数据爆炸性地增长,大数据风暴席卷各行各业。大数据时代强势来临,为高等院校的数据类人才培养提供大量机遇的同时,也带来艰巨的挑战。这就要求我国高等教育必须迅速拿出数据类人才培养的应对策略。2015年5月,清华大学正式启动中国首个混合式教育硕士学位项目“数据科学与工程”专业硕士,开始了数据类专业研究生教育[1]。2016年2月,教育部公布新增“数据科学与大数据技术”本科专业,首批仅有北京大学、对外经济贸易大学和中南大学3所高校获批,开始了我国的数据类专业本科教育[2]。2017年3月,又有32所高校获批,2017年共有35所普通高校能够招收“数据科学与大数据技术”本科专业[3]。

数据科学与大数据技术专业明显处于发展初期,而且是飞速发展,需要规范成熟的培养体系和建设规划作指引。然而,在数据科学与大数据技术专业人才培养体系上,可借鉴的经验还十分匮乏。夏大文等[4]以贵州民族大学信息管理与信息系统本科专业为例探讨了大数据人才培养的途径和方法。刘一颖[5]对高校大数据人才培养面临的问题进行了分析,并对教学内容和实践环节给出了一些建议。黄晋[6]论证了开设大数据系列课程的必要性,探讨了大数据相关课程的教学内容和实践形式, 提出校企合作对培养大数据人才具有推动作用。何海地[7]对美国23所知名大学数据分析硕士教育的背景、现状、特色与启示进行了分析研究。周傲英等[8]阐述了数据科学与工程学科的特点、学科内涵与知识体系,并探讨了数据科学与工程学科的建设思路。冯永等[9]以研究生与本科生协同创新培养为例,提出了分层、分级的大数据产业技术人才协同创新培养模型、主客观结合的人才培养模型,以及课程体系及培养方案的递归修正模型。曹淑艳等[10]以对外经贸大学为例,提出大数据专业人才应该能够围绕互联网平台上经济金融数据的商业价值进行挖掘,并揭示数据间的关系。

数据类本科专业实践能力培养体系,关乎数据类人才培养是否符合实际用人企业和单位需要的关键环节,但是目前可以借鉴的成功案例非常稀缺。成都大学自2002年开设信息与计算科学专业以来,一直以培养数据挖掘与数据分析人才为目标,经过多年的探索与实践,积累了一些数据类本科专业实践能力培养方面的经验和成果。本文以该专业为例,论述了数据科学与大数据技术专业人才培养过程中实践能力的探索与实践, 为培养高素质的数据人才提供有意义的参考。

二、数据科学与大数据技术专业能力培养需求定位

数据科学与大数据技术专业强调培养具有多学科交叉能力的大数据复合型人才,不仅要求学生具备数学基础和应用能力,计算机编程能力,数据获取、转换和存储等能力,而且要在一定应用领域具有数据分析和数据挖掘等多项综合能力。因此,该专业人才不仅应掌握计算机科学、数学、应用统计学等基础专业知识和经济、生物、化学、物理等交叉学科知识,还要求具备电商、金融、交通、通信、互联网等应用领域的相关应用技能,才能进行商业数据分析、科学数据分析和自然语言处理,并能够在数据获取、存储和检索等方面进行深入了解和亲身实践。从其社会和市场需求定位来看,数据科学与大数据技术专业培养的人才的能力需求如图1所示,主要可分为以下三方面素质:理论性能力、实践性能力和应用性能力。

图1数据科学与大数据技术能力需求

(一)理论性能力需求

理论性能力主要是指对数据科学中各种模型和算法的理解和运用。该专业致力于培养具备全面能力的学生,使学生掌握扎实的数学、统计学、计算机科学和数据科学等相关理论知识,充分适应大数据行业的多元化需求,为之后的工作和后继学习打下良好的基础。在理论上,需要学生有较强的数理统计基础、数学建模能力、扎实的数据结构和算法基本功,能够很好地理解和掌握各种机器学习和数据挖掘算法,还要求学生掌握处理“大数据”的先进技术和理论,即掌握与云计算相关的大数据处理平台及其生态系统。

理论性能力主要在数据科学与大数据技术专业理论课程体系中培养。

(二)实践性能力和应用性能力需求

实践性能力,主要是指处理实际数据的能力;而应用性能力,则是利用大数据解决具体行业应用问题的能力。在实践上,要求学生具备海量数据采集、数据存储、数据管理、数据分析与挖掘以及数据可视化的工程实践能力,掌握数据处理各个环节的基本技能。在应用上,需要学生掌握与数据来源紧密相关的新技术的融合与互动,即理解和掌握物联网、移动互联网的相关理论和技术,并具备学习能力、沟通能力和团队合作能力,实现毕业后的无缝对接。

实践性能力和应用性能力主要在实践能力课程体系中培养。

三、数据科学与大数据技术专业培养体系的探索

由于数据科学与大数据技术专业从2016年6月开始招生到现在仅有两个年级的学生,没有成熟的培养模式和经验可以借鉴。而成都大学信息与计算科学专业从2002年开始招生以来就坚持以“数据分析和数据挖掘”为培养特色,学生毕业以后大多从事数据分析相关工作,和数据科学与大数据技术专业有高度相似性,到现在已有十届毕业生。因此,下面主要以成都大学信息与计算科学专业的培养实践为实例,探索数据科学与大数据技术专业的培养体系,特别是实践能力的培养和训练。

成都大学信息与计算科学专业从通识素养、终身学习、理解能力、建模能力、程序设计、数据处理、团队协作、沟通交流、知识迁移九个方面培养具备数据挖掘能力的应用人才。专业课程以数学作为主干学科进行课程设计,核心课程有数学分析、高等代数、数学建模、概率论与数理统计、数据仓库与数据挖掘、数据库原理及应用、应用统计学、运筹与优化、数据分析软件及应用等。要求学生在学习数学与信息科学的理论和方法中,具备科学素养、创新意识、解决信息技术和科学工程中的计算的能力。

(一)专业知识结构

数据科学与大数据技术专业需要掌握数学、计算机科学技术、统计学和信息管理等多个学科的知识,是这些学科以及其他领域学科知识的复合、交叉与渗透。然而,它和计算机科学技术、统计学、信息管理、数学等相关专业又有本质区别,这些专业是以各自学科知识为核心,对各自领域的科学问题进行理论或科学研究。该专业与计算机科学技术相关专业侧重于计算机软、硬件理论研究不同,该专业强调学生对专业领域数据的理解能力,所使用的计算机技术要为数据服务。该专业在数据分析环节必然要用到数理统计的方法,但强调的是数据在获取、清洗、存储、处理和展示等各个环节与IT技术的深度融合。统计学专业处理的一般是结构化数据,而该专业往往需要处理半结构化和非结构化的数据。本专业在数据应用有时需要信息管理知识。信息管理专业侧重于借助计算机技术改造升级原有的业务系统,而本专业更强调对数据本身的洞察与理解,专注于海量数据的深度分析和处理,更依赖于大数据处理平台和技术。

如图2所示,我们对数据科学与大数据技术专业的知识结构进行了分析。数据科学与大数据技术专业研究的核心对象是“大数据”,是以坚实的数学知识作为基础支撑,以大量的计算机科学相关知识为技术支撑,还要一定的数理统计知识提供方法支撑,以及许多应用相关领域的业务知识进行大数据的信息管理做应用支持。

图2数据科学与大数据技术的专业知识结构

(二)理论课程体系

目前满足市场需求的大数据人才应该掌握数学、统计学、计算机科学、管理学、金融等多学科交叉知识,能对数据做出预测性的价值分析。因此教学体系的框架在这个基础上应该以大数据为核心,设置相应比例的必修课、选修课、通识课,通过分析选课情况,实现复合交叉课程体系的全面发展。

1. 数学类及统计类课程积累理论知识

大数据的应用需要掌握数学知识作为理论基础,通过数学应用技术来实现。所以在课程体系中应该开设数学课程如数学分析、高等代数、概率论与数理统计、应用统计学、数据库原理及应用、数据仓库等,着重培养学生的数学应用能力,为更深入的学习做好准备。

2.计算机类课程提高编程能力

大数据的挖掘和分析要借助计算机来实现,在实际应用中需要学生掌握相关工具的使用方法,具备足够的编程能力来解决问题。所以在课程体系中应该开设与数据挖掘和数据分析配套的计算机编程类课程,如C语言、PYTHON、SQL等。

(三)实践能力课程体系

根据中国信息通信研究院孙鑫的观点[11],如图3所示,大数据产业的核心要素可以分为数据资源、数据基础能力、数据分析和展示、数据应用等四个组成部分。其中,数据资源部分负责原始数据的供给和交换,主要包括数据资源提供者和数据交易平台;数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应,包括数据存储、数据处理和数据库等;数据分析和展示部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等,包括商业智能、可视化和通用数据分析工具,以及语音、图像等媒体识别服务;数据应用部分则是利用数据分析和加工的结果,面向电商、金融、交通等行业,为其提供精准营销、信用评估、出行引导等服务。

图3大数据专业核心要素

围绕大数据产业核心要素的四个层次,我们将数据类课程实践性教学环节按实验性质分为四个层面:

第一是数据资源的实验,包括数据获取、数据清洗、数据爬取等技术训练。成都大学设计的“数据爬取工具应用”和“基于网络的人才招聘数据搜集”等实验,能提升学生数据搜集和整理的技能。

第二是技术基础类的实验,包含数学建模、数据库、程序设计、云计算平台的建设与开发等。大数据的分析和挖掘需要通过数学建模实现,所以在课程体系中应该开设数学建模类课程,强化学生的数学建模能力,使学生熟悉建模知识与思想,快速准确地捕捉到数据挖掘的目标。结合数学建模综合案例及数学建模竞赛等课程,对任务进行合理的分解与安排,培养团队合作交流能力,保证项目顺利有序地实施。还设置了 “利用SAS建立数据库实验”、“PYTHON程序设计”和“建立淘宝领域专业词库”等课程设计等,提高学生的数据科学编程技巧。

第三是数据分析及展示类的实验,包括机器学习、大数据分析与处理、大数据可视化。在成都大学,设置了“市场数据分析”、“企业财务数据分析”、“电商数据分析”、“web数据挖掘”等实训项目,提高学生的数据挖掘能力和数据分析能力,积累大数据挖掘和分析的经验,提升实践能力等。

第四是综合应用类实验。为了培养学生的大数据素养,提高综合业务应用能力,需要设计一门综合性实践课程。在成都大学,设计了“金融证券大数据综合实验”、“电信大数据综合实验”和“电商交易大数据综合实验”等。

统计得2001—2016年春季暴雨雨日共11 d,通过影响系统的分析发现(表1),在11次过程中,有8次暴雨都伴随有低空切变和地面倒槽的存在;高空槽,低空急流,地面冷空气也是重要的影响系统;春季是冷空气较为活跃的季节,有4次过程是高空有槽东移或急流存在,中层配合切变或低空急流,而地面先为倒槽控制,之后冷空气南下影响,冷暖空气交汇导致暴雨的发生。另外东北冷涡也是非常重要的影响系统,有4次暴雨与之有关。

四、实践能力培养体系的建设

(一)产学研三位一体的资源体系建设

利用产学研活动中产生的数据资源,项目资源,社会资源,建立循环产出的资源体系,为数据类人才培养提供丰富的教学资源。通过科研项目和合作项目,培养学生的动手沟通能力和解决实际问题的能力,满足企业或机构的用人标准,实现无缝对接。

1.基于产学研活动的丰富资源分类和集中

近年来,教师团队已经成功立项数据科学类纵向科研项目12项,其中省科技厅项目7项、省教育厅项目1项、成都市科技局项目4项,都转化成了学生丰富的项目资源。在成都大学,集成了Web数据、股市数据、招聘信息数据、项目脱敏数据、计算机仿真数据等适用于教学、科研及示范推广的公开数据,招投标数据、专利数据、电商数据、电信数据等适用于校企合作项目、已就业学生在数据类领域的技术咨询的内部数据,为学生构建丰富的数据资源。将校友资源、校企合作关系下的社会企业资源以及特聘的校外专家资源,建设成本科专业的社会资源。建立有效的分管体制,对资源体系中的各个项目或流程实时跟进,精准收集产学研活动中产生的大量项目资源、数据资源和社会资源,并筛选出其中的无效资源,再对保密内容进行脱敏处理最后按照应用领域进行分类。

2.基于云平台的资源管理和环境架构

在成都大学,已经建成了3个基于云平台的数据仓库:基于云平台的证券数据仓库、电商示范性数据仓库和基于大数据的创新创业数据平台。将已分类的资源进行备份保存,通过云服务厂商提供的基础模块化服务,借助云存储技术搭建云服务器,并完善配套的应用和服务,使资源和使用者达到双向交互,实现数据的存储、读取、下载、上传、分享和管理。

3.基于数据科学与大数据技术专业的资源体系建立和工具平台建设

在工作时间保持对云平台服务器的维护和完善,建立良性循环的资源体系,充分利用体系优势,实现资源的高利用率和回收率,培养学生使用数据资源的能力,引导学生从项目做起,提升实践能力,并在产学研活动中完成数据的再利用和新循环。

4.融入管理等选修课程,培养团队交流合作能力

5.辅修金融等行业知识,强化特定应用领域知识

大数据的应用需要特定领域的知识背景,尤其金融与投资是大部分场景都会涉及的知识,为了确保学生能力的迁移性,应提前做好相关知识的学习。所以在课程中应该开设金融类课程,预先储备相关行业知识,使学生在日后的工作学习中有的放矢,事半功倍,更好、更快、更强地完成相关任务。通过课外作业等方式,引导学生自主学习,同时培养自学能力,为工作打下良好的基础。

(二)数据科学与大数据技术专业教学体系的形成

为了培养市场需要的具有复合型能力的数据类人才,我们借助产学研活动建立了资源体系和产学研一体化的多层次的教学体系。该体系将教师的科研、教学与学生的知识学习以及科创活动紧密结合,打造出以需求为导向开展科研和教学、以科研促进教学和学生科创、教学科研与校企合作相辅相成的一体化的教学体系。

1.校企合作,结合实践开展教学

通过校企合作和引进双师型人才,使主讲人具备教师与工程师双重身份,改变理论与实践分离教学的局面,走出重理论轻实践的误区,建立完善的教学体系,实现理论实践课程的一体化,引导学生把理论知识延伸到实际应用中去。目前成都大学与北京千锋互联科技有限公司、成都国信安信息产业基地有限公司、中国协同创新网、西部数据有限责任公司、科学出版社成都有限责任公司等多家企业建立了合作关系,企业的一线从业人员作为讲师能够结合相关数据行业的发展情况,引导学生紧跟时代潮流,学习新兴技术,设置合适的实训项目提高学生的实践能力,实现全面发展。

2.师生传承,结合科研开展教学

导师应具备科研能力,能够结合相关领域的科研现状带领学生紧跟时代学习前沿知识,拓宽课堂的广度,增加教学的深度,为学生的发展方向作出合理的引导和建议,提高学生的成才率,能够利用构建好的资源体系,实现科研项目在师生和校企之间的继承、分化和循环。如“基于文本挖掘的淘宝网店客户评价文本意见倾向性分析”、“基于语句树方法的电子商务客户产品评价特征分析”、“基于数据挖掘的股票波段特征提取”等项目都是继承于教师科研项目的学生子项目。学生通过这些项目的研究工作,能够进一步加深对理论和实践两位一体的理解。

3.跟进课堂改革

改变主流教学模式的扁平性,拓展课堂的深度、宽度、长度,为数据类人才培养提供最有效的教学模式。

(1)翻转课堂

把课堂还给学生,让学生参与教学过程,教师由主导者转变为组织者,培养学生自主学习的主动性,有针对性地解决学生暴露出来的问题。采取分组合作的方式,合理搭配各个层次的学生,在互帮互助的过程中完善自我,培养学习氛围。

(2)网络教学

充分利用信息化优势,拓宽课堂的知识量,补充传统课堂由于时间和环境限制所欠缺的知识点,为复合课程教学提供可能。同时能够丰富教学方式,提升课程吸引力,降低学生的理解难度,通过在线习题的方式,即时反馈,在监督的前提下培养学生的自学能力。

4.培养学习氛围

(1)以战养兵

充分利用资源体系,通过科研项目和合作项目中分化的子项目培养学生的实践能力和协调能力。在校内组织多层次比赛,引导全员参与,在提升学生能力的同时测试技术水平,根据比赛结果,检验教学成果,灵活调整教学计划。组建OJ平台,培养学生在课堂外的自学能力,同时提升他们的编程思维和技巧。借助科创室的引路作用,帮助学生确定方向,夯实专业基础,通过分组合作的学习方式,提高学生学习的积极性和主动性,实现互帮互助。

(2)以武会人

鼓励学生参加国内、国际竞赛,如数学建模竞赛、蓝桥杯、ACM竞赛、挑战杯和各类创新创业科技实践活动。90%以上的数据类本科学生毕业前都参加过至少一项课外科技竞赛活动,以培养数学建模能力和编程能力,发展团队协调能力和学习能力,相关奖项也可以为之后的工作或继续深造提供机会。与高校和企业加强联系,有利于资源体系的建立,通过合作项目锤炼学生的实践能力,深化合作关系,争取实习岗位的优先权。

五、人才培养成果和反馈

近年来,成都大学信息与计算科学专业坚持以“数据挖掘与数据分析”为特色,以培养学生的实践与创新能力为核心,不断推进人才培养模式改革。在主要教学环节中渗透工程教育思想,强化学生的实践能力与创新能力培养,建立了贯穿人才培养全过程的协同创新教育体系,在人才培养上取得了丰硕的成果和宝贵的经验。

(一)实践教学成果

在以市场需求为导向的人才培养目标指导下,经过几年的探索与实践,成都大学数据类人才培养取得了丰硕的实践教学成果。到目前为止,成都大学信息与计算科学专业的学生已经获得全国大学生数学建模竞赛国家级、省级奖励181人次;17名学生公开发表了学术论文;3名学生获得全国数据挖掘挑战赛三等奖;校级学生科创立项6项。

(二)师生科研项目

在以产学研活动为基础的专业资源体系支持下,成功实现了由资源到成果的转化。其中教师的科研项目有“大数据挖掘协同应用模式研究”和“基于数据挖掘的网络店铺营销数据分析与决策支持系统”等。学生的创新项目有“基于商品特征时间窗口的RFM模型”等。这些项目也为成都大学信息与计算科学专业学生的论文和课题提供了资源支持。

提高数据科学与大数据技术专业学生实践能力和创新能力,既是经济社会发展对人才素质的要求,也是学生自我发展和增强就业竞争力的现实需要。本文为“数据科学与大数据技术专业”实践能力培养体系的建立,进行了有益的探索和实践,为大数据人才的培养提供了一些有价值的参考。

参考文献:

[1]赵婀娜.清华首推混合式学位“数据科学与工程”专硕[EB/OL].(2015-05-14)[2017-07-27].http://www.tsinghua.edu.cn/publish/thunews/9661/2015/20150514165048320165286/20150514165048320165286-.html.

[2]教育部.教育部关于公布2015年度普通高等学校本科专业备案和审批结果的通知[EB/OL].(2016-02-19)[2017-07-27].http://www.moe.edu.cn/srcsite/A08/moe-1034/s4930/201603/t20160304-231794.html.

[3]教育部.教育部关于公布2016年度普通高等学校本科专业备案和审批结果的通知[EB/OL].(2017-03-17)[2017-07-27].http://www.moe.edu.cn/srcsite/A08/moe-1034/s4930/201703/t20170317-299960.html.

[4]夏大文,张自力.DT时代大数据人才培养模式探究[J].西南师范大学学报(自然科学版),2016,41(9):191-196.

[5]刘一颖.大数据时代高校数据型人才培养探究[J].传承,2015(12):112-113.

[6]黄晋.关于大数据人才培养的思考与探索[J].教育教学论坛,2014(45):201-203.

[7]何海地.美国大数据专业硕士研究生教育的背景、现状、特色与启示——全美23所知名大学数据分析硕士课程网站及相关信息分析研究[J].图书与情报,2014(2):48-56.

[8]周傲英,钱卫宁,王长波.数据科学与工程:大数据时代的新兴交叉学科[J].大数据,2015,1(2):90-99.

[9]冯永,钟将,李学明,等.大数据高级技术人才协同创新培养研究与实践——以计算机全日制专业学位研究生与本科生协同创新培养为例[J].中国电化教育,2017(6):35-44.

[10]曹淑艳,张莉,黄浩.大数据本科专业申报及认识[J].计算机教育,2016,258(6):30-33.

[11]孙鑫.我国大数据产业发展态势分析及建议[EB/OL].(2016-12-09)[2017-07-27].http://www.cttl.cn/tegd/jshqsh/201612/t20161209-2184284.html.

猜你喜欢

数据挖掘科学资源
基础教育资源展示
探讨人工智能与数据挖掘发展趋势
一样的资源,不一样的收获
点击科学
科学大爆炸
资源回收
资源再生 欢迎订阅
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
科学拔牙