APP下载

对大数据时代的统计学教育研究

2018-12-07

新商务周刊 2018年18期
关键词:人才统计学时代

互联网的普及已经产生了一个大数据的时代,人们的方方面面都产生了大量的网络数据信息,大数据时代的数据量更大、结构更复杂,因而从大数据中挖掘有价值的信息资源具有重要意义。大数据人才要求具备数学、计算机、统计学的综合知识。本文主要从人才素质的培养、知识结构的形成、课程设置的调整以及应用型人才的培养四个方面,对大数据时代的统计学教育提出了相应的建议。

1 大数据的特征及背景介绍

大数据最重要的特征是具有"4V"的特点,即Volume、Velocity、Variety和Veracity:1.数量大,其数量已经达到了PB级和 ZB级别;2.类型多,数据的结构类型多样,包括网页、图片、音频、视频等格式的数据;3.高效。如今数据的产生十分迅速,同时也需要高效的数据处理迅速对其作出反应,高效、及时、连续不断的的数据监测、处理,可以避免数据死角,实现全方位监测,提取有价值的信息。4.真实性。真实是数据处理的最终目的,大数据可以通过适当的统计学的研究工具和方法获得真实的数据分析结果,但由于大数据的易得性和泛滥性,导致数据的信噪比越来越大,数据的真实性受到了挑战,所以需要通过新的统计工具和方法降低信噪比。

大数据对传统产业造成了冲击,比如传统的媒体报纸行业日渐没落,而互联网企业则发展迅猛,任何行业都可以通过做“互联网+”得到快速发展。大数据促使信息获取方式的变革,较大的样本量也变得极容易收集,数据的维度也在不断的扩张。比如人们在观看视频和网络新闻时表的评论也成为了信息的监测的对象,增加数据来源的渠道。大数据促使信息推送方式也就是广告的变革,浏览器通过追踪定位记录用户浏览的信息,广告商根据用户访问记录投放更加精准的广告,从而带来了一个精准营销的时代,数据是企业了解市场与自身发展趋势的主要依据,但是国内由于大数据起步较晚,还没有建立起为大数据人才制定的一套独有的教育模式,而统计学是研究数据的学科,因此从统计学入手培养数据人才是目前最便捷的教育方式。大数据与统计学二者是有紧密联系的,体现在对数据的处理流程有很多相似之处,都需要做数据采集和分析。但二者也有区别,主要体现在研究目的和技术上。大数据的目的是挖掘出商业投资、金融分析、风险管理和医疗健康等领域的有价值的信息,涉及的技术有数据库、分布式文件系、云计算平台、互联网和可扩展的存储系统等。而统计学主要目的是发现数据背后的本质和规律,以概率论、抽样推断和相关回归分析等数理统计原理为研究方法。因此,如何利用统计学的传统优势,对统计学教育进行改革,培养大数据人才是本文主要探讨的内容。

2 大数据时代的统计学教育研究

2.1 人才素质的培养

大数据时代的统计学教育首先需要培养学生的自学能力,因为需要多学科的知识融合。其次,是沟通能力的培养。大数据统计工作者在工作中需要经常会与各个部门的员工交流沟通,传达结论给产品经理和工程师,共同确立最合适方案,并能将专业的数据分析结果用通俗易懂的语言表达出来,可通过积极的多参加演讲活动培养数据人才优秀的沟通表达能力;最后,需要培养数据敏感性,提高其视野和眼界。数据科学家经常面对各种各样的海量数据,并需要从这些数据中挖掘出有价值的信息,这就需要数据科学家具有强烈的数据敏感性。数据敏感性是无法一蹴而就的,而是通过长期的数据分析工作和阅读数据分析报告的经验积累的。

2.2 知识结构的形成

统计学家是需要具备数学、统计、计算机知识的综合型数据人才,因此统计学学生不仅要学习统计学理论知识,还要学习计算机和数学方面的知识。计算机方面,熟练应用计算机软件是数据人才进行数据分析的基础。因此,企业招聘统计数据人才时一般都会要求其至少会使用一种脚本语言,如 Python、PHP等,精通数据库和SQL,会使用R、MATLAB、SAS等分析工具以及可以使用Map Reduce、Hadoop、Hive等计算工具,可用 Hadoop、Pig做大数据分析,可以编写复杂 SQL查询流程,可以用数据库、统计软件编写程序代码。数学方面,除了高等数学、线性代数、概率论等基础课程,还应该学习随机过程论、函数逼近论、图论等方面的知识。因为随着数据分析研究问题的深入,所有的统计问题、计算机问题的本质都是回归到数学问题,只有拥有更加有深度的数学理论知识,才能满足大数据时代数据科学家的需要。

2.3 课程设置的调整

我国目前的统计学研究生教育课程设置更偏向于经济统计方向、数理统计方向、金融统计与风险管理方向。统计学研究生必修课包括高等概率论、高等数理统计、回归分析、多元统计、时间序列分析、探索性数据分析、统计调查和英语、思政等;选修课包括金融统计实务、定性数据分析、金融风险管理、投资学、金融计算等。显然这样的课程设计缺少计算机方面的课程,但是所有数据分析的实现都需要计算机来完成,包括计算机语言、数据库、数据结构、数据可视化等。其中,数据可视化是一项比较新的技术,即用API把图形、表格、地图、Dashboard等相关服务有机结合,使分析结果简单易懂,将数据结果与设计结合起来,让深奥难懂的分析结果以简单易懂、生动有趣的形式进行图形化的信息展现。综上所述,大数据时代已经到来,我们的课程设置应做出相应的调整。下面是美国某大学的数据分析专业的主要课程设置,其多元化的课程设计十分具有参考价值。

其在数据挖掘方面的课程有聚类、关联性规则、因子分析、存活时间分析、逻辑回归、非线性回归、多元统计分析等。在数据分析方面的课程有时间轴分析、主成分分析、非参数回归、统计流程控制、非结构化数据概念的学习、Map Reduce技术、大数据分析方法、时间序列分析、概率模型与优化、多目的决策分析、决策树、影响图、敏感性分析等,在数据管理方面的课程有ETL(Extract、Tr ansform、Load)、数据治理、管理责任等。在计算机软件方面的课程有数据模型、数据库设计、WEBUI设计、企业门户设计实践、云计算概述、资讯门户系统数据库建模设计实践 、Java核心技术、Java Web开发技术、编译原理、高级软件工程等。选修类课程有社交网络分析、多元统计分许与 R语言建模、流数据分析技术、数据可视化技术、计算广告学、商业智能、大数据技术与应用前沿技术讲座等。

由此可见,大数据时代的数据分析工作需要数学、计算机以及统计学三个学科的紧密结合,通过三个不同的学科进行联合培养,对原有课程进行调整,应根据新时代人才培养的要求,增设新的与大数据前沿领域发展相关的课程,如计算机网络和大数据相关软件的应用教程,进行不同课程之间的合并重组和统筹安排,在已有课程中提高社会实践教育课程的比重,引导学生正确认识大数据和大数据时代,培养其运用大数据的相关分析工具解决实际问题的能力,促使其学习更多处理不同数据结构的知识,例如图像处理、视频处理、自然语言处理、文本处理、语言识别等课程,这些专业课程可根据企业的供需有选择的学习。

2.4 培养应用型统计人才

大数据时代培养的数据人才不仅需要掌握扎实的理论知识和具备基本素养,也需要具备实践应用能力。因此,研究生教育可以建立导师双轨制,一名校内导师一名校外导师,可通过校企合作的方式进行研究生的联合培养,注重学生的实际操作能力。校内导师注重学生的理论性,校外导师注重学生的实践性,学生通过在校外导师所在的企业实习,学校可以某些企业中建立专业性教育实践基地,鼓励学生到大数据相关的企业中去做相关项目的社会实践,从而熟悉并且掌握实际工作中所需要的技能,总而言之,双导师制为大数据时代培养应用型数据分析提供了一个可供学生接触大数据的平台。此外,研究方向、培养目标也需要与时俱进,新的研究方向需要被建立,如大数据分析、计算广告学等方向。不同的研究方向应配置不同的培养方案与体系和针对该研究方向的审核方式。与之相同需要与时俱进的是培养目标,大数据时代的培养目标并不仅仅是像以前那样进行数据的收集、整理与分析那么简单,而是要求学生掌握新的研究方法,掌握大数据时代数据科学家所需要的专业技术,可以独立完成数据的分析,有价值信息的提取以及成为做出响应决策。

3 结语

面对大数据时代的诸多挑战,培养统计学人才的教育模式也得与时俱进,做出相应变革,推动统计学和数学、计算机学科的合作,从而为适应大数据时代的发展趋势培养更加全面、更加专业的复合型数据人才,使得海量数据的市场价值不断被挖掘和实现。综上所述,统计学教育的改革不是一朝一夕的事情,而是一个不断发展和不断进步的过程,需要多学科的合作,从而更好的应对大数据时代的挑战。

[1]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1):5-9.

猜你喜欢

人才统计学时代
关于投稿的统计学要求
人才云
统计学符号书写要求
统计学符号使用的说明
忘不了的人才之策
留住人才要走心
“人才争夺战”
e时代
e时代
e时代