APP下载

大数据技术实验室建设探索与研究

2017-07-29王振华洪泓陈春丽

电脑知识与技术 2017年12期
关键词:实验室建设机器学习大数据

王振华 洪泓 陈春丽

摘要:该文分析了大数据技术的前景与重要性,高校建设大数据实验室的意义和必要性。大数据技术是以数据存储、加工、分析为主,向企业或单位提供决策和预测。该文同时探讨了高校大数据技术课程体系,从科学研究和工程项目两个方向,分别设置相关课程。针对大数据技术实验室建设的几个关键要素进行分析,包括实验室基础平台建设,实验室队伍建设,数据资源建设等。

关键词:大数据;实验室建设;机器学习

信息技术与经济社会的快速发展促进了数据量的爆发性增长,数据已成为国家基础性战略资源。利用数据辅助决策、合理配置资源,将是未来企业创造价值的重要方法,也是未来新兴产业创建的重要依据。国家从战略的角度,已经开始重视大数据的发展。2015年8月31日,国务院印发了《促进大数据发展行动纲要》系统部署大数据发展工作。2016年12月18日工业和信息化部印发《大数据产业发展规划(2016-2020年)》。随着大数据技术的快速发展,对该类人才的培养也逐步成为高校信息技术教学的重要内容。

大数据技术数据分析处理是从数据中挖掘关键信息,达到辅助决策,提升运作效率的目标。大数据技术目前在各个行业和跨行业之间存在广泛的应用空间,其重要的应用之一,是预测性分析,从数据中挖掘出特点,建立模型,迭代验证,确立模型,最终实现预测。其中数据分析包括检查、清洗、转换和建模等方法,即根据特定目标,对数据进行收集与存储,数据筛选,算法分析与预测,提出有建设性的意见,进而辅助决策。

大数据技术包含两个方面,即数据存储技术和计算分析技术。存储技术包括非结构化数据收集架构,数据分布式存储集群,MPP架构的新型数据库集群等。大数据中常用的分析技术有:关联规则挖掘、聚类、遗传算法、自然语言处理、神经网络、优化、模式识别、预测模型等。

1大数据课程体系

目前,高校大数据相关专业没有统一的课程体系,大数据技术相关的课程比较多。根据其应用的侧重点不同,可将大数据技术课程体系分为科学研究型和工程项目型两类。具体课程体系见下表1。

2大数据技术实验室建设理念

在高校培养大数据人才,利用高等学校的多学科优势建立大数据技术实验室尤为必要,不仅可以服务于高校的教学和科研,通过大数据技术的科研与实验,使学生掌握主流的大数据存储、管理、分析处理技术,以及大数据平台架构和建设技术。大数据技术实验室利用先进的技术、成熟的解决方案以及科学管理体系,结合专业优势,可以加强高校的产学研的功能,服务社会,为社会输送大数据技术人才。

3大数据实验室建设内容

3.1软硬件设施建设

大数据技术实验室建设应在满足科研和教学需求这一总目标指导下,遵循国家标准,采用目前国内外先进的大数据技术和有效的安全技术手段,建立具有先進性、可扩展性、实用性的大数据实验平台。

大数据技术实验室系统硬件平台建设:硬件平台一般包括数据存储与计算中心、可视化模块及终端。其中,数据存储与计算中心是整个系统的核心部分,它提供底层的计算资源、网络资源、存储资源,具有云存储、虚拟化、并行计算等基本的功能。目前,许多公司都提供相关的硬件解决方案,比如,常见的公司有HP、IBM、Dell、曙光等。

大数据技术实验室软件平台建设:大数据技术软件平台主要是指一系列的软件架构和部署,例如:多种存储模型管理系统等,大数据平台可以充分借鉴国外高校和科技公司的大数据建设的经验,采用整体规划、分步实施的建设思路,建立大数据管理平台,为大数据应用提供底层基础数据支撑,并建立示范性和典型性的大数据应用平台。

建立大数据技术实验室信息安全运行平台,构建整个数据信息系统的安全支撑体系,保证各种业务应用的安全运行,通过技术手段实现信息系统安全可管理,使安全保护策略贯穿到信息系统的各个层面。

3.2实验室队伍建设,校企联合培养学生

加强大数据技术实验教师队伍建设的任务是艰巨的。目前高校中,领先的大数据技术开发团队比较匮乏,与多方参与合作共同促进实验室队伍建设是最佳的捷径。利用社会上一些知名的大数据技术企业和大数据培训公司,进行校企合作共同培养学生。公司可以提供技术工程师、企业讲师等作为兼职教师,为学生讲解部分行业性较强的课程,补充学校教师匮乏的不足。企业兼职教师还可为教师和学生讲授项目实训课程,提升其实践能力。

社会上知名的大数据技术公司,例如:百度、腾讯、阿里云、微软等企业,大数据技术实力雄厚,与许多高校在进行校企合作。

3.3数据源

大数据实验室建设需要拥有大量数据。常见的大数据类型包括:文本、图像、视频、传感器数据、声音、社会媒体等。对于高等学校大数据技术实验室的数据来源依然是一个非常重要的问题。对于获得的大数据,数据的安全和数据的隐私保护,也是我们研究的重要课题。

3.3.1行业数据

企业发展过程中拥有大量的数据,通过合作获取他们的数据。随着信息化技术和企业自身业务的发展,许多企业在生产经营环节积累了大量的内部数据,包括研发、生产、经营、销售、客服、仓储、财务等,比如电子商务公司、电信、交通、银行、房地产、股票基金交易、天气等;还有新兴的高科技公司通过服务积累了巨量的数据,如:社交网络服务、通讯服务、搜索引擎等。

3.3.2网上数据

互联网拥有大量数据,从互联网获取数据。常用的方法是利用网络爬虫技术或者第三方公司提供的数据资源来获得我们需要的数据。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。一些第三方公司提供数据收费数据服务,通过API获取需要的数据。比如:数说聚合、聚合数据等。

4结束语

目前,国内大数据技术相关的信息技术,与国外仍存在较大差距。加强相关学科建设和数据科学技术的发展,是高校与科研院所的重要职责,培养相关技术人才是目前最紧迫的任务。大数据技术实验室是高校重要的实践教学、科学研究和技术服务基地,为社会和企业培养更多的相关人才,高校大数据技术实验室建设工作非常重要,也是建设“双一流”大学的重要条件之一。

猜你喜欢

实验室建设机器学习大数据
基于高校转型发展的三坐标测量实验室建设
前缀字母为特征在维吾尔语文本情感分类中的研究
高职电子商务实验室建设研究
基于支持向量机的金融数据分析研究