APP下载

基于大数据的产教融合型企业产学研项目评价及关键技术研究

2022-11-08邝允新

华东科技 2022年10期
关键词:产学研产教数据挖掘

文/邝允新

大数据技术可以为产教融合型企业优化产学研项目评价提供数据基础,提高产学研项目评价的科学性和可行性。鉴于此,本文分析了大数据背景下开展产学研项目的Flume技术、Hadoop技术和数据挖掘技术等关键技术,从采集、储存、处理和分析项目评价信息等方面,深入探究了大数据背景下优化产学研项目评价的路径,以期提高产学研项目评价的准确性,引导带动企业积极参与产学研项目,促进校企深度合作,为产教融合型企业的高质量发展提供初步借鉴。

产教融合型企业积极开展产学研项目评价,可以有效激发企业的创造力,深化校企合作,实现校企双赢。[1]大数据技术可以为企业的产学研项目评价提供有效的数据支撑和帮助,而充分利用大数据中的Flume技术、Hadoop技术和数据挖掘技术,一方面可以为企业清晰展现产学研项目实施绩效评价等级,全面客观地评价校企合作的方向、重点和不足,针对性地提供数据支持,优化产学研项目评价,促进产学研项目工作的优化和完善,为产教融合企业后续的发展奠定基础;另一方面,可以帮助政府利用数据平台,跟踪企业参与产教融合的行为过程及内容深度和广度,从而为优惠政策的落实兑现提供依据,在提高企业参与产教融合积极性的同时,也规范了产教融合的政策落实。因此,产教融合型企业需要积极参与产学研项目,持续优化产学研项目评价,着力提高项目评价的科学性,促进校企深度合作。

一、大数据背景下开展产学研项目的关键技术

大数据背景下开展产学研项目的关键技术主要包括Flume技术、Hadoop技术和数据挖掘技术。

(一)Flume技术

企业的项目数据往往存在于业务系统、外部文件中。企业需要收集不同场景下的数据时,就需要用到各种不同的数据采集技术,其中包括用于采集业务日志的Flume技术。

Flume是一个分布式海量日志采集系统,支持在日志系统中定制各类数据发送方,并写到各种数据接收方的能力。[2]Agent(代理节点)是Flume 的中心,主要由三部分组成:Source,指采集或读取日志的组件,不同的数据源使用不同的Source;Sink,指负责日志的写出的组件;Channel,指缓冲区,让Source和Sink可以在不同速率上运行。多个Agent也可以组合使用。利用Flume技术采集数据,可以为产学研项目评价提供真实可靠的数据基础。

图1为Flume技术架构及核心组件,其中Web Server指网页服务器,Agent包括Source、Channel和Sink。

(二)Hadoop技术

Hadoop是一个分布式系统基础架构,它的数据存储和加工过程都是分布式的,由多个机器共同完成。[3]这一系统架构通过并行处理,可以提高数据安全性和数据处理规模。Hadoop框架主要分为HDFS(分布式的文件系统)和MapReduce(编程模型)。

HDFS可以为大量的产学研项目评价数据提供存储,有助于企业高效地管理保存庞大的信息数据。在Hadoop中,底层的数据文件都存储在HDFS中,它是大数据的底层基础。

MapReduce是一种分布式计算过程,可以将大量的数据处理任务拆分为分布式的计算任务,交给大量的机器处理,从而完成大规模的计算任务,处理后得到企业需要的结果。

(三)数据挖掘技术

数据挖掘是从大量数据集中提取有价值信息的过程,被用于发现数据中的趋势和模式,并对未来做出预测。

聚类分析可以把各个对象分组在一起,并用于后续的分析工作。聚类不同于其他数据挖掘技术,它不依赖于对数据预先确定的假设;相反,聚类依赖于对象的自然分组。[4]聚类通常用来发现有相似特征的对象组,这些信息可以用于各种分析任务,例如预测未来的行为或在数据中寻找模式。

选择建模是一种用于预测未来选择的数据挖掘技术,它可以用过去的选择预测未来的选择,可以应用于各种不同的经营领域,包括市场营销、产品设计和预测客户行为等。选择最优模型,可以正确评价产学研项目的行为和绩效。

二、大数据背景下优化产学研项目评价的路径

在大数据背景下,产教融合型企业可以充分利用Flume技术、Hadoop技术和数据挖掘技术,采集、储存、处理和分析项目评价信息,通过详细深入的分析数据,对产教融合型企业合作项目的行为和绩效进行建模和分类,从而优化产学研项目评价,提高项目评价的准确性和可行性,引导带动企业积极参与产学研项目,真正推动校企形成命运共同体。

(一)利用Flume技术采集项目评价信息

Flume技术可以为采集项目评价信息提供完整的解决方案。

一要构建高效的评价数据采集平台。企业应充分利用Flume技术的高容错性和安全性,高效采集生产项目、就业质量、社会服务、学业成绩、研究技术等数据,保证数据采集工作的顺利开展。同时,数据采集平台需具有较强的兼容性,能够采集产学研各参与方的数据信息,确保各参与方能够顺利访问采集平台。

二要制定统一的评价数据采集制度。企业在数据采集、技术要求、专业人员配置等方面要按照相关规定规范操作,确保产学研项目评价的数据采集工作有制度可依,可以有序顺利进行。同时,企业要建立日常工作总结制度,帮助采集人员及时总结数据采集工作中的经验、教训,有效避免工作混乱和失误,保证数据采集的准确性和真实性。

(二)利用Hadoop技术储存和处理项目评价信息

一要利用Hadoop技术,实现对多平台海量数据的统一管理、存储及计算。Hadoop技术中的HDFS系统,可以储存大量的产学研项目评价数据。企业利用HDFS系统极高的容错率,能实现数据的快速传输。Hbase是基于HDFS构建的分布式列族数据库,可以对产学研项目评价数据进行随机性的实时读取、写入访问。Hive是基于Hadoop的一个数据仓库工具,可以通过类SQL(结构化查询语言)语句快速实现简单的MapReduce统计,实现项目评价数据库的统计分析。企业利用MapReduce分布式计算系统,可以开展大量的数据计算,完成初步的数据处理。这种批量处理的方式,可以向大量的产学研项目评价数据提供高效的计算处理服务。

二要加强对数据储存设施的维护和管理。储存设施需要具备极大的储存容量、极高的运行速率和稳定的系统功能,从而有效保证数据储存的安全性。同时,企业要建立项目信息安全监测系统,对信息进行实时监测,及时修复系统出现的问题,确保存储系统的安全稳定运行。

(三)利用数据挖掘技术分析项目评价信息

数据挖掘技术并不能直接进行产学研项目评价和管理,却可以为优化产学研项目评价提供有效的数据支撑,可以对数据进行深入的分析、推理,从大量数据中挖掘出正确的、有价值的项目评价信息,帮助企业提高产学研项目评价的科学性和可行性。

一要对数据库中储存的大量信息进行数据建模,筛选并滤除数据中各种混杂与重复性的数据,优化数据模型。用聚类分析技术对数据进行分类,对一组对象进行分组,使得同一组中的对象与组中的其他对象在某种意义上更相似。利用聚类分析,可以识别相关数据的准确性,并可评估可能出现的结果。评估结果可以为企业清晰展现产学研项目的绩效评价等级,全面客观评价校企合作的方向、重点和不足,从而为其提供数据支持。

二要培育专业的数据分析人才。企业要加强对员工专业知识的培训力度,定期邀请数据分析专家为员工讲课培训,提升企业员工的专业素质,帮助员工及时更新知识,把握时代脉搏,更全面、更深入地进行数据分析,为员工进一步提升数据分析水平夯实基础,从而深度解析数据背后蕴含的价值,提升产学研项目评价的质量,促进科教融合企业的长远有序发展。

三、结语

产教融合型企业应将大数据理念及技术应用到产学研项目评价中,充分利用Flume技术、Hadoop技术和数据挖掘技术,采集、储存、处理和分析项目评价信息,进而提高项目评价的准确性和科学性,引导带动企业积极参与产学研项目,促进产教融合型企业和高校的可持续发展,为产教融合型企业优化产学研项目评价提供初步参考。

猜你喜欢

产学研产教数据挖掘
精益求精产学研 继往开来朝阳人
改进支持向量机在特征数据挖掘中的智能应用
推行产学研一体化基地建设
中职计算机专业产教融合混合式教学研究与实践
产教融合人才培养模式探析
基于“产学研”协同创新的针织专业人才培养模式改革探索
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于产教结合下的中职电子教学研究
产教融合:时尚产业的蜕变之路