APP下载

数据挖掘技术在资源共享课程建设中的研究

2014-11-29范洪军FANHongjun

价值工程 2014年31期
关键词:数据仓库资源共享文档

范洪军FAN Hong-jun

(海南经贸职业技术学院,海口 571127)

(Hainan College of Economics and Business,Haikou 571127,China)

0 引言

我们已经步入信息化的时代,大量的资源给人们带来方便的同时,由于缺乏相应的挖掘分析手段,造成了资源的大量重复和无意义相关,从而难以有效利用。在资源共享课程建设中,如何避免信息的重复繁杂,提高资源共享课程教学的针对性,规范课程教学资源的合理分布成为资源共享课程教学系统研究的重要课题。数据挖掘技术的产生,为资源共享课程教学系统的智能化研究提供了有效手段。

1 问题的提出

根据我国目前大部分资源共享课程信息化教育的实际状况来看,教师建设网络资源共享课程的主要目的不是开展远程教育,而是利用课程管理系统(CMS)帮助教师和学生组织教与学的资源和活动,为师生提供信息化共享的学习环境,促进高质量教学[1]。

国内外对课程管理系统(CMS)的研究非常多,但涉及到智能化的研究并不多。信息化条件下,信息量在不断增加,通过常规数据挖掘技术的搜索,分类,标记功能只能找到表层的关联信息。通常在获得的大量文档中,只有很少一部分与目标接近,有很高的价值,大部分只是无意义相关。由于不能根据每一个学生的具体情况,给出最有效的资源,在某一篇文章、教学、课件、或者其他资源上传到系统中时,我们并不能准确地知道它的价值,因此无法量化它产生的效益,当然就更不能让资源跟踪用户。教师除了手工方式,无法知道学生之间的内部关联,无法有效地为他们提供个性服务。

2 数据挖掘的需求与功能分析

数据挖掘技术的智能化就是要把系统中的每一个资源进行系统的分析,自动而非人为找到资源之间的内在联系,形成有价值的信息,从而减少人的工作量,提高系统的服务效率。通常一个资源共享课程数据挖掘技术的应用离不开三大主体:教师、学生、管理员[2]。在智能化的资源共享课程数据挖掘技术中,管理员的角色被系统所取代,大部分工作由系统完成,一些功能分给了教师与学生。

智能化资源共享课程数据挖掘技术可以对师生进行有效的服务,教师可以在上面开设课程,设置课程,布局批改作业,对学生进行分组,评价学生学习。学生注册进入课程,进行课程学习,完成作业,查找和评论资源。教师和学生都可以上传各自的教学资源,学习心得,并相互讨论。系统要完成的工作除正常的资源管理之外,增加了数据的智能化分析,主要包括三方面:

2.1 预处理阶段 分析各种资源的文本信息,对非文本资源如视频、音乐等需要备注相关的文本信息,以便分析。在资源进入系统时即进行相似度的计算,找到资源与资源的关联度,并将信息存入相应的数据仓库中,以备进一步分析使用。根据词频与逆文档频率(TF-IDF)分析,给用户一个资源上传的评估,告诉此资源对系统的价值相关。

2.2 挖掘分析阶段 运用数据挖掘技术创建一个模型,用以发现和总结当前有价值的信息。当教师或学生在使用系统时,如查看课程信息、搜索关键词、或者提出问题时,通过模型可以有效找到与当前操作相关度最高的资源,以提高系统的有效性。

2.3 评估阶段 使用者可以对通过模型的结果进行打分,打分的结果系统分存入相应数据库中,供以后的信息价值评估。系统会根据学生的操作记录,学习过程,学习结果等信息进行聚类分析,从而分析学生的内部关联,形成结果,供管理员和教师参考。

3 数据挖掘技术平台架构

一个网站性能总是受到CPU、内存、磁盘I/O、网络带宽等硬件资源的影响。提升网站性能除了进行硬件升级外,架构方面优化设计往往可以达到事半功倍的效果[3]。本系统采用B/S(browser/ server)系统架构,这种结构的好处是:客户端不用安装特别的软件,直接使用浏览器即可,同时也方便系统的升级。系统采用Visual Studio 2005 作开发平台,C#作编程语言,SQL Server 2005 作数据库管理系统。

本系统采用USL、BLL、DAL 三层架构进行设计。其中USL 即用户界面表示层,采用ASPX 扩展名的WEB 访问,主要完成用户的请求以及数据的返回;BLL 即业务逻辑层,对数据业务逻辑处理,将用户传来响应给数据层,并将结果返回给表示层的浏览器;DAL 是数据访问层,以便为USL 和BLL 层提供更丰富的数据服务。基于数据挖掘的三层系统架构如图1 所示。

图1 基于数据挖掘的三层系统架构

4 数据挖掘技术在资源共享课程建设中的应用

4.1 数据仓库的设计 根据Bill Inmon 在1991 出版的Building the Data Warehouse 一书中是这样解释数据仓库的:它是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。数据仓库中的数据含基本数据,历史数据,综合数据和元数据。

为了在数据分析中排除不需要的、不完整的、不一致的数据噪声,本数据挖掘技术在常用数据库之外,还建立了一个方便进行数据挖掘的数据仓库。

数据仓库采用更新驱动方法而不是传统数据库中的查询驱动方法,将资源共享课程教学系统获取的、教师和学生的上传的数据进行清理、集成、变换,并重新组织到一个语义的数据库中,以便提供直接的查询和分析。通过数据仓库处理数据既可以提高数据的分析效率,又不会影响到数据挖掘技术数据库中的数据源。

操作数据库经过清理、集成、变换形成数据仓库,数据仓库再供,如图2 是一个三层数据仓库结构图。

4.2 关联计算和数据预处理 关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测。它的目的是为了挖掘隐藏在数据间的相互关系。在智能化的资源共享课程教学系统中,常常需要关联计算对学生、素材进行预处理,从而建立相应的数据仓库。例如对某学生登陆系统的次数,以及登陆系统的时间进行关联分析,从而分析出该学生学习积极性。通过学生的作业完成情况与作业得分情况的关联分析,可以测知学生学习的认真度。当学生在系统中使用相关素材时,根据学生对素材的浏览使用次数来判断素材的价值,再结合聚类分析的应用,将素材价值与学生的分类进行关系,得出素材对学生类别的价值关联。将这些信息以一个二维表的形式存储在数据仓库中。

图2 三层数据仓库结构图

这里以系统判断学生的学习的积极性为例,设学生p的学习积极性为Ip,影响Ip的元素一般认为有登陆次数n,以及登陆的时长t,以及系统操作o。一般认为一个学生登陆系统的次数越多,时间越长,系统操作越积极,那么p的积极性就越高,即Ip的值越高,即Ip=Δ×n×t×o,Δ 的作用是将值域约束到设定范围。但是事实上,这只是最表层的意思,我们可以设想因意外,如网络故障,客户端不稳定等等,导致学生的登陆后掉线,利用浏览器的cookies 功能导致频繁登陆,从而造成n 的干扰。如果学生在学习中,因故离开而没有退出系统,那么t 就会增加。这些都会造成Ip提高的假象,还有的学生在操作中频繁点击,无意义的操作都可以造成o 的大量重复操作。要解决这些问题,可以利用基于密度的离群点检测(局部离群点要素LOF技术),通过以下5 步判断哪些是学生异常登陆系统的情况:

①计算每个对象与其他对象的欧几里得距离;②对欧几里得距离进行排序,计算第k 距离以及第K 领域;③计算每个对象的可达密度;④计算每个对象的局部离群点因子;⑤对每个点的局部离群点因子进行排序,输出。

根据输出将一些可疑数据(即离群较远的点)排除出去,最后将数据进行变换后存储到数据仓库中,经过优化和改进后的数据可以很好地解决教学系统以外的意外带来的影响。

4.3 聚类分析的应用 在利用数据挖掘技术解决实际问题时,样本的类别往往是未知的、或者即便可以获得,其获取过程也是非常困难的,运用聚类算法就能较好地解决这一问题。

在教学系统中,经常根据一定的条件把学生,或者教学资料进行一定的划分,这样有助于指导教学开展。本系统用数据矩阵来分析数据,用P 个变量表示N 个对象,如用年龄,性别,本课程的成绩,兴趣爱好等来描述学生。需要指出的是,兴趣爱好不是一个具体的数字,所以可以事先做一些标记,如a 代表喜欢计算机组装,b 代表网页制作,c 代表动画制作…z 代表其他。

使用K 均值和K 中心点对学生进行聚类分析。首先,随机地选择K 个对象,每个对象代表一类的初始值。对剩余的每一个对象每个算出它与类均值的距离,从而决定它属于哪一类,然后再计算每个类的新均值。这个过程不断重复直到分类稳定,即使重复计算也不会再有变化。聚类运算采用平方误差准则,其定义如下:

4.4 TF-IDF 的应用 TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

关于TF-IDF 算法如下:

freq(d,t)是指词t 在文档d 中出现的次数。通俗地说就是如果一个词在本篇文档中出现的次数很多,而在系统其他文档中出现的次数很少,则就可以认为这个词的区分度很高,那么这个词对本文档的作用就大。通过TF-IDF算法,就可以找出每篇文章的重要词,也就是关键词,这些关键词无需要上传者手工标注,而是由系统计算得到。比较这些关键词就能计算出文档与文档之间的距离,即相似性。文档,或者其他材料(需要以文本的方式进行说明)上传时,系统都可以智能地计算出它与其他资料的相似性。在使用某些资源时,系统就可以将事先计算好的相似度高的文档同时推荐给用户,让用户不必去找资源,而是让资源自动找到用户。文档相似度的计算主要应用于系统对相关资料的推荐,可以让学生在系统中减少搜索有价值信息的时间,并且给教师提供资料的整体决策帮助。从而帮助使用者优化系统资源。

5 结束语

智能化的数据挖掘技术通过关联数据挖掘技术,建立一个数据仓库,数据仓库将教学系统获取的、教师和学生的上传的数据进行筛选、复制、预处理、集成、注释、汇总,并重新组织到一个语义的数据库中,以便提供直接的查询和分析。在传统的网络课程和资源共享课程系统基础上,运用关联计算、聚类分析、TF-IDF 等数据挖掘技术真正实现数据挖掘技术的智能化。无论教师还是学生,可以更加有效地地从系统中获取自己的可用信息,帮助教学的决策和学习的指导。

[1]黎加厚,赵怡.课程管理系统(CMS)及其选择[J].现代教育技术,2008(9):64-75.

[2]Kang Dong,Chen Juntao,Zhan Jinmei,Xing Haihua*,Wu,Shulei.Design of university teacher's files management system[C].CPS(Conference Publishing Services),Guangzhou.China.2012,11.

[3]陈仁章,孟小华.大型网络教学平台架构设计及实现(大型网络数据挖掘技术架构设计及实现)[J].计算机工程与设计,2012,31(11):2455-2469.

[4]陈步英.数据仓库和数据挖掘在蔬菜病虫害预测中的应用[J].农机化研究,2013(1):217-219,223.

[5]Wang Guoxun.DATA MINING MODEL SELECTION BASED ON MULTIPLE CRITERIA DECISION MAKING [D].Doctoral Dissertation.School of Management and Economics,2013,9.

猜你喜欢

数据仓库资源共享文档
浅谈Matlab与Word文档的应用接口
交通运输数据资源共享交换体系探究与实现
有人一声不吭向你扔了个文档
基于数据仓库的住房城乡建设信息系统整合研究
卫康与九天绿资源共享
分布式存储系统在液晶面板制造数据仓库中的设计
基于RI码计算的Word复制文档鉴别
探析电力系统调度中数据仓库技术的应用
教育部第一批“国家级精品资源共享课”公布
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat