APP下载

使用聚类算法构建学习模型

2015-01-20邵隽

电脑知识与技术 2014年36期
关键词:聚类

邵隽

摘要:影响智能教学系统中教学决策的一个核心因素是系统中学习模型的质量。学习模型是一种以人类学生解决问题的各种方法为基础的模型。一个好的学习模型能够匹配学生行为模式,为学习任务难度和相关问题之间的学习转化提供有效信息。然而,传统构建模型的方式一方面非常耗时,而且还容易丢失具有重要教育意义的内容和学习方式。自动化方式可以构建更好的学习模型,但需要一些工程知识,同时其模型难以解释。该文讨论了一种基于内容特征使用聚类算法来构建学习模型的方法。

关键词:聚类;学习模型;K-mean算法

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)36-8599-02

1 简介

学习模型是智能教育系统的核心组成部分,它表达了学生处理问题的不同方法。一种常用的表达学习模型的方法是在智能教育系统中使用一组知识成分对学生处理的问题进行建模。所谓知识成分是指由一组相关任务的表现推断而得的一组认知功能或结构单元。一组知识成分是一个学生通过成功完成目标任务获得的。例如:在代数中知识成分是指如何求解kw=k这种形式的问题。一个学习模型为智能教育系统提供了如何做出教育决策的重要信息。一个较好的学习模型有能力预测任务难度及相关问题之间的学习转化。因此,具备良好学习模型的智能教育系统通常提供了更有效的学习体验。

传统构建学习模型的方法包括结构化面谈、关系分析等。然而这些方法通常都非常耗时并且需要相关专业的经验,更为重要的是都太过主观化。这些方法都忽略了在教育过程中非常重要的一个环节:知识的获取。而采用机器学习技术来产生学习模型的方法通常能够找到更好的模型,但却很难去解释其结果。例如:采用主成分分析自动构建学习模型,它的一个限制是仅仅在人工提供的成分中分析,如果某个因素或成分是未知的,算法很难找到更好的模型。

为了解决上述问题,该文通过聚类算法(K-mean)开发学习模型,为了同时兼顾预测准确度和模型的可解释性,算法的特征包含了问题内容特征和性能特征,所以相同聚类中的问题步骤具有相似的形式并和人类学生的相似性能所关联。每个聚类对应学生需要学习的一个知识成分。下文首先描述如何使用统计方法评估学习模型的质量;然后论述如何产生算法的特征,最后讨论如何应用聚类算法寻找学习模型。

2 评估学习模型的质量

学习模型可以被一组知识成分所表达,每个问题的解决步骤对应一个知识成分。所以现在问题是给定人类学生如何在某个领域解决问题的数据集,如何寻找一组知识成分来匹配学生的这个行为。

现有几种方法来使用学习数据匹配学习模型,该文使用附加因子模型来衡量学习模型的质量。附加因子模型是Logistic回归的一个实例,它使用学生、知识成分及每次交互的知识成分作为自变量对学习过程进行建模,如下所示:

lnpij1-pij=θi+βkQkj+βkQkjγkNik

其中,i代表学生i,j代表第j个步骤,k代表技能或知识成分k,pij为学生i正确完成第j步的概率,θi为学生i的能力系数,βk为技能或知识成分k的难度系数,Qkj为在第k步使用技能k的矩阵,γk为技能k的学习率系数,Nik为学生i已经使用技能k的练习数量。

由此,质量越好的学生模型,预测的精度越高。为了训练参数,该文使用最大似然估计,为了避免过拟合,该文采用交叉验证来检验学生模型的质量。

3 发现学习模型

有了上述的评估方法,注意到我们的任务不仅仅是发现一个模型来预测学生行为的好坏,同时需要该模型在概念上有意义。换句话说,对于相同的知识成分中的步骤应当概念与性能上都是类似的。通过一组解决问题的步骤来发现学习模型是一个聚类任务,该算法对解决问题的步骤进行分组,把比较相似的分为一组。在本文中,每个聚类对应学习模型中的一个知识成分。从聚类的角度看如果内容与性能同时相似度很高,那么算法找到的知识成分就能符合之前讨论的性质。因此,该文在聚类算法采用了两种类型的特征:内容特征与性能特征。

3.1 预处理

在产生特征前,首先需要把问题步骤标记化,即所有的数字替换为K,所有的变量替换为w。例如:-3x=6标记化后为-Kw=K。实际上,标记化的程度会影响模型的结果,因此通过预处理移除步骤中不同的数值。例如:-3x=6 的解决方法可以被轻易用于-300x=30,通过预处理标记化后,都会被表达为-Kw=K。

3.2产生特征

在预处理后,我们需要为这些标记化的步骤产生特征,这里有两大类特征:内容特征和性能特征。

3.2.1 内容特征

内容特征是基于标记化步骤的问题内容信息来定义的。更具体的说,对每个标记化的步骤,罗列出二元组与三元组,如果步骤中包含二元组或三元组,则设置为1,不包含则设置为0。例如:对于-Kw=K来说,二元组包括了:-K、Kw、w=和=K,而三元组有-Kw,Kw=和w=K。考虑二元组Kw和三元组+K=,对于步骤-Kw=K来说,特征Kw的值为1,而特征+K=的值为0,因为+K=没有出现在步骤中。但对于步骤Kw+K=K来说,特征Kw 和特征+K=的值都为1。

通过使用这些内容特征,可以确定在同一个聚类中的步骤具备相同的内容特征,同时它们形式上有相似性。这点满足相同聚类具有相似概念步骤这个性质。此外,通过在一个知识成分中具有相同特征聚类的步骤,具有很好的可解释性。

3.2.2 性能特征

在算法中使用的第二类特征是性能特征。这些特征衡量人类学生解决标记化步骤的平均性能。例如:学生的反映时间和学生第一次尝试的正确率。需要注意的是,性能特征仅仅用于训练数据创建聚类。一旦完成预测学生的性能,性能数据就不会被使用。对于测试数据,仅使用内容特征识别当前步骤所属聚类。换句话说,对于每个测试数据,基于内容特征计算测试数据到所有训练数据的距离,并分配测试数据到最近的训练数据所在的聚类。常用的性能特征通常包括:平均错误率,平均提示率,平均正确率,第一次尝试错误率,第一次尝试提示率,第一次尝试正确率,平均每步所用时间(秒),平均正确的步骤所用时间(秒),平均错误的步骤所用时间(秒),平均完成每步的学生数,平均每个学生完成步骤所尝试的次数。endprint

3.3 主成分分析

在进行聚类算法前,首先需要对所有的特征进行归一化到0-1范围,然后对产生的特征进行主成分分析。主成分分析是一个数学过程,它映射一组可能相关的观察变量到一组线性不相关的变量,这些线性不相关变量被称为主成分。第一个主成分指向最大可能的因素,后面的成分与前面的正交并指向较小的因素。

在上述变化后,在投影空间中的所有特征都互为正交,因此按顺序移除信息量较小的特征,该文仅保留投影空间中前40个主成分,它们覆盖了数据中95%的因素。

3.4 聚类算法

为了找到学习模型,该文使用k-mean算法来对数据进行聚类,数据点之间的距离采用欧氏距离进行衡量。算法采用类似期望最大值的方式,具体过程如下所示:

输入:进行聚类算法的所有点P,聚类的数量k

输出:每个聚类的中心点C,每个聚类的点M

1) 在P中随机为每个聚类选择中心点c;

2) 计算P中每个点p与每个聚类中心点c之间的距离,选择其中距离最小的m,并把该点归入距离最小的那个聚类;

3) 重新计算每个聚类的中心点c;

4) 重复步骤2,直到每个点到中心点的聚类始终为最小,及其所属的聚类没有改变为止。

首先、为每个聚类随机初始化中心点;然后、在分配阶段,把每个数据点分配给与之最近的聚集;第三、在更新阶段,重新计算每个聚类的均值,并把它作为数据的中心点。上述三步重复执行直到收敛。K-Mean算法要求事先确定聚类的数量k,而我们并不知道有多少聚类,可以选择不同的数量进行测试(例如:20,30,40),并选择其中最好的。此外,即便是相同的聚类数量,不同的初始值也会导致不同的聚类结果,可以多次执行算法并选择聚类内差异较小和聚类间差异较大的。

4 总结

本文介绍了一种基于机器学习算法自动寻找学习模型的应用。为了发现有效的知识成分用于预测人类学生的性能,同时具有可解释性,该文把内容特征加入到特征控件并应用聚类算法发现学习模型。在将来我们的工作是应用更多机器学习及相关领域的技术到学习模型等教育领域,同时这也是教育领域发展的重要趋势之一。

参考文献:

[1] 邵峰晶,于忠清.数据挖掘原理与算法[M].中国水利水电出版社,2003.

[2] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J]. Communications of the ACM,1975.endprint

猜你喜欢

聚类
基于K-means聚类的车-地无线通信场强研究
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
条纹颜色分离与聚类
基于Spark平台的K-means聚类算法改进及并行化实现
局部子空间聚类
基于最小圆覆盖的海上突发事件空间聚类研究
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
基于熵权和有序聚类的房地产周期分析