APP下载

教师工作坊中学员话题挖掘方法及应用

2018-05-14何皓怡刘清堂吴林静邓伟郝怡雪

中国电化教育 2018年10期

何皓怡 刘清堂 吴林静 邓伟 郝怡雪

摘要:教师工作坊为校际间教师的协同研修提供了良好的平台,是促进教师专业发展的主要方式之一。该文针对教师工作坊研修过程中难以进行有效监测和及时指导的问题,利用学员研讨产生的交互式文本数据,提出了一种教师工作坊中学员话题挖掘方法。该方法利用内容语义分析法对学员评论反思内容进行整体分析;运用LDA模型自动挖掘不同类型学员发表的评论中的隐含话题和跟踪学员热点话题演化趋势。论文以典型的教师工作坊为例进行实验,实验结果表明:学员们能围绕研修主题进行讨论;相比普通学员,成绩优秀学员在学习态度上更显主动;如在多媒体、微课的技术应用等方面有着更深的认识和理解;而有关“技术支持的总结与复习”和“技术支持的教学评价”的话题并没有出现。话题演化趋势的实时反馈可视化分析,为引导研修活动深化发展提供了重要支持;也为教师工作坊的学习分析提供了一些可借鉴的思路。

关键词:教师工作坊;话题挖掘;LDA模型

百年大计,教育为本;教育大计,教师为本。促进教育质量提升,教师队伍建设是关键。而优化教师队伍结构,提升教师专业水平,需完善教师培养培训体系,做好培养培训规划。教育信息化的发展使得教师培训方式发生了转变,线上线下相结合的混合式研修成为促进教师专业发展的主要手段。在网络学习空间中,支持创建、参与、关注教师研修工作坊,开展跨校教师协同研修。教师工作坊是一种体验式、参与式、互动式的学习模式,一般以富有经验的教师为中心,形成30-50人的学习研究共同体,主要通过讨论、活动等多种形式,共同探讨和尝试解决课堂教学中存在的问题。助学者(坊主)在教师工作坊中扮演协助、观测、支持、引导等作用,需要了解研修过程中学员认知水平、学习状态等,及时发现存在的问题,并提供学习支持服务。学员们在进行网络研修主题研讨过程中产生了大量的交互式文本,能客观地反映出学员的兴趣话题、学习体验和研修状态等特征,这为优化研修过程、提升培训质量等提供了大量线索。然而,传统的内容分析方法通过文本分析、内容编码、统计阐释等过程,不仅费时费力而且还存在评价的主观性和反馈的滞后性等问题;并且随着培训规模的扩大、研修数据的急剧增加,使得指导者难以及时洞察研修活动的过程和状态,并进行针对性的指导。

论文聚焦教师工作坊研修过程中难以进行有效监测和及时指导的问题,对教师工作坊的研修特征及当前话题挖掘的研究情况进行了分析,针对性的构建了教师工作坊学员话题挖掘框架。利用教师工作坊中学员研讨产生的交互式文本数据,并结合教师信息化教学TPACK能力模型,分析了研修过程中的高频词汇特征;采用LDA(Latent DirichletAllocation)模型重点分析了研修内容的话题结构、分布情况以及研修过程的话题演化等。

一、相关研究

(一)教师工作坊及特征

教师工作坊是由若干成员组成(包括坊主、研修学员等),他们聚焦于特定教学主题,开展观摩、体验、讨论、反思等活动,旨在通过相互交流、经验分享、协同研讨来解决教学实际问题,促进教师实践性知识的发展。教师工作坊是具有共同愿景、互惠互助性质的学习型组织。相关理论基础主要包括建构主义理论、认知学徒制、活动理论、情境学习理论、知识转移及知识共享理论等。王陆基于活动理论将教师在线实践社区视为一种活动系统。刘清堂等认为教师混合式培训是一个研修活动序列,序列的展开构成了多层次教师混合式培训活动流,活动流中的活动亦可依次序展开。张思等认为在教师工作坊的活动序列设计上,通过搭建脚手架实现学员学习的渐进有序,知识与技能的逐步递增,使得学员能够顺利跨越“最近发展区”,达到学习目标。杨卉等提出在远程职业教育中,应为教师提供监测工具支持教师对学生(团体)活动过程进行观察,以便推送学习支架,帮助学生顺利完成任務。王陆基于情境学习理论,并根据培训项目的实施阶段,采用内容分析法对教师在线实践社区中学习共同体的实践性知识发展过程进行评估。栾学东认为,促进教师在线实践社区中知识的转移,应对非结构化和半结构化数据进行挖掘和分析,寻找知识转移服务对象,并提供支持策略促进知识拥有方与知识需求方之间的知识转移。已有的研究为教师工作坊研修过程的分析提供了启示和参考。但相关研究大多聚焦于活动过程的实施和实践性知识的迁移等方面,而对于研修过程中的话题内容特征与教师信息化教学能力的关联性及能力水平的监测与评价等尚缺乏深度思考。

(二)话题挖掘及相关研究

话题挖掘(Topic Mining)较早出现在TDT领域,TDT技术(Topic Detection and Tracking,话题识别与跟踪)是一项信息处理技术,主要应用于舆情监测。话题识别(Topic Detection)是指自动识别信息片断集合中的各个未知话题,并能在线检测出新话题。话题跟踪(Topic Tracking)是指在各种信息来源中追踪那些讨论目标话题的相关信息片段。目前,话题挖掘已普遍应用于产品推荐服务、新闻热点追踪和社交网络交互等多个方面。常用的话题挖掘算法有VSM(Vector Space Model)、LSA(LatentSemantic Analysis)、PLSA(Probabilistic LatentSemantic Analysis)及LDA(Latent Dirichlet Allocation)等,其中比较有代表性是LDA模型。LDA是机器学习领域的一种非监督话题建模方法,用于发现数据集中隐藏的话题结构和内容,如今应用也较为广泛。如Mao等通过挖掘用户评论数据构建用户兴趣话题模型,实现电影的个性化推荐。Mahaian等通过对财经新闻主题的挖掘预测股市涨跌。Zhang等通过对微博话题的挖掘发现热点主题。在教育领域,Ramesh等于MOOC论坛内容进行话题挖掘,以及时发现学生学习过程中的相关问题,进而针对性实施早期干预,提高课程留存率。刘三釾等应用LDA模型自动挖掘和解析MOOC文本评论信息的特征结构和语义内容,并分别对已完成和未完成两种类型的学习者展开定性的学习分析研究,探究和追踪学习者关注的热点话题演化趋势,以进行适应性反馈与干预。在教师工作坊中,学员们在进行网络研讨活动时产生了大量的交互式文本数据,这些数据作为活动过程的重要信息载体,可真实地反映学员关注的焦点、知识和能力的变化等情况,通过对这些数据的挖掘,有助于及时发现学员在研修过程中隐藏的内在信息,从而实现对学员研修状态的实时跟踪、评估和干预。LDA为数据驱动的网络研修培训分析提供了一种新的论证方法,该方法突破了教学过程互动话语分析中过度人为干预和经验式判断的局限,能为教师工作坊的研修过程分析提供一种新思路,为教师的研修实践提供数据支撑服务。

二、教师工作坊学员话题挖掘方法

教师工作坊的实施流程是由若干个活动组成的活动流。本研究以组成活动流的各个活动为单位划分时间窗口,对每个时间窗口(活动阶段)中生成的讨论文本分别进行话题挖掘,追踪各活动阶段学员关注话题的热度情况,并进行话题演化分析,以观测教师工作坊研修活动进程,及时发现问题和需求,并提供学习支持服务。在研修活动的最后阶段,教学管理者根据学员的课程学习、活动参与及作业完成等情况给予一个最终考核成绩。本研究以成绩的高低划分不同类型的学员,并挖掘不同类型学员之间话题分布的特征结构和语义内容,探究其相似性和差异性,为研修活动的设计和知识转移策略的实施提供支持。

(一)教师工作坊学员话题挖掘框架

基于以上分析,本文设计了教师工作坊学员话题挖掘框架。如下页图1所示,整个分析流程可分为数据收集、信息加工和结果应用三个环节。

1.数据收集。学员是模型的出发点也是最终的受益者,学员在参与网络研修活动过程中形成了大量的交互式文本数据,在对数据进行采集和预处理过后,形成交互式文本数据集。

2.信息加工。对数据集进行挖掘、分析并予以可视化呈现。采用高频词汇分析发现学员可能关注的话题;面向学员类型的话题分析,是按最终考核成绩将学员分为优秀、普通两种类型,应用LDA模型挖掘不同类型学员的话题分布并进行分析;基于研修过程的话题演化分析,是运用LDA模型对各活动阶段数据集进行话题分布和话题热度计算,追踪研修过程中学员关注话题的热度变化并进行分析。

3.结果应用。管理者和坊主根据可视化呈现的结果监控和分析学员的研修状态,改进和优化研修计划、研修内容和研修策略等,从而形成对学员的干预。同时,分析结果也为学员提供可视化反馈,以便其进行自我反思,实时调节自己的研修行为。

(二)教师工作坊学员话题挖掘方法研究

1.结合TPACK模型的内容语义分析

结合TPACK模型对学员研讨的知识进行分析,TPACK(Technological Pedagogical ContentKnowledge)是由科勒和米什拉于2005年提出的,该框架包含三类核心知识:技术知识(TK)、教学法知识(PK)和学科内容知识(CK),以及四类复合知识fPCK、TCK、TPK和TPCK)。本文基于科勒和米什拉所提出的TPACK概念,并参考TPACK概念精致化的相关研究和话语分析规则,对所提取的高频词汇进行分析。

2.结合LDA模型的话题挖掘

LDA模型,最早是由学者Blei等在2003年提出,它是一个三层贝叶斯概率生成模型,LDA假定文档集中有确定的主题数,每个文档均是由多个主题混合而成,而每个主题则是多个词汇上的概率分布,如图2所示。

图2中,变量、和z均为不可观察到的潜在变量,其中代表主题一单词概率分布、代表文档一主题概率分布。单词w为可观察变量,超参数a和β是模型的先验参数,T为设定的主题数。有向箭头代表条件概率。方框代表重复采样。D表示文档集,外部方框代表文档集中每个文档迭代采样的主题概率分布。Na代表文档d的单词数,内部方框则表示从主题分布中迭代抽取产生的文档的单词。模型生成过程可描述如图3所示。

图3描述了LDA模型生成文档的过程,然而,在实际应用中需要根据现有的文档推导出潜在的主题结构以及文档中主题的分布情况。这就是LDA模型的参数估计,即利用输入的文档集计算输出文档一主题分布矩阵0和主题一单词分布矩阵。

本文采用的是Gibbs Sampling方法训练LDA模型,LDA模型的Gibbs Sampling公式为:

利用Gibbs Sampling公式进行一系列采样,收敛之后就可计算参数,公式为:

LDA模型是文档一主题一单词结构,对应于教师工作坊中的讨论文本,可表示为评论一研讨话题一词语结构。计算输出的参数0为评论一研讨话题概率分布矩阵,即学员发表的评论可抽象表示为多个话题的概率分布;参数为研讨话题一词语概率分布矩阵,即学员们研讨的话题可表征为多维细粒度词的概率分布。得到此输出结果我们便可发现教师在研修过程中所关注和研讨的话题,还可计算出话题热度的演化情况。

三、教师工作坊学员话题挖掘方法的应用

(一)实验数据及预处理

本研究采集了“国培计划(2016)教师信息技术应用能力提升工程”某语文教师工作坊中的评论数据作为样本来开展实验。本次工作坊以“信息技术在语文课堂教学中应如何运用?”为主题,整个实施流程可分为4个活动阶段:研修计划、学技术、会应用和研修总结。教师工作坊的活动实施流程,如表1所示。

工作坊中有3名坊主和53名學员。此次研修过程从2016年10月开始,持续到2017年8月结束。通过网络爬虫获取数据,去除掉1个小时以内学员发表的重复评论,得到854条文本评论。

所有发表评论的学员中,有45名考核成绩是取得优秀(90分以上),还有8名考核成绩是普通(90分以下)。按学员类型分类所得评论数据集基本信息,如表2所示。

在本研究案例中,由于在研修总结阶段,学员们主要是完成各项考核任务,做好个人研修总结等,并未开展网上研讨,因此未将此阶段列入本次研究范围。按活动阶段分类所得评论数据集基本信息,如表3所示。可见,在学技术活动阶段学员们参与网上讨论最为积极;而在会应用活动阶段,发表评论人数和发表评论数都明显少于前面两个阶段。

对收集到的数据进行预处理。首先,进行分词,利用中科院中文分词系统ICTCLAS对数据集进行分词。然后,针对评论文本中的专用词汇,建立用户词典进行约束,以获得更为完整的语义信息,如:“信息技术”“多媒体”“学习者”等。最后,去除特殊符号、停用词、低频词等,保留名词、形容词、动词三种便于理解话题语义的关键词性。

(二)高频词汇分析

为了能对学员评论进行整体的观测和认识,首先通过词频分析的方法列出学员评论中排名前20的高频词汇,如表4所示。

从表4中可以发现,词频最高的词汇是学生(1027次),表现出了教师对学生的关注,体现出了教师的以学生为中心的教学思想。再分析表4左侧其它高频词汇可以发现,“教学”“课堂”“语文”“信息技术”等词汇凸显了教师工作坊的研修主题,学员们围绕着“信息技术在语文课堂教学中应如何运用?”在进行研讨。结合TPACK框架及其語义分析规则对学员研讨的知识进行分析,词汇“微课”“信息技术”“多媒体”表现了学员们较为关注技术知识(TK)。通过结合词汇“语文”“知识”“内容”,可体现出学员们对整合技术的学科内容知识(TCK)的关注。而再结合“提高”“兴趣”“效果”“激发”等词汇,则体现了学员们对整合技术的教学法知识(TPK)及整合技术的学科教学知识(TPCK)的关注,在反思将技术运用于教学。这些都与教师工作坊的研修主题高度相关。

(三)不同类型学员的话题特征分析

本实验根据学员最终取得的考核成绩,将学员分为两种类型(优秀/普通),对这两类学员发表的评论分别进行挖掘和分析。应用LDA话题模型来挖掘学员发表的评论中所隐含的话题结构和语义内容,对他们的话题进行观察和对比,探究其相似性和差异性,进而了解不同类型学员的话题特征,为研修活动的设计、知识转移及知识共享策略的实施提供支持。在设置模型参数时,依据a=50/Tβ=0.01来进行设置,a和β是模型的两个先验参数,T为选择的话题数,T值的确定依赖于数据集的大小。本研究中实验效果的衡量主要考虑话题间的分离度和话题内部质量两个指标,结合数据集的大小并经过反复实验确定T值。对于成绩普通学员的数据集,T值设置为5,则实验参数设置为a=10,β=0.01,根据话题间的相似程度选出3个具有代表性的话题。如图4所示。每个可能话题下依据词汇出现的概率值大小,列出了10个词汇表示话题语义内容。对于成绩优秀学员的数据集,T值设置为10,实验参数设置为a=5,B=0.01,同样根据话题间的相似程度选出5个具有代表性的话题。如图5所示。

如图4所示,从成绩普通学员聚焦的话题1a中,根据词汇出现的概率由高到低排列的情况可推测,学员们认为,语文教师使用信息技术来进行备课或制作课件,可提高工作效率。从话题2a可看出,学员们认为多媒体在课堂中对学生的作用是有效的,并指出可以利用多媒体或微课来进行朗读教学。在话题3a中,学员们认为多媒体技术能调动学生学习知识的兴趣,能生动展示学科知识。通过观测和分析以上话题可推断,成绩普通的学员已经能够认识到信息技术对改进课堂教学的作用,具有运用信息技术优化课堂教学的意识,也具有应用信息技术来进行课堂教学的经历。

由图5可见,通过观测成绩优秀学员关注的话题1b的词汇分布可以发现,成绩优秀学员认为信息技术使教师备课变得简单并可促进教学。在话题2b中,他们谈到了通过多媒体课件来生动和直观地展示教学内容可吸引学生注意力便于学生的理解。这些都与成绩普通学员所关注的话题比较相似。通过进一步的对比话题1a和话题1b可以发现,在话题1a中“要求(0.011)”一词以比较高的概率出现,似乎体现了学员被动学习的态度,经过查看成绩普通学员的具体评论内容发现,部分学员认为“学习信息技术是时代发展的必然要求。”“是适应新时代的要求。”等。而在话题1b中,从“促进”“简单”等词汇可推测成绩优秀学员更为认可信息技术对他们的教学是有帮助的,体现出了相对积极的学习态度。另外,在话题2a中,成绩普通学员认为多媒体对课堂是有效的,与话题2b对比,成绩优秀学员则通过词汇“生动”“吸引”“直观”“图片”等,更为具体的描述了多媒体技术的特征,表现出了对多媒体技术更为深刻的认识。

从图5话题3b的词汇分布可知,成绩优秀学员认为运用信息技术可支持学生进行自主探究和合作学习,能激活学生的学习思维,激发学生的学习兴趣,并能培养学生的相关能力。在话题4b中,他们谈到了在教学过程中运用多媒体技术来创建情境,使抽象的东西更加形象化,能调动学生的情感等,体现出了对多媒体技术及应用更为深刻的认识。在话题5b中,他们更为具体地描述了微课的特点是以知识点为核心的短视频,并进一步指出学生利用微课可以不受时间、空间限制进行自主学习。综合以上分析可以推断,成绩优秀学员在学习态度上更显主动,在多媒体技术及应用和微课技术及应用方面有着更深的认识和理解,而成绩普通学员在这些方面则有所欠缺,需进一步的加强。另外,从挖掘出的话题中,并没有发现有关“技术支持的总结与复习”及“技术支持的教学评价”的话题,而这两项内容是《中小学教师信息技术应用能力标准(试行)》中所要求的。

(四)基于研修过程的话题演化分析

基于研修过程的话题演化分析,可快速跟踪研修活动的进展情况,及时了解学员关注的热点话题及变化趋势,为实施针对性指导提供数据支持服务。首先,按研修过程中的活动阶段设置时间窗口,根据时间窗口划分数据集。在本实例中可分为研修计划、学技术和会应用三个活动阶段。然后,运用LDA话题模型对各阶段数据集进行话题分布和话题热度计算。最后,可视化呈现话题演化图。本文基于以上学员话题挖掘的结果,选取了“多媒体特点及应用”“微课特点及应用”“信息技术促进学生学习”“信息技术与教师专业发展”“微课制作方法”5个热度较高的话题,话题标签为依据关键词出现概率人工总结给定。得到研修过程学员话题演化情况,如图6所示。

图6直观呈现了各个话题在不同活动阶段的热度情况以及在整个研修过程中的变化趋势。最上方的一条曲线表示的是有关“多媒体特点及应用”的话题,由于多媒体技术和教师的日常教学密切相关,在研修计划阶段学员们对该话题的关注度就最高;随着研修活动的进一步开展,到了学技术活动阶段该话题的热度又有了少量提升;而到了会应用活动阶段,该话题的热度有了较大幅度提升,可以推断学员们在将制作的课件应用于课堂教学的过程中,对多媒体技术应用于教与学有了更深的认识和体会,有关该话题的讨論大量增加。其次是关于“微课特点及应用”和“信息技术促进学生学习”的话题热度也较高,并且也呈上升趋势。由此可以推断,随着研修活动的进行,学员们对这两个话题的认识和体会也是逐步加深的。另外,热度最低的话题是关于“微课制作方法”,该曲线处于最下方,呈现先升后降的趋势,这与研修过程所开展的活动内容相吻合。而有关“信息技术与教师专业发展”话题的热度也呈先升后降的趋势,其原因则需要进一步的了解和分析。

(五)反馈及建议

根据以上对研修过程的分析结果,提出针对性的改进建议,优化研修过程,提高研修效果。教师工作坊活动开展应注重。

1.加强交流,增加学习共同体的认同感。在研修计划阶段,坊主可鼓励学员分享研修计划并进行自我介绍,促进学员们相互认识和了解,消除学员网络研修的孤独感。还可适当激发学员的内在学习需求,驱动其积极参与研修活动,通过展示一些和教师日常教学紧密相关的信息技术应用案例,让教师感受到技术的易用性和有用性,激发其学习兴趣。

2.总结和反思研修过程中存在的问题并进行改进。如在本例中,可参照《中小学教师信息技术应用能力培训课程标准(试行)》中的规定,在研修内容中,补充有关“技术支持的总结与复习”和“技术支持的教学评价”的课程,并在研修过程中进行适当引导、提供学习支架,帮助教师掌握利用技术资源进行总结与复习的方法,帮助教师学会应用技术资源进行教学评价。

3.监测活动状态,提供实时的针对性指导。当某个话题热度增长时,坊主在回答学员们关注的问题的同时,可适当梳理总结学员评论,肯定其研修成果,激发其自我效能感;还可通过启发式语言或采用“制造认知冲突”的方法,巧设矛盾,激发学员对该话题做更深入的探讨。当话题热度降低时,需分析其原因。如“信息技术与教师专业发展”话题的热度在研修过程的后期有所下降,就需进一步的探究其原因,进而才能提出有针对性的干预策略,让教师理解信息技术对其专业发展的促进作用,并能积极参与技术支持的专业发展活动,从而持续促进其教学能力的提升。

4.调节研修行为,积极参与活动。对于学员应能主动跟踪话题热度,了解其他学员所关注的研修内容,进行对比和反思,适当调节自身的研修行为,积极参与网络研讨,提升研修效果。

四、结束语

教师工作坊中学员进行网络研讨产生的交互式文本数据,为分析学员的研修状态提供了资源,而如何有效地对这些数据进行挖掘和分析就变得尤为重要。本文旨在探究教师工作坊中学员话题的挖掘和分析方法,并应用于“国培计划(2016)教师信息技术应用能力提升工程”某语文教师工作坊中,对学员们的话题结构、分布及演化情况进行挖掘和分析。首先,利用对高频词汇的内容语义分析实现对学员评论内容的整体分析;然后,运用LDA模型自动挖掘不同类型学员发表的评论中的隐含话题;最后,呈现了学员热点话题的演化趋势。从实验结果看,学员们都能围绕研修主题进行讨论;相比成绩普通学员,成绩优秀学员在学习态度上更显主动,在多媒体技术及应用和微课技术及应用方面有着更深的认识和理解,而有关“技术支持的总结与复习”和“技术支持的教学评价”的话题并没有出现。分析结果将有助于管理者改进和优化研修计划、研修内容和研修策略,提供更高契合度的学习内容和更有针对性的学习指导,以满足培训标准和学员需求,从而实现按需施训。通过话题演化趋势的实时可视化反馈,为引导研修深化发展提供重要支持,管理者和坊主可据此跟踪评价研修过程优化教学设计;另外,还有助于学员审视自我话语的贡献度、契合度及与其他学员的异同,从而调节自身的研修行为,提升研修效果。由此可以验证,该方法具有一定的自动分析在线交互式文本内容和结构的能力,可为教师工作坊的学习分析研究提供一些借鉴和参考。