基于正则等价的虚拟学习社区角色分类

2021-03-30王泰曾悦

电化教育研究 2021年3期

王泰曾悦

[摘要] 研究者们常采用传统的机器学习方法在虚拟学习社区中提取以中心性或声望为主要标准的领袖节点。这些方法虽然简洁直观，但容易遮蔽虚拟学习社区的部分特点，忽视非领袖节点中也可能存在其他类型的“关键少数”。为了深入理解虚拟学习社区的人际关系网络，文章以某门慕课讨论区中26次讨论的86名学习者为例，采用基于正则等价的块模型方法，从中划分出4个不同角色，并解释了他们在知识构建过程中发挥的作用。结果发现：可根据知识传递的关系，将学习者的角色分为“导学者”“善学者”“熟练者”和“初学者”4类。这一结果不仅表明基于正则等价的虚拟学习社区学习者角色分类方法比传统机器学习分类方法（如K-means）划分出来的角色更细致，更能够发现直观视野之外的“关键少数”，还给虚拟社区的教学实践带来新的启发。它启发我们：如果能对不同的角色采用不同的教学策略，有可能进一步减轻社区助教的工作负荷，用更少的干预促进虚拟学习社区形成更浓厚的学习氛围。

[关键词] 虚拟学习社区; 角色分类; 块模型; 正则等价; 社会网络分析

[中图分类号] G434 [文献标志码] A

一、引言

虚拟学习社区是在联结主义的启发下出现的一种学习组织，也是将社交网络与在线学习相结合的产物[1-2]。在虚拟学习社区中，不同的人群对构建知识的贡献和所起的作用不尽相同[3]。如果能对不同的角色采取不同的支撑策略，必将进一步促进虚拟学习社区的繁荣与发展[4]。而要达此目的，我们需要更深一步地认识和理解虚拟学习社区中的各类角色。

社会网络分析是一种用途十分广泛的网络分析方法[5]。研究者们使用社交网络中的密度、出度/入度、社群图、中心性等基本属性来分析学习者的交互结构[6-7]，大多将虚拟学习社区中的群体划分成核心、积极和非积极三类。已有学者为了研究学习者在构建知识中的角色和在虚拟社区中的地位，使用了结构洞[8]、凝聚子群[9]、块模型中的结构等价[10]等方法。在这些方法中，块模型（Block-model）是专门划分社交网络中行为人地位的方法。在块模型中，具有相同地位的行为人被划分为同一类角色。所谓相同地位，是指这些行为人与其他行为人之间的联系存在等价性，在某些场合下可以互相替代，类似于行政岗位中的A、B角。块模型方法可以依据不同的等价规则，构造出不同的分类结果。等价规则一般分为两种：结构等价和正则等价。

結构等价的定义是：如果两个行为人与所有第三人的联系都相同，就称这两个行为人结构等价。而正则等价的定义是：只要两个行为人都与某一部分行为人存在相同的联系，就可以称为正则等价。结构等价一般针对具有相似兴趣的成员，而正则等价则侧重于角色的社交学概念[11]。例如，结构等价意味着某类学习者在回答其余所有人的问题方面具有可替代性（等价），而正则等价则意味着某类学习者在回答某一部分学习者的问题方面具有等价性，即使回答对象不固定亦如此。正是因为结构等价的定义比正则等价严苛，所以在小规模的、自发形成的社交网络中，很难找到能够结构等价的两个节点[12-13]。像虚拟学习社区中常见的场次多但参与人数不多的讨论，用正则等价比较容易实现区分角色的目标。

本文采用基于正则等价的块模型方法分析学习者在虚拟学习社区的角色与地位。首先，构建学习者角色分类的正则等价分析模型;其次，结合讨论文本，分析学习者之间的联系，并据此划分角色;然后，比较这种角色分类的结果与传统机器学习中分类算法的结果，总结基于正则等价的块模型的有效性与优势;最后，根据分析结果，提出对虚拟学习社区（如慕课）建设的启发。

二、数据与方法

（一）数据来源

本文使用的数据来源于中国大学慕课中《新媒体概论》课程（第4次开课，2016年2月29日—2016年5月5日）的课后讨论区26次讨论（一次讨论可含多个帖子，主题帖以下至最后一帖算作一次讨论），包含86名学习者的昵称和发言文本。

（二）基础理论和方法

1. 正则等价性

正则等价性是指具有某种社交地位的行为人与另一部分行为人之间的联系模式相同[14]。例如，在学校里，教师给学生上课，同时也受教研组指导，所以教师在这样的场景中具有相同的社交地位。尽管教师执教的班级不尽相同，各个班级的学生不同，也未必受相同的教研组指导，但在给学生上课和受教研组指导的这两种关系之下，教师的角色和地位是相同的。用数学语言描述即为：如果行为人i和行为人j是正则等价的，且行为人i与某个行为人k存在直接的联系R，则行为人j必与某个行为人l存在同类型的联系，而且行为人k与行为人l也是正则等价的。

学者们依据正则等价的结构关系，研究了把整个社交网络中的行为人分配到相应子集的方法，使得行为人的正则划分在某种程度上是最佳或最符合实际情况的，即处于同一子集的行为人几乎完全正则等价，实现这一目标的方法是禁忌搜索算法（Tabu Search）[15-16]。

2. 正则等价的块模型表示

块模型常用于社交角色的代数分析[17]。将正则等价结构与块模型的构建结合，可以实现正则等价下的角色划分[18]。例如，9位行为人的联系如图1所示。由于是有向图，所以其社交关系矩阵并不必然是对称阵。从分块的社交关系矩阵转化到正则等价块模型的映射矩阵需遵循密度准则：当块密度（社交关系矩阵的子矩阵中联系标记为“1”的个数在该子矩阵中元素个数的占比）大于或等于总体密度（社交关系矩阵中联系标记为“1”的个数在社交关系矩阵中元素总数的占比），定义为1-块，否则定义为0-块。在分块时，1-块与0-块的区别度尽可能大，以保证其分块的稳定性与可靠性。因此，依据分块的社交关系矩阵中元素0和1出现的疏密程度，可以得到正则等价块模型的映射矩阵，继而得到角色关系图。图1中所示的角色关系图提示我们：这9个行为人可以分成3类角色，类别之间存在单向联系。其性质类似于教研组长（第1类）、指导教师（第2类）、教师指导学生（第3类）。

基于正则等价的块模型记录了两种内容：一是根据正则等价性定义，由行为人到等价类的映射;二是任意两个等价类（地位）是否存在联系。

3. 禁忌搜索算法（Tabu Search）

在构建基于正则等价的块模型的过程中，人们常用Tabu算法划分出符合正则等价要求的子群體。该算法的基本要领是：依据正则等价的计算方法，计算社交网络中各学习者的正则等价性程度，得到最初的聚类解;在标记这些局部最优解后，再一步步迭代，将这些已经找到的局部最优解作为下一步搜索的禁忌，跳过这些禁忌，继续搜索整个网络，最终得到整个网络的聚类最优解。

如上所述，正则等价块模型会产生两种块：0-块和1-块，Batagelj等人将划分之后实际获得的0-块和1-块与相应的理想正则等价块之间的误差和定义为Tabu算法中正则等价的准则函数[18]。该函数在UCINET软件中被称为代价函数，用以度量与理想正则等价块接近的程度。代价函数的值越小，表示越接近理想正则等价。Tabu算法除了求解全局最优外，还能加快迭代求解的过程。具体过程如下：

Step1：给禁忌表赋空值作为初始值（H=？覫），并选定一个初始解X。

Step2：代价函数的值不能再小或者减小的程度不明显时，停止计算，输出矩阵块;否则，在X的邻域N（X）中选出一个不在H内的候选集C（X），在C（X）中找到一个使代价函数值最小的解Xi，将其赋给X，即X=Xi，更新H，保存该代价函数值，重复Step2。

Step3：在保存的代价函数值中选取与最小值对应的解，该解所表示的正则等价划分就是最优划分。

三、结果分析

我们用邻接矩阵来表示数据集中的提问与回答，并用UCINET绘制这种社会联系，如图2所示。一个箭头两端的节点分别表示提问（用射出的箭头表示）与回答（用射入的箭头表示）。

从图2可以看出，回答多，提问少，既提问又回答的学习者更少。该图蕴含的邻接矩阵，经过Tabu算法的处理，生成的正则等价分块矩阵①如图3所示。

在实际分块矩阵与理想分块矩阵之间的误差最小这一准则的作用下，Tabu算法划分出4类角色，所以图3中的分块矩阵有4×4=16个子块。各块的密度见表1。由于总体密度为0.012，根据密度准则，可以写出类似图1中的映射矩阵，继而产生如图4所示的角色关系。该图中的4个节点代表4类角色，箭头的含义与图2相同。箭杆宽度表示块密度，也就是两角色间交流的频繁程度。交流得越多，箭杆越粗。

我们可以根据图4所蕴含的关系，推测这4类角色具体的内涵。

第4类角色：其他角色均有箭头指向它，而它却没有指向其他角色的箭头。这说明这类角色总是在回答其他角色的提问，但自己不提问。依据这样的关系模式，可以将这类角色命名为“导学者”，类似于助教在答疑解惑。

第2类角色：这是唯一的一类既回答又提问的角色。具体来说，以回答问题为主（射入的箭杆比射出的箭杆粗）。而提出的问题只有“导学者”回答。因此，该类角色在知识构建过程中的地位接近“导学者”，可以把这类角色命名为“善学者”。

第1类和第3类角色都是只提问，却不回答。然而，这两个角色在提问的频率和所起的作用方面却存在显著差异：第1类角色提问的频率显著高于第3类（由第1类发出的箭杆都明显比第3类发出的箭杆粗）;第1类角色提出的问题得到了“导学者”（第4类）和“善学者”（第2类）的回答，而第3类角色提出的问题只有“导学者”（第4类）在回答。据此，我们可以认为，第1类的角色是“初学者”，而第3类的角色是“熟练者”。

我们用4类角色的行为人在知识构建中的贡献率p来比较他们在学习社区中的作用。其中：

p表示行为人用自己的知识填补他人知识空白的程度。在其定义式中，出度和入度分别加1作为分母和分子，可以防止因分子为0或分母为0而出现大量相同的数据，可以更细致地看出贡献率的分布。尽管既不提问也不回答的学生，由上述定义式计算出的贡献率是1，但是在本文中，这些没有参与讨论的“围观”学生因没有编号而不会影响我们的研究。上述86名行为人的贡献率随角色的分布如图5所示。

四、与常见的聚类算法进行对比

从效果来看，基于正则等价的块模型实际上是对参与构建知识的虚拟学习社区的节点进行了聚类。而在常见的聚类算法中适合本研究场景的是K-means算法。在本节中，我们先获得K-means算法的运行结果，再比较它与上一节的结果之间的差别。

本节在具体调用Matlab提供的K-means函数时，所采用的数据集为学习者的出度（Outdegree）、入度（Indegree）和贡献率（p）。这些原始数据在三维散点图中就已经呈现了聚集现象。

在确定最合适的聚类数量（即k值）时，需要用到手肘法则（Elbow Method）①。当k取值为3时，聚类最佳。

根据各组学习者行为模式（出度、入度、贡献率），我们将K-means分出的3组学习者分别命名为：高质量提问者、一般学习者和活跃答疑者，并将他们的具体成员与基于正则等价的块模型方法的划分结果一起放入图6。K-means的结果与社会网络分析中依据中心性聚类的结果一致。事实上，我们可以从图2中直接看出如下现象：回答数较多的是2号（系一位助教），引发回答多的提问者是17号、27号（由于他们提出的问题引发了较多的回答，所以我们推定他们的提问具有较高的质量，故称之为高质量提问者）。尽管K-means的聚类结果与直观感受相符，但是该结果忽视了除2号（只回答）、17/27号（只提问）以外还存在的其他两类角色：既提问又回答的22号和26号，以及虽然也是只提问但频次却少很多的18号。而这些被忽视的角色在第3节中都能被基于正则等价的块模型方法区分出来。

为了更精确地比较这两种分类结果的差别，我们引入了Jaccard相似度。在数学中，集合之间的Jaccard相似度等于交集大小与并集大小的比例。Jaccard相似度的值越小，两个集合的差别越大。K-means与基于正则等价的块模型方法的划分结果的相似程度见表2。

由表2可以看出，除一般学习者与导学者较为相近外，其他类别的差别都较大，相似程度不超过20%。该表再次說明K-means划分角色的能力比较有限，只能挖掘出行为频次较为突出的学习者，而不能像正则等价块模型那样刻画不同角色之间信息交流的方向（即学习社区中提问与回答）。而信息交流的方向恰恰能体现学习者在学习社区中的地位、在知识建构过程中所起的作用与角色。

五、总结

通过正则等价的块模型，我们发现虚拟学习社区的学习者在知识构建的过程中自发地形成了若干不同的角色。他们在交流讨论、知识传递的过程中表现出了不同的特征。“导学者”在学习交流中起着类似助教的作用，用自己的知识填补他人知识结构的空白。“善学者”和“熟练者”不仅提出问题，还主动思考、帮助他人。尽管二者在提问与回答两种行为的频次方面存在显著差别，但都发挥了传递知识的“经纪人”作用。这种兼提问和回答二者于一身的角色，虽然人数不多，但起到了穿针引线、活跃交流气氛、缩短学习者之间社交距离的纽带作用。“初学者”虽然没有回答问题，但正因问题是由他们提出的，其他角色才有机会发挥作用。从哲学角度来看，“初学者”角色与其他角色“对立统一”于虚拟学习社区之中。

上述研究结论给虚拟学习社区的组织带来了如下启发：（1）除了助教以外，还存在许多愿意贡献知识的导学者，如果能以适当的方式鼓励在他们之中成立“助教团”，就可以缩短其他提问者等待回答的平均时间。（2）在划分学习小组时，“善学者”和“熟练者”值得更多关注，他们是保持与活跃学习气氛的“关键少数”。如果这些人能够成为小组学习活动的召集人或者组织者，可能会比随机分组的效果更好。

限于篇幅，我们仅举两个例子印证上述启发，在某种程度上也可以视为是对当事人进行的回溯式访谈。一个例子是被划为“善学者”的22号学生（网名“m18220059799”）。这名学生在回答“旧媒体或者传统媒体是什么？”的讨论题时，是唯一的一个把“幻灯片”也列入传统媒体的学生，反映了其视野的开阔和思维的灵活。同时，这名学生还比较早地（作者注：2016年3月）提出了一个颇具前瞻性的问题，大意是：新媒体（作者注：他所指的新媒体可能主要指自媒体）的出现推动了整个社会的发展，却没有应用到教育教学中（作者注：现在已经应用到教学中了）。另一个例子是被划为“熟练者”的18号学生（网名是“匿名”）。这名学生直接在教师答疑区提了一个比较具有挑战性的问题，大意是：报纸也应该算作新媒体的历史。这反映了其思维活动已经具有某种思辨的色彩。而提出的问题也确实属于对课程内容的熟练程度达到一定水平之后才会提出来的问题。这两个例子说明了虚拟学习社区中的学生的言（发帖或者回帖的内容）与行（基于正则等价的块模型发现的关系）存在某种程度的一致性。这样一来，就值得我们去设计某种算法或者开发某种插件，能够自动向慕课助教或者教师推荐基于行为关系而不是基于文字言论（对于程序来说较难识别）的“学生助教”或者小组讨论的召集者。

未来工作包括研究虚拟学习社区中如何根据日志文件尽快识别这些“关键少数”，以便分组时选择合适的角色作组长，并观察这种分组模式下学习的绩效与体验。

[参考文献]

[1] 张婧婧，杨业宏，王烨宇，陈丽. 国际视野中的在线交互与网络分析：回顾与展望[J]. 电化教育研究，2019（10）：26-34.

[2] 甘永成，陶舟. E-Learning、知识管理与虚拟学习社区[J]. 电化教育研究，2006（1）：18-22.

[3] 段金菊，汪晓凤. 在线开放课程背景下高低绩效学习者的社会化交互行为及参与模式研究[J]. 电化教育研究，2016 （11）： 43-50.

[4] 柴少明. 网络学习社区中基于对话的知识建构：理论与模型[J]. 电化教育研究， 2017（5）： 71-76.

[5] CHEN H， JIN H， WU S. Minimizing inter-server communications by exploiting self-similarity in online social networks[J]. IEEE Transactions on parallel and distributed systems， 2016， 27（4）： 1116-1130.

[6] 覃学健，李翠白. 虚拟学习社区的社交网络分析研究[J]. 现代教育技术，2009，19（2）：26-29.

[7] 戴心来，王丽红，崔春阳，李玉斌. 基于学习分析的虚拟学习社区社交性交互研究[J]. 电化教育研究，2015，36（12）：59-64.

[8] 戴心来，刘聪聪. 基于结构洞理论的虚拟学习社区信息交互中介性研究[J]. 现代远距离教育，2018（3）：21-28.

[9] 王陆. 虚拟学习社区社交网络中的凝聚子群[J]. 中国电化教育， 2009（8）：22-28.

[10] 袁华文. 虚拟学习社区中网络互动影响因素及策略研究[J]. 中国教育信息化，2016（24）：9-12，15.

[11] 张树森，梁循，齐金山. 社交网络角色识别方法综述[J]. 计算机学报，2017，40（3）：649-673.

[12] 约翰·斯科特. 社交网络分析法[M]. 3版. 刘军，译. 重庆：重庆大学出版社，2016.

[13] HANNEMAN R A， RIDDLE M. Introduction to social network methods[DB/OL]. [2020-05-18]. http：//faculty.ucr.edu/～hanneman/nettext/.

[14] 斯坦利·沃瑟曼，凯瑟琳·福斯特. 社会网络分析：方法与应用[M]. 陈禹，孙彩虹，译. 北京：中国人民大学出版社，2011.

[15] GLOVER F. Tabu Search - Part I[J]. ORSA journal on computing， 1989，1（3）： 190-206.

[16] GLOVER F. Tabu Search - Part II[J]. ORSA journal on computing， 1990，2（1）： 4-32.

[17] WHITE H C， BOORMAN S A， BREIGER R L. Social structure from multiple networks—Blockmodels of roles and positions[J]. American journal of sociology， 1976（81）： 730-779.

[18] BATAGELJ V， DOREIAN P， FERLIGOJ A. An optimizational approach to regular equivalence[J]. Social networks，1992（14）：121-135.