基于跨模态理解与重构的适应性数字教育资源：模型构建与实践框架

2023-12-25罗江华张玉柳

现代远程教育研究 2023年6期

罗江华张玉柳

摘要：数字教育资源在推进教育高质量发展的过程中扮演着重要角色。人工智能时代，如何让数字教育资源从之前的“让人适应”变为能“主动适应人”，是数字教育资源建设亟待解决的关键问题。随着人工智能生成内容（AIGC）应用场景的持续拓展，跨模态理解与重构技术为破解数字教育资源的适应性问题提供了可行的技术支持。具体而言，就是主张“人—境—机—物”多主体协同，利用跨模态理解与重构技术对复杂教育情境中的多模态教学行为和多模态数字教育资源进行智能挖掘和耦合计算，实现适用于人机协同环境的教育资源推荐，挖掘数字教育资源服务的供需适配关系，达成数字教育资源生成链的自我调度，由此即可构建起适应性数字教育资源模型。在实践推进层面，应构建起包括数据采集层、智能分析层、规则约束层、应用服务层四个层次的适应性数字教育资源实践框架，以期在对多模态教育资源和师生行为进行跨模态理解的基础上，切实推进对数字教育资源的智能管理和个性化服务。

关键词：跨模态重构；跨模态理解；适应性数字教育资源；人机协同；AIGC

中图分类号：G434 文献标识码：A 文章编号：1009-5195（2023）06-0091-11 doi10.3969/j.issn.1009-5195.2023.06.011

基金项目：国家社会科学基金2021年度教育学重点课题“以教育新基建支撑高质量教育体系建设研究”（ACA210010）。

作者简介：罗江华，博士，教授，博士生导师，西南大学西南民族教育与心理研究中心（重庆 400715）；张玉柳，博士研究生，西南大学西南民族教育与心理研究中心（重庆 400715）。

一、引言

在我国推进教育高质量发展的过程中，数字教育资源扮演着重要角色。聚合起高质量、体系化、多类型的数字教育资源，能有效推动教育资源的数字化与配置公平化，可满足学习者个性化选择的需求（怀进鹏，2023）。这意味着要全面提升数字教育资源服务的适应性能力（罗江华等，2023），以科技创新为基点推动优质资源聚合，不断提升数字教育资源的供需适配度（郑永和等，2023），并加强对其的智能化组织管理和监管评价（柯清超等，2023）。

跨模态理解与重构是人工智能生成内容（AI-Generated Content，AIGC）的关键技术，其引领的AIGC应用效果和质量大幅提升，应用模式从专用走向通用，应用流程从分发走向生成，应用场景从单一走向多元（吴砥等，2023）。这些突破不仅为数字教育资源个性化服务提供了技术支撑，而且为破解数字教育资源的适应性生成难题提供了可能。传统数字教育资源服务虽然具有“人工累积、标准化供给”的鲜明特征，但也存在效率低和制作成本高的缺陷（陈明选等，2021）。而应用跨模态理解与重构技术，可帮助人机高质量协作，更好地理解数字教育资源的属性、资源关联、语义信息，以及教学对象的行为意图，处理和分析复杂教学过程中的多模态数据，通过迭代优化智能生成数字教育资源，进而实现“知识魔法”，即根据师生的偏好和需求来提供个性化教育资源服务（杨欣，2023）。

本研究关注如何基于跨模态理解与重构技术为师生生成适应性数字教育资源。一方面，从多模态教学行为特征视角对数字教育资源应用的复杂性进行深入探究，利用跨模态理解与重构技术实现对多模态教学行为和多模态数字教育资源的系统化建模分析，并探究适应性数字教育资源形成要素之间的交互作用模式；另一方面，挖掘适应性数字教育资源生成及应用的适配机理，并分析其对于人机协同教育生态发展的核心价值。

二、相关概念诠释

1.跨模态理解与重构

多模态和跨模态技术经常被同时使用，以实现更全面、更准确和更高效的信息处理和分析。多模态技术（Multimodal Technology）是一种使不同信息形态相互作用和协同的技术，旨在将文字、图像、声音和视频等加以集成和融合，从而提供更丰富、灵活和个性化的交互体验和表达方式（吴友政等，2022）。而跨模态技术（Cross-Modal Technology）则是一种在不同感知模态之间进行信息交换和处理的技术，旨在将不同感知模态的信息进行相互转换和整合（陈宁等，2021）。由此可見，多模态技术注重如何融合和整合不同模态的信息，而跨模态技术则侧重如何建立不同模态数据之间的联系和桥梁。

多模态与跨模态技术的持续发展和广泛应用催生了跨模态理解与重构的进化。跨模态理解（Cross-Modal Understanding）是指在多个不同的感知模态之间建立联系，目的是将不同感知模态的信息进行整合，以促进更加全面、准确的理解和推理（Liu et al.，2021）。例如，将文章中的图片、视频等多模态元素与文章内容结合起来，就可更好地把握文章主旨。跨模态重构（Cross-Modal Reconstruction）是指利用一种或多种感知模态的信息来生成另一种感知模态的信息，目的是利用不同感知模态之间的相互关系来弥补信息缺失或丰富信息表达（Choi et al.，2020）。例如，将音频转化为视频，或将图像转化为三维模型。

2.适应性数字教育资源

适应性被认为是数字资源服务的重要发展方向，旨在提升数字交互的匹配度和友好性，其重点是以师生兴趣为导向（Mérida et al.，2010）。Rozo等（2019）认为适应性数字教育资源应当突出资源使用情境、内容表示、界面呈现和流程提示，其设计目的是增强学习体验，引导学生在学习活动中自定步调进行学习。罗江华等（2022）强调应以师生真实需求和个性特征为数字教育资源服务的前提，重点提升数字教育资源生成与教学应用之间的适配性。

从发展趋势看，适应性数字教育资源的建设和应用已经超越了作为“资源平台和资源池”的初级阶段，现已建立起多主体协同、跨模态耦合和适应性增强的计算模型，并且强调“模型即服务”（杨洋等，2022）。在这个服务过程中，如何促进多模态资源的有效识别、转化与汇聚，是满足师生对资源个性化需求的关键。这在本质上是数字教育资源的跨模态生成，即将不同模态的资源进行有机融合，以生成新的、具有丰富信息且适配于教学活动的跨模态数据（Żelaszczyk et al.，2023）。更为重要的是，适应性数字教育资源的组织与应用，需从跨模态实体语义关系知识模型出发，引入面向教学场景的师生用户模型与智能计算服务框架（林健等，2022）；还需依据学习者特征实现资源的适应性设计、生成与供给的智能服务，尤其要重点设计“内容”与“结构”松耦合的适应性学习资源模型（王琦等，2022）。

三、适应性数字教育资源的价值定位

推进适应性数字教育资源建设，已成为教育数字化行动战略的关键环节。具体来说，探究教育资源智能化服务过程中的人机交互规律，明确了解、理解和响应师生需求，提升数字教育资源的交互性与适配程度，既是数字教育资源服务质量提升的目标，也是适应性数字教育资源的价值指向。

1.切实推进人机协同环境下的教育资源推荐

伴随智能技术深度介入教育情境，构建人机协同学习的智慧教育情境（彭红超等，2018）变得越来越容易。此种情境下，人和机之间的互动不是简单的机械式操作，而是一种共轭共生的关系，即以人的价值为根本遵循，借助智能技术实现个体的自我发展（艾兴等，2020）。适应性数字教育资源模型的运行机制便是一种借助技术的中介效应打破人、机与物之间的边界，探析“人—境—机—物”多主体之间复杂信息交换和多元交互的机制。其主要体现在三个方面：在适应性数字教育资源的数据采集与理解阶段，人机协同是师生主观感知和智能传感器采集信息的有效聚合。在信息处理阶段，人机协同是将师生行为特征、教育资源与机器强大的算力结合起来，进而建构新的资源适应性推荐途径。在数据输出阶段，人机协同是将教育教学的发展规律和机器的算法决策相联结，从而助益教育资源应用的优化与决策（刘伟，2021）。

2.精准反馈数字教育资源服务的供需适配关系

由于“技术是工具”的论断并没有充分考虑教育对象的意向性，因而导致技术的情境适应性缺失的问题（蔡连玉等，2023）。近来已有研究关注到师生行为需求对于提升个性化教育资源服务效率具有积极作用，但领域知识组织架构中知识来源类型单一、更新缓慢以及师生特征识别率不高等问题，已成为阻碍教育资源应用效率提升的关键原因。而适应性数字教育资源的研究正是依托数据科学和人工智能技术支持，利用先进的感知技术和数据挖掘方法，对师生多模态教学行为和多模态数字教育资源进行多层次、细粒度的精准建模，即从师生需求侧和资源供给侧两方面进行耦合计算，动态反馈数字教育资源服务的供需适配关系，以便在数字教育环境下实现资源的精准适配和定制，推动数字教育资源的形式多样化、内容境遇化、交互动态化以及服务智能化。

3.真正实现数字教育资源生成链的自我调度

人工智能技术在很大程度上已变革了教育教学的组织方式，其技术整合范式强调多通道推送知识和技术，重视利用数字技术赋能数字教育资源动态、灵活地自我组织，以促进学生对知识的深度习得（蔡连玉等，2023）。适应性数字教育资源服务的核心是基于人工智能算法赋能数字教育资源生成、流转和应用等全流程智能化。从资源生成链的角度来看，适应性数字教育资源提供了更加灵活的资源生成和管理方式，其优点在于能够为数字教育资源生成提供更好的自我调度功能，提高数字教育资源的多模态融合度和复用性。同时，适应性数字教育资源也能更好地管理数字教育资源的生命周期，及时更新和优化资源内容和形式，实现对适应性数字教育资源服务涉及的数据流、算法流、知识流等多层次和多维度的理解、优化及数据化表征，提高数字教育资源的丰富性和实用性，满足师生多样化的教与学需求。

四、基于跨模态理解与重构的适应性数字教育资源模型构建

智慧教学是由“人—机—物”等多主体在“物理—信息—心理”等多空间相互作用的复杂过程，面临多空间融合、多主体协同、多环节汇通、多模式适配等挑战（刘三女牙等，2021）。同理，适应性数字教育资源的生成亦可以认为是在“人—境—机—物”等多主体协同下，有效实现资源多元化和师生意向性全面融合的过程（阙玉叶，2022）。为指导具体实践活动，须建构基于跨模态理解与重构的适应性数字教育资源模型，诠释适应性数字教育资源动态生成的内在机理。

1.设计理念：资源“适应”人的意向性

迄今为止，对于人类主体性的强调是人工智能时代的一个关键议题。“以人为本”标尺下的人机协同，是现阶段人工智能在教育领域内“植入”式发展的必由之路（喻国明，2022）。传统的教育资源供给通常是固定的、预设的，师生只能按照既定步骤和内容进行学习和实践。随着人工智能生成内容技术的发展，有必要通过精准理解师生多模态教学行为，探明其具体的资源需求，把握其资源意向与资源智能推送之间的适配关系。只有当师生积极表达自己的资源需求，以及计划如何发展新的知识时，适应性数字教育资源才能更好地进行定制化生成。因此，适应性数字教育资源模型应当遵循资源“适应”人的设计理念，考虑如何依据师生的需求和反馈信息进行资源的智能组织和推荐优化，从而灵活、智能地为师生提供生成性教育资源。

2.要素筛选：适应性数字教育资源模型分析

通过梳理和分析自2010年以来国际上主流的适应性教育资源模型（见表1）发现，其共同涉及的关键要素可以概括为：人（学生与老师）、境（教育情境）、机（智能设备与技术）、物（教育资源）四个方面。厘清各关键要素的潜在特征及其交互作用机制，是适应性数字教育资源有效生成的重要前提。

（1）人：学生与教师

人是教育的主体，本研究中主要指教师和学生。教师是教学活动的组織者与指导者，其外显行为主要包括话语、肢体动作、教学设备使用以及与学生的互动情况等。学生是学习活动的主体，其外显行为表现为表情、话语、学习风格、学习日志、身体动作，以及与学习终端、教师或其他感知设备的交互等；其内隐行为表现为认知、情感、动机以及生理特征等。

（2）境：教育情境

“境”通常是指教育活动所发生的场所和环境，包括传统的课堂教学场景、实验室教学场景、实习教学场景、在线学习场景以及虚拟教学场景等，具有多样性和复杂性。在教育情境中，师生通过进行有效的教学和学习活动，可实现知识的传递和学习目标的达成。

（3）机：智能设备与技术

“机”是指支持教与学的智能技术或应用设备，本研究中主要是指利用智能设备与技术等对多模态数据进行挖掘分析。具体而言，智能设备主要是指通过计算机技术和传感器技术实现自主智能的设备，如智能学习设备、VR头盔、眼动仪、高清摄像头等，其通常拥有高度的联网能力，可通过互联网与其他设备及云端服务进行交互，从而提供更加智能化的服务。而智能技术则是指利用人工智能、大数据、机器学习、自然语言处理等技术，对资源数据进行处理和挖掘，从而实现智能化的资源组织与决策。

（4）物：适应性数字教育资源

“物”主要是指适应性数字教育资源，其能够根据多模态教学行为特征，自动适应人的意向并生成智能化组织的数字教育资源。适应性数字教育资源的应用范围非常广泛，既可应用于各级各类教育阶段和学科领域，为学生提供更加个性化的教育服务，帮助学生更好地掌握知识和技能；同时也可为教师提供更具针对性的教学方案和资源，提高教学效果和质量。适应性数字教育资源具有三方面的特点：一是通过改变内容结构逻辑及知识组织方式体现其复合性，二是通过提升多元化的内容生产体现其多样性，三是通过提升资源育人的功能效果体现其增值性。

3.模型构建：基于跨模态理解与重构的适应性数字教育资源建模

结合马海云等（2022）所设计的面向知识服务的领域知识结构，本研究首先对适应性数字教育资源中的知识组织进行了分层聚类，在此基础上构建了如图1所示的基于跨模态理解与重构的适应性数字教育资源模型，以探析适应性数字教育资源的动态生成机制。

（1）多主体协同

在人工智能为教育领域全面赋能的背景下，传统的“师生”二元关系逐渐被“人—境—机—物”多主体协同互动的新型关系所取代，且贯穿当前数字化教学的全过程（张乐乐等，2022）。在“人—境—机—物”多主体协同互动的智慧教学中，只有实现了不同主体间数据的共享和互通，才能实现人与“机”、人与“物”之间的协同，即“机”要为不同“境”下的人提供智能化和个性化的“物”。

（2）跨模态耦合

适应性数字教育资源的动态能力形成需依据智能技术对多模态教育资源和多模态教学行为分别进行理解和表征。如图1所示，跨模态数据理解能力U可以分为跨模态师生行为理解能力U1和跨模态数字教育资源理解能力U2两种子能力，耦合两种理解能力能够形成跨模态教育资源重构能力R，R可表示为公式（1）：

R＝f（U1，U2）（1）

其中，f（·）表示跨模态数据理解能力对跨模态教育资源重构能力的影响函数。基于跨模态重构生成的数字教育资源可以有效反映出适应性数字教育资源的动态能力D，D可表示为公式（2）：

D＝g（R）（2）

其中，g（·）表示跨模态数字教育资源重构能力对适應性数字教育资源动态能力的影响函数。由此适应性数字教育资源的动态能力可表示为公式（3）：

D＝g（R）＝g（f（U1，U2））（3）

跨模态师生行为理解能力与跨模态数字教育资源理解能力通过跨模态数字教育资源重构能力相互耦合，形成适应性数字教育资源的动态能力，其生成机理符合杨现民等所提出的资源进化模式（杨现民等，2011）。其中，跨模态资源理解属于其“资源的内容进化”模式，即“量变”；跨模态资源重构属于其“资源的关联进化”模式，即“质变”，“量质并举”形成了适应性数字教育资源高效生成的动态能力。

跨模态数据理解包括多模态教育资源和多模态教学行为理解两种类型，如图2所示，其主要目的是对不同模态的数据进行识别、理解与融合，以此作为后续数字教育资源适应性重构的基础。跨模态数据理解类似于企业中通常遵循的资源编排理论，根据发展需求对不同表现形式的资源进行识别、理解后的拆解、重构，从而改变数字内容的生产逻辑及形式。

跨模态资源理解是为了保障跨模态资源消除冗余，降低不必要的复杂度，以及提高数字资源的高韧性和可理解性。通常来说，一个知识点可以用含有其语义信息的图片、文本、音视频等不同模态的资源来表示。在对齐序列场景下，若干个多模态数据组成一组，使用单模态编码器处理输入文本、音频、视频和图像等模态信息后，可得到初始文本嵌入T＝{t1，...，tn}、音频嵌入A＝{a1，...，an}，视频嵌入V＝{v1，...，vn}和图像嵌入I＝{i1，...，in}等。为了建模文本、视觉和音频之间的跨模态交互，引入基于Transformer的跨模态编码器将多模态表征的高维稀疏特征向量转换为低维稠密特征向量，并映射到一个统一的表征空间。然后通过跨模态关联建模获取具有语义一致性的跨模态资源，进而增强后续生成内容的内在逻辑性。此外，对于学习资源内容的上下文表征M可用公式（4）表示，其中[；]表示组合操作（Liu et al.，2021）。

M＝CrossEncoder（[T；A；V；…；I]）（4）

除了综合跨模态教育资源的语义关联，还需集约师生的资源需求，这是一个更复杂的多模态信息处理问题。跨模态教学行为理解与跨模态资源理解的技术实现过程大体一致，既要正确理解师生资源需求，也要更好地表示和记录师生的多模态教学行为数据，尤其要重点关注师生的心理、认知、情感状态，从而建立物理空间、生理空间、心理空间、数字空间四位一体的资源需求理解机制。

教育资源蕴含着多元价值，跨模态资源重构可以实现多种表现形式的学习资源的转换、重构和生成，为师生提供最适合他们需求的资源服务。跨模态资源重构更关注全局信息，其核心是“应变”，需依据跨模态师生行为理解和跨模态教育资源理解的量化表征而生成适应性教育资源。其中，资源重构能力是教育资源动态能力的低阶构成（Teece et al.，1997）。资源重构具有两个维度，即资源重组（Recombination）与资源重置（Reallocation）（Karim，2006）。资源重组涉及资源之间的相互作用，旨在使资源之间重新组合形成新的资源，类似于资源之间所发生的“化学变化”。资源重置不涉及资源之间的相互作用，仅指通过融合或精简的方式对资源进行重新分配，类似于资源之间所发生的“物理变化”（Karim et al.，2004）。在本研究中，资源重构是指对已有教育资源进行优化和重组并生成适应性资源的技术。其流程如图3所示。

鉴于不同模态的资源在具体事件和应用中具有高度相关性，因此为了更好地以师生的意向性为导向从中抽取具有因果性、区分性、显著性和鲁棒性的有效特征，研究将跨模态资源语义图谱假设为Gr＝G（Vr，Er），其中Vr是节点集合，Er是边集合；将跨模态师生特征图谱假设为Gf＝（Vf，Ef），其中Vf是节点集合，Ef是边集合；通过利用Gr和Gf对多模态教育资源进行跨模态重构，即可生成适应性数字教育资源，步骤如下：

第一，将跨模态资源语义图谱和跨模态师生特征图谱进行关联，以获取耦合图谱G＝（V，E），其中V＝Vr∪Vf，表示节点集合的并集；E＝Er∪Ef，表示边集合的并集。然后利用加权邻接矩阵A∈Rn×n来表征耦合图谱的结构，其中n＝|V|，表示耦合图谱中的节点数量。A中的每个元素aij表示节点i和节点j之间的连接权重。

第二，将耦合图谱G中的节点特征表示为一个矩阵X∈Rn×d，其中d是节点特征的维度；再将节点i的特征表示为xi∈Rd。具体地，对于跨模态资源语义图谱中的节点，利用其语义信息来表示其特征；对于跨模态师生特征图谱中的节点，利用其教学行为和应用语境信息来表示其特征。

第三，使用图卷积神经网络（Graph Convolution Network，GCN）对耦合图谱进行表示和学习（Kipf et al.，2016），定义每个图卷积层的传播规则为公式（5）：

第四，利用节点表示矩阵H（L），通过注意力机制、多层感知器等进行资源内容预选，对数值、时间等类型数据进行推理，实现联合训练和优化，从而克服多模态资源之间的异构鸿沟。同时定义一个前向传播函数f∶H（L）→Y，其中Y表示生成的适应性数字教育资源的概率分布；f（·）定义为公式（6）：

f（H（L））＝softmax（MLP（ATT（H（L））））（6）

其中，ATT是注意力机制（Attention），它可以为每个节点计算一个权重向量，表示该节点在生成适应性数字教育资源时的重要程度。对于节点i，其权重向量为ai。注意力机制的计算如公式（7）所示，Hi（L）表示第i个节点在GCN的第L层中学习得到的特征向量，softmax（ai）表示节点i的权重，可以通过一个多层感知器学习得到。

ATT（H（L））＝∑i=1 softmax（ai）Hi（L）（7）

另外，MLP是多层感知器，用于将节点的上下文表示映射到适应性数字教育资源的空间中。对于节点i，其上下文可表示为ci＝MLP（ATT（H（L））||Hi（L）），其中||表示向量的拼接操作，MLP可以包含多个全连接层和激活函数，也可通过反向传播算法学习得到。

通过注意力机制，对节点表示矩阵H（L）进行加權平均，还可得到每个节点的上下文表示。通过多层感知器，将节点的上下文表示映射到适应性数字教育资源的空间中，最终通过softmax函数生成概率分布。softmax是一种激活函数，可以将任意实数向量转化为概率分布，即保证每个元素的概率都在[0，1]之间且概率和为1。

第五，使用交叉熵损失函数衡量基于模型生成的适应性数字教育资源与其实际满足师生资源需求之间的差异，以便对生成的适应性数字教育资源进行训练和优化。交叉熵损失函数定义为公式（8）：

综上所述，我们可以利用公式（11）表示如何基于跨模态资源语义图谱和跨模态师生特征图谱对跨模态教育资源进行重构，从而为师生生成适应性数字教育资源。

Y＝f（H（L））＝softmax（MLP（ATT（H（L））））（11）

其中，H（L）是耦合图谱经过多层GCN网络学习得到的节点表示矩阵，f是前向传播函数。

通过以上过程，可为师生提供的适应性数字教育资源包括重新排列和组合的原始资源的不同部分、添加的新的图像、音频或视频元素等，以使其更适合师生的特定需求，并在共享和复用过程中实现其价值增值（杨文正等，2018）。

（3）适应性增强

动态能力理论致力于研究一个组织面对一个快速变化的环境所拥有的改变、更新和创造新资源的能力（Teece，2000）。资源视角下的动态能力主要由三个维度构成：一是快速识别和理解有价值资源的能力，二是有效获取有价值资源的能力，三是汇聚、重构资源以维持优势的能力（Teece，2007）。教育资源具有动态能力意味着教育领域能够对资源进行数智化组织与重新配置，进而实现对资源智能服务模式的有效创新。简而言之，适应性数字教育资源的适应性增强体现了其动态能力的高阶性，以及对于师生教学行为需求特征挖掘的成熟度和资源理解与重构的成熟度。

教育资源是知识的重要载体，学习资源与知识本体的结合是未来学习技术标准的一大发展趋势（赵厚福等，2010）。适应性教育资源的形成，即是以知识单元为单位的资源增值服务，其知识组织分为四个层次：知识信息层、核心要素层、问题求解层以及补全扩展层。其中，知识信息层包含了知识的概念、属性以及载体类型等特征，完整地反映了某一领域资源的知识信息。知识信息层是构成多模态领域知识的最小单位，也是领域知识结构的基础。核心要素层通过对多模态领域知识基础细节层中的各个特征进行编码处理，筛选出领域知识的核心要素，由此构成了反映多模态领域知识的核心内容。问题求解层是在核心要素层的基础上，根据师生教学行为需求进行跨模态知识单元的重构，以便形成能够解决师生实际问题的知识单元。补全扩展层是在对多模态知识单元以及师生行为需求进行匹配计算后，通过不断更新和优化资源以补全或扩展教育资源库，使其更加贴近师生动态变化的资源需求。在知识组织层次分类技术的支撑下，适应性数字教育资源服务不仅能为师生提供一份生成性的教育资源，还能从全流程视角观照师生资源需求、进行资源匹配、实现资源重构以及个性化和智能化推送。当对师生需求挖掘的成熟度和资源理解与重构的成熟度越来越高时，适应性数字教育资源的动态能力也会不断增强。这种持续发展的能力可表示为：适应性数字教育资源的动态能力∝f（师生需求挖掘的成熟度，资源理解与重构的成熟度）＋ε，其中，f（·）在一般情况下是一个回归函数，ε表示适应性数字教育资源动态能力的基线水平。

五、基于跨模态理解与重构的适应性数字教育资源实践框架

在提升数字教育资源服务质量的过程中，资源的智能组织和服务策略是同等重要的，因此还需要以适应性为主旨构建实践框架。尽管已有学者从“数据发现、数据融合、数据利用”方面梳理了教育资源的实践框架（Shankar et al.，2019）；但如何融合师生多模态行为分析，有效提升数字教育资源的识别、理解、转化、重构、生成与高效应用，仍是构建数字教育资源实践框架的关键（Hercheui et al.，2020；Mikalef et al.，2021）。本研究從数据采集、智能分析、规则约束和应用服务四个方面，构建了如图4所示的基于跨模态理解与重构的适应性数字教育资源实践框架。

1.数据采集层：多模态教育资源和师生行为采集

适应性数字教育资源的智能呈现既需要对师生行为与教育资源的关联表征，也需要大量师生内隐与外显行为，以及资源的多维数据指标的支持。数据采集层主要针对教育情境下的多模态教育资源和多模态教学行为进行全方位、伴随式数据采集。针对师生行为数据，主要利用多模态学习分析方法对“人—境—机—物”多主体协同进行精准分析，通过传感器、监控器、智能学习设备等方式采集不同学习空间的行为数据，以便形成多模态行为可计算的表征模式。针对多模态教育资源，主要依托国家智慧教育公共服务体系，汇集多类型、多尺度、多时相的多源异构数据源（如文本、视频、音频和图像等），通过爬虫或API等方式获取。在数据采集的过程中，还需要保证数据的质量、安全性和隐私。

2.智能分析层：基于多模态数据的理解与适应性重构

智能分析层主要通过人工智能等技术进行模型训练和优化，深度挖掘不同模态的师生行为需求和教育资源信息并对其进行高效关联，以此对适应性数字教育资源的动态能力生成进行深入分析。在应用数字教育资源时，应充分考虑师生行为特征对于适应性重构的需求，跳出模式的“深井”，融合用户行为需求与场景语义的资源分片、知识标注、构件装配等深加工技术（刘三女牙等，2021）。研究采用Encoder-Decoder架构对多模态数字教育资源进行智能分析：首先，使用单模态编码器提取输入文本、图像和音频等的表示。其次，运用Embedding处理/操作将不同模态的数据合并成一个张量。然后，使用Transformer编码器处理文本、图像和音频等内容之间的交互，得到多模态数字教育资源的统一表征。同理，多模态教学行为的智能分析亦使用Transformer编码器，通过处理师生多模态教学行为之间的交互，可得到多模态行为数据的统一表征。最后，基于两个跨模态解码器对数字教育资源进行适应性重构，从而生成符合师生意向的教育资源。在适应性重构过程中，还可以使用不同的神经网络模型，根据需要设计合适的网络结构和参数配置，以实现对适应性数字教育资源的智能推送。

3.规则约束层：资源生成中的质量监控与伦理安全

技术的逻辑在于成功与高效，即“成事”与“成物”，但教育的逻辑在于“成人”（李政涛，2020）。基于跨模态理解与重构技术生成的适应性数字教育资源依赖于多模态大模型的优势特征（Luo et al.，2020；Huang et al.，2023）。它在为师生的教与学提供诸多便利的同时，也面临如何在资源生成过程中发挥育人功能和保障数据安全等挑战。而且适应性数字教育资源的生成对数据的多样性、时序性和层次性的要求很高。若对数据的采集、获取和使用方式不加以约束，将在很大程度上造成师生隐私的泄露，并导致人在创新活动中的主体地位出现阶梯式消解（李建中，2019）。除此之外，适应性数字教育资源的生成和应用还涉及知识产权、认证标准、内容审查等方面的技术伦理问题。规则约束层即是为了解决这些问题，对技术应用的场景和边界进行严格界定，开展符合教育规律的人机协同审查（郭炯等，2019）。具体来说，就是要明确智能技术的应用规范、伦理道德边界，遵循教育资源服务的知识组织原理、教育教学规律与育人目标定位，从技术检测和专家测评两个层面探析如何建构适应性数字教育资源的测评体系，实现资源质量、育人、伦理等多维度的科学测评。

4.应用服务层：推进资源的智能管理和个性化服务

数字教育资源智能管理是指通过提升数字教育资源的组织和维护效率，以使其更好地支持教育活动的过程。基于跨模态理解与重构的适应性数字教育资源能为数字教育资源组织与管理效率的提升提供学理基础，具有多源聚类与知识重组等特点。适应性数字教育资源的知识组织层次，能够达到对教育资源知识单元的可控、可分目的，实现资源的共享优化，并创新教育资源的粒度化管理。通过挖掘多模态资源间隐含的知识关联进而实现跨模态、多角度的资源重构，可以有效地对各类数字教育资源进行建序优化，并促进其由碎片化向集约化、智能化转型。这将大大提升隐性知识识别、理解、转化、创新应用的效率，一定程度上满足了数据驱动与需求驱动相结合的数字教育资源共享与重用，也拓展了资源价值的辐射边界。

智慧教育服务是指应用人工智能等技术为学生与教师提供更加智能化和个性化的教育服务，并以提高教育质量为目标的一种服务形态。而适应性数字教育资源具有多模态行为分析和跨模态资源生成的“双元”特性，能够根据师生需求进行智能化调整和优化，规避数字教育资源组织中的“路径依赖”困境。学生可以根据适应性数字教育资源的知识导航，基于多样化的教学资源，实现个性化学习。教师可以利用适应性数字教育资源更好地针对学生的学习需求和特点进行教学设计和教学实施，通过优化学习路径不断提高教学效率。这些服务不仅可以让教育更加智能化和个性化，还可以大大拓展教育的覆盖范围，提高教育教学的质量和效率，促进教育的公平和包容。

六、结语

适应性数字教育资源是数字教育资源生成、流转和应用等全链条智能化的结果，其核心是构建基于跨模态理解与重构的适应性数字教育资源模型，目标是动态生成供需适配的资源链，即依托跨模态理解与重构技术生成适用于复杂教育情境的多模态教育资源。未来，我们将在现有研究的基础上，进一步结合多模态大模型的技术进化，将该模型与适应性数字教育资源的实践框架相结合并验证其有效性，以实现复杂教育情境下人机协同学习的互惠共生。

参考文献：

[1]艾兴，赵瑞雪（2020）.人机协同视域下的智能学习：逻辑起点与表征形态[J].远程教育杂志，38（1）：69-75.

[2]蔡连玉，金明飞，周跃良（2023）.教育数字化转型的本质：从技术整合到人机融合[J].华东师范大学学报（教育科学版），41（3）：36-44.

[3]陈明选，李兰（2021）.我国数字教育平台资源配置与服务：问题与对策[J].中国远程教育，（1）：17-26，77.

[4]陈宁，段友祥，孙歧峰（2021）.跨模态检索研究文献综述[J].计算机科学与探索，15（8）：1390-1404.

[5]丁继红，刘华中（2017）.影响教育资源选择的学习者模型构建[J].远程教育杂志，35（4）：97-103.

[6]郭炯，郝建江（2019）.人工智能环境下的学习发生机制[J].现代远程教育研究，31（5）：32-38.

[7]怀进鹏（2023）.数字变革与教育未来——在世界数字教育大会上的主旨演讲[N].中国教育报，2023-02-14（001）.

[8]柯清超，刘丽丽，鲍婷婷等（2023）.国家智慧教育平台赋能区域教育数字化转型的四重机制[J].中国电化教育，（3）：30-36.

[9]李宝，张文兰（2015）.智慧教育环境下学习资源推送服务模型的构建[J].远程教育杂志，33（3）：41-48.

[10]李建中（2019）.人工智能時代的知识学习与创新教育的转向[J].中国电化教育，（4）：10-16.

[11]李政涛（2020）.现代信息技术的“教育责任”[J].开放教育研究，26（2）：13-26.

[12]林健，柯清超，黄正华等（2022）.学科知识图谱的动态生成及其在资源智能组织中的应用[J].远程教育杂志，40（4）：23-34.

[13]刘三女牙，孙建文（2021）.人工智能时代的课堂创变：解构与重构[J].国家教育行政学院学报，（9）：16-22.

[14]刘伟（2021）.人机融合：超越人工智能[M].北京：清华大学出版社：34.

[15]罗江华，冯瑞（2022）.学习平台的适应性进化及其对教育新基建的启示[J].现代教育技术，32（10）：17-25.

[16]罗江华，王琳（2023）.新基建赋能教育数字化转型的逻辑、挑战与实践路向[J].中国电化教育，（3）：37-45.

[17]马海云，薛翔（2022）.面向知识服务的领域知识结构研究[J].情报学报，41（1）：73-82.

[18]彭红超，祝智庭（2018）.人机协同的数据智慧机制：智慧教育的数据价值炼金术[J].开放教育研究，24（2）：41-50.

[19]阙玉叶（2022）.人工智能实现完全意向性何以可能？——人机融合智能：未来人工智能发展方向[J].自然辩证法研究，38（9）：55-61.

[20]王琦，余胜泉，万海鹏（2022）.内容与结构松耦合的适应性学习资源模型及应用研究[J].电化教育研究，43（3）：51-59.

[21]吴砥，李环，陈旭（2023）.人工智能通用大模型教育应用影响探析[J].开放教育研究，29（2）：19-25，45.

[22]吴友政，李浩然，姚霆等（2022）.多模态信息处理前沿综述：应用、融合和预训练[J].中文信息学报，36（5）：1-20.

[23]杨文正，徐杰，李慧慧（2018）.生态学视角下数字教育资源优化配置模型构建[J].现代远程教育研究，（2）：94-102.

[24]杨现民，余胜泉（2010）.泛在学习环境下的学习资源信息模型构建[J].中国电化教育，（9）：72-78.

[25]杨现民，余胜泉（2011）.泛在学习环境下的学习资源进化模型构建[J].中国电化教育，296（09）：80-86.

[26]杨欣（2023）.基于生成式人工智能的教育转型图景——ChatGPT究竟对教育意味着什么[J].中国电化教育，（5）：1-8，14.

[27]杨洋，况琨，陈政聿等（2022）.基于端云协同体系的预训练大模型及其服务化[J].人工智能，（6）：103-120.

[28]余平，管珏琪，徐显龙等（2016）.情境信息及其在智慧学习资源推荐中的应用研究[J].电化教育研究，37（2）：54-61.

[29]喻国明（2022）.“以人为本”标尺下的“人—机”协同[J].新闻与写作，（10）：1.

[30]张进良，叶求财（2019）.大数据视阈下学习资源智能推荐模型构建[J].湖南科技大学学报（社会科学版），22（4）：178-184.

[31]张乐乐，顾小清（2022）.多模态数据支持的课堂教学行为分析模型与实践框架[J].开放教育研究，28（6）：101-110.

[32]赵厚福，祝智庭，吴永和（2010）.数字化学习技术标准发展的趋势、框架和建议[J].中国远程教育，（2）：69-75.

[33]郑永和，王一岩（2023）.科技赋能教育高质量发展：价值内涵、表征样态与推进策略[J].中国电化教育，（1）：118-126.

[34]Choi， S.， Lee， S.， & Kim， Y. et al. （2020）. Hi-CMD： Hierarchical Cross-Modality Disentanglement for Visible-Infrared

Person Re-Identification[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.WA： Seattle：10254-10263.

[35]Hercheui， M.， & Ranjith， R. （2020）. Improving Organization Dynamic Capabilities Using Artificial Intelligence[J]. Global Journal of Business Research， 14（1）：87-96.

[36]Huang， S.， Dong， L.， & Wang， W. et al. （2023）. Language Is Not All You Need： Aligning Perception with Language Models[J]. ArXiv：2302.14045.

[37]Karim， S. （2006）. Modularity in Organizational Structure： The Reconfiguration of Internally Developed and Acquired Business Units[J]. Strategic Management Journal， 27：799-823.

[38]Karim， S.， & Mitchell， W. （2004）. Innovating Through Acquisition and Internal Development： A Quarter-Century of Boundary Evolution at Johnson & Johnson[J]. Long Range Planning， 37：525-547.

[39]Kipf， T. N.， & Welling， M. （2016）. Semi-Supervised Classification with Graph Convolutional Networks[J]. ArXiv：1609.02907.

[40]Liu， J.， Zhu， X.， & Liu， F. et al. （2021）. OPT： Omni-Perception Pre-Trainer for Cross-Modal Understanding And Generation[J]. ArXiv：2107.00249.

[41]Luo， H.， Ji， L.， & Shi， B. et al. （2020）. UniVL： A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation[J]. ArXiv：2002.06353.

[42]Mérida， D.， Fabregat， R.， & Baldiris， S. （2010）. Sistemas Heterogéneos Adaptativos Basados en el Contexto[J]. Revista Iberoamericana de Educacióon a Distancia， 13（2）：73-105.

[43]Mikalef， P.， Conboy， K.， & Krogstie， J. （2021）. Artificial Intelligence as an Enabler of B2B Marketing： A Dynamic Capabilities Micro-Foundations Approach[J]. Industrial Marketing Management， 98：80-92.

[44]Rozo， H.， & Real， M. （2019）. Pedagogical Guidelines for the Creation of Adaptive Digital Educational Resources： A Review of the Literature[J]. Journal of Technology and Science Education， 9（3）：308-325.

[45]Sawadogo， D.， Champagnat， R.， & Estraillier， P. （2014）. Adaptive Digital Resource Modelling for Interactive System[C]// Proceedings of the 2014 International Conference on Control， Decision and Information Technologies （CoDIT）. IEEE：663-668.

[46]Shankar， S. K.， Ruiz-Calleja， A.， & Serrano-Iglesias， S. et al. （2019）. A Data Value Chain to Model the Processing of Multimodal Evidence in Authentic Learning Scenarios[C]// Proceedings of CEUR Workshop LASI Spain. Vigo， Spain： CEUR：71-83.

[47]Teece， D. J. （2000）. Strategies for Managing Knowledge Assets： The Role of Firm Structure and Industrial Context[J]. Long Range Planning， 33（1）：35-54.

[48]Teece， D. J. （2007）. Explicating Dynamic Capabilities： The Nature and Micro foundations of （Sustainable） Enterprise Performance[J]. Strategic Management Journal， 28（13）：1319-1350.

[49]Teece， D. J.， Pisano， G.， & Shuen， A. （1997）. Dynamic Capabilities and Strategic Management[J]. Strategic Management Journal， 18（7）：509-533.

[50]Wei， X.， Sun， S.， & Wu， D. et al. （2021）. Personalized Online Learning Resource Recommendation Based on Artificial Intelligence and Educational Psychology[J]. Frontiers in Psychology， 12：767837.

[51]Żelaszczyk， M.， & Mańdziuk， J. （2023）. Cross-Modal Text and Visual Generation： A Systematic Review. Part 1： Image to Text[J]. Information Fusion， 93：302-329.

收稿日期 2023-06-05 責任编辑刘选

Adaptive Digital Educational Resources Based on Cross-Modal Understanding and Reconstruction：

Model Construction and Practical Framework

LUO Jianghua， ZHANG Yuliu

Abstract： Digital educational resources play an important role in the process of promoting high-quality development of education. In the era of artificial intelligence， how to make digital educational resources change from “letting human adapt” to “actively adapting to human” is the key issue to be solved urgently in the construction of digital educational resources. As the application scenarios of artificial intelligence-generated content continue to expand， cross-modal understanding and reconstruction technologies provide feasible technical support for addressing the adaptability of digital educational resources. Specifically， it advocates multi-disciplinary collaboration among humans， educational contexts， computers and educational resources， and uses cross-modal understanding and reconstruction technology to carry out intelligent mining and coupling calculation of multi-modal teaching behaviors and multi-modal digital educational resources in complex educational situations， so as to realize the recommendation of educational resources suitable for man-machine collaborative environment， explore the supply-demand adaptation of digital educational resources services， and realize the self-scheduling of digital educational resources generation chain， so that we can build an adaptive digital educational resources model. At a practical level， a practical framework of adaptive digital educational resources should be constructed， which includes data collection layer， intelligent analysis layer， rule constraint layer and application service layer， to effectively promote the intelligent management and personalized service of digital educational resources on the basis of cross-modal understanding of multi-modal educational resources as well as behaviors of teachers and students.

Keywords： Cross-Modal Reconstruction; Cross-Modal Understanding; Adaptive Digital Educational Resources; Human-Machine Collaboration; Artificial Intelligence-Generated Content

现代远程教育研究

2023年6期

基于跨模态理解与重构的适应性数字教育资源：模型构建与实践框架

杂志排行

现代远程教育研究的其它文章