虚拟讲师在线课程教学新技术探索与实践

2022-05-30谢榕

中国教育信息化·高教职教 2022年9期

摘要：针对当前国内在线课程建设普遍存在的制作成本高、更新推广慢等现实问题，文章将深度学习、自然语言处理等最新人工智能技术与在线课程有机融合，提出虚拟讲师的定义、内涵、技术框架，并开发一款面向在线教学的虚拟讲师软件系统，来模拟教师讲课的教学场景。在此基础上，提出基于该系统的课件制作流程，并运用于《人工智能引论》慕课教学实践。通过探索基于虚拟讲师技术的在线课程创新教学模式，有效推动国内在线课程可持续发展。

关键词：在线课程教学;虚拟讲师;虚拟讲师软件系统;深度学习;自然语言处理

中图分类号：G434;G642 文献标志码：A 文章编号：1673-8454（2022）09-0123-06

一、研究背景及问题解决的思路

（一）传统在线课程现状及面临的问题

互联网技术、共享经济理念正推动着知识共享的发展，随之产生多种在线课程优质教育资源的共享模式，如慕课、SPOC、腾讯课堂等。这些线上课程作为“互联网+教育”的重要产物，因其课程资源丰富与开放性等特点在最近几年获得迅猛发展。以中国大学MOOC-爱课程（http：//www.icourses.cn/home/）为例，它是一个向社会大众免费提供中国知名高校大规模开放在线课程的学习资源分享平台，目前课程数量达1600多门，报名选课超1200多万人次。在线课程建设的重要环节在于将教案讲义、课件内容以视频形式存储到网课平台，提供给学习者学习使用。由于它不受时间与空间的限制，同时可以共享优质教育资源，因此，一直受到人们的普遍关注和欢迎。特别是，受新冠疫情影响，线下教育被暂停的情况下，线上课程作为远程教育的优势开始显露并发挥重要作用。[1-3]

作为一种新型在线教育模式，在线课程不仅能改變教与学的方式，同时也能改变课程开发及课程资源制作的模式。[4]然而，在线教学课件制作、教师视频录播等工作，过程烦琐、费时费力，且后续更新成本偏高[5]、周期较长。在线课程将传统课堂迁移至互联网上，需要高度概括、凝练教学方案，同时，课堂教学还需要根据知识的日新月异对教学内容不断地进行调整。网络课程设计中，如何选取适用于网课的教学内容以及讲解流程，如何以最精准、清晰的方式讲解知识，如何改进教学内容，以及如何保证网课质量与学生学习效果等，都与传统课堂教学有着很大差异，烦琐的过程对大部分教师来说十分困难。相比传统面授式课堂教学，在线教学需要教师投入传统课程教学的2～4倍甚至更多的时间和精力。为了制作高质量的在线课程，需要课程设计专家、讲课教师、摄影人员，以及后期编辑人员所在的团队进行通力合作，更何况教学内容的更新会造成制作课程人力成本偏高。因此，在线课程在实际推广过程中往往存在诸多限制与问题，比如教学资源单一，特别是网课日常维护管理和后续更新不及时等。当前，线上教学更多的还是一种线下教育的补充形式。

（二）国内外研究现状

1.教育机器人

教育机器人（Educational Robotics）[6]的提出最早源自20世纪60年代美国麻省理工学院创办的人工智能实验室。其后，意大利技术学院、美国卡内基梅隆大学等，对机器人的视觉、听觉、对话能力提出改进措施，并研发教育机器人。21世纪初，一些讲课机器人开始在课堂上试用。例如，韩国智能机器人产业协会与韩国信息通讯部率先研发、制造用于英文教学的讲课机器人[7]，并投放到该国三个城市进行试验教学。日本东京理科大学开发Saya课堂教学机器人[8]，构造出一个具有女性外观、由可拉伸材质做成且能呈现多种表情的人体模型，在教室里被赋予代课教师的职责。近年来，国内一些大学也积极地研究讲课机器人技术。例如，九江学院智能机器人工作室研发的“小美”机器人[9]，不仅能按照讲义PPT给学生上课，还能与学生进行简单交流。这些实体教育机器人虽然一定程度上能够在课堂教学中发挥作用，但由于成本偏高，现实中大面积在高校推广是非常困难的。

2.语音驱动人脸动画技术

随着人工智能技术的不断发展，一些研究学者采用深度学习技术开展虚拟讲课机器人的研究。语音技术及语音驱动面部视频合成技术是虚拟讲课机器人的核心组件，其中面部区域唇形部分的运动与语音之间相互匹配尤为关键，视听效果良好的面部视频能够更有效地吸引注意力并辅助人们更好地理解音频内容。有学者提出，利用任意文本生成音频和照片级的真实感唇同步视频的架构——ObamaNet，实现模仿美国前总统奥巴马讲话视频，并保证精确唇音同步。[10]但该模型对人物形象不具备泛化能力。有学者利用生成对抗网络模型开发出Speech-Driven-Animation模型，对任意给定说话者的一段语音和图像直接生成唇音同步的人脸动画。[11]该方法关注于脸部区域而忽略图像背景区域的生成，从而影响生成视频的真实感。同时，虽然该方法可以输入特定说话者的形象，但实际泛化效果并不好。有学者基于生成对抗网络提出LipGAN及其改进模型Wav2Lip。[12]它可接受一段目标语音和一段任务视频作为输入，生成与目标语音相匹配的视频结果，为目前一种较好的语音驱动人脸动画技术。

3.虚拟人脸产品

美国计算机视觉公司的Loom.ai产品[13]可以实现从一张静态图像中捕捉人类面部特征的功能，创建一个逼真的3D虚拟化身。国内在该方面的研究起步相对较晚，但近年来也相继研发出一些虚拟人脸产品。北京沃富瑞德文化传播公司研制有表情的仿生机器人[14]，由有表情的仿生机器人和卡通形象机器人组成，以自由立体曲面表面显示技术VOFRID（Vertical Optical Fiber Radiant Immersive Display）为核心，改变机器人千篇一律的机械形态，赋予机器人拟人化的面部表情。科大讯飞公司提出先进的AI虚拟主播解决方案（https：//www.xfyun.cn/solutions/virtual-host-solution），利用科大讯飞的语音合成、图像处理，以及机器翻译等多项人工智能技术，实现从文本到视频的自动输出，支持主播多语言视频生成，并可以实现定制真人形象以及卡通3D形象。但虚拟主播形象基本固定，制作特定人物形象所需成本偏高，推广不易。国内外公司研发的这些产品技术先进，但核心技术未被公开。

（三）解决思路与方法

如何推进在线课程教学模式的改革、运用新技术实现在线课程智能化建设并收获良好的教学效果具有十分重要的意义。特别是，未来元宇宙将促进在线教学从单一教育教学向全方位教育教学实现根本性转变。[15]国内外研究者曾研发出一些教育机器人产品来减轻教师讲课负担，然而，这些实物机器人需要大量硬件设备、巨额资金的支持，后期维护成本高，推广不易。当前，计算机图形/图像技术不断发展，我们完全可以研发一种在线虚拟讲课机器人软件系统，使其能智能化地模拟教师讲课的场景与过程，以便节约成本;同时，发挥软件系统的优势，设计出善于讲课、表情生动形象的虚拟讲课机器人来代替教师讲课，节省教师的时间和精力。然而，根据上述对国内外研究现状的调研情况，在线虚拟讲课机器人还是一个全新概念，目前，国内外尚没有在线虚拟讲课机器人实际教学先例。本文旨在提出并研发一种虚拟讲师技术，以便基于虚拟讲师开展在线教学实践。基于深度神经网络学习算法与自然语言处理理论，研究一种虚拟人脸的生成方法，利用输入的说话文本和真人图像或视频信息，生成流畅自然、唇音同步的个性化人脸动画，实现一款能模拟教师讲课的虚拟讲师化身。同时，在开发该虚拟讲师的基础上，以该讲课机器人模型为基础，以《人工智能引论》课程教学为实践对象，研究虚拟讲师开展慕课教学的实践方法，使虚拟讲师讲课能够取得良好的教学效果。

二、虚拟讲师的定义与内涵

早期有学者曾对虚拟教师的研究进行综述，但迄今为止尚无虚拟讲师的权威定义。[16]本文提出一个广义的虚拟讲师（Virtual Lecturer，简称VL）的概念，将其定义为利用人工智能、自然语言处理、计算机图形/图像等技术设计和渲染的，用来代替真实教师的一种虚拟化身，能够智能化地模拟一般教師讲课的教学场景与过程。其实质为一种讲课机器人软件，机器人能模拟教师运用课程课件给学习者讲解教学内容，并具有形象逼真、表情丰富、动作生动的特点。

实际应用中，可以为虚拟讲师设定化身、语速、音色，甚至表情和动作等基本元素，使其更具真实性、生动性、亲和力。新一代虚拟讲师还应具有交互能力，能够在一个三维虚拟教学环境中与学习者实时开展互动，解答学习者提出的各种课程学习方面的问题。作为智能计算技术的一种应用，随着人工智能技术的不断发展，虚拟讲师为构建集视觉、听觉为一体的虚拟教学环境提供基础。

三、虚拟讲师软件系统的设计与开发

为了实现虚拟讲师，需要设计并开发一个虚拟讲师软件系统（Virtual Lecturer Software System，简称VLSS）。本文将VLSS定义为一种虚拟讲师生成软件，可利用所提供的说话文本、真人图像或视频信息，生成能模仿普通人说话的语音音频、口型动作，实现唇音同步的个性化人脸动画。

（一）VLSS技术框架

虽然，目前已有一些研究学者提出虚拟讲师的制作方法，但是，一般虚拟人物过于简单、单调，只有嘴巴张开、闭合的简单动作，且不能泛化人物，距离实际应用尚有一定差距。本文提出如图1所示的虚拟讲师技术框架，根据用户输入的讲课内容文本以及教师本人的图像或视频，运用深度学习模型，可生成教师讲授该段输入文本所对应的讲课教学视频。该框架由文本转音频、唇域提取、唇音同步合成，以及唇域替换四个主要部分组成。

1.文本转音频

它接收输入的讲课文本，输出产生的讲课音频文件。通过调用百度开放的语音合成API，将输入文本.txt文件转换成该段文字对应的音频.wav文件。目前有4种声音可供选择，还可以使用语音克隆功能，使声音更能满足实际教学需求。同时，经过测试与调整，可设置合适的音频语速、语调、发音模式，使语音较为自然，且语调有一定变化，模拟人的自然说话过程。如果用户事先已录制好教学音频，则可以通过添加音频的方式直接选择录制音频文件。

2.唇域提取

它利用开源的深度学习模型Wav2Lip[12]提供的预训练好的人脸检测模型提取嘴唇区域。利用它的人脸检测S3FD（Single Shot Scale-invariant Face Detector）算法，在大尺寸图像或视频中准确地检测人脸区域，也可对模糊人脸或小尺寸人脸进行人脸检测。提取人脸后，调用该算法的flip_detect（）函数从人脸区域提取嘴唇所在区域。

3.唇音同步合成

它对输入的音频以及所产生的唇形进行唇音同步神经网络训练。该部分由判别器和生成器组成一对生成对抗网络。其中，判别器用于判别每次训练生成的视频帧与原视频帧之间存在的差距，为神经网络提供学习方向。而生成器则用于生成视频帧，并对判别器提供的视频帧进行改进。经过反复训练后生成较为准确的唇形视频帧。

4.唇域替换

它对原输入的教师图像或视频的唇形区域进行裁剪，替换并生成新的唇形视频帧，最后输出虚拟讲师讲课视频。

（二）VLSS开发

本文所开发的VLSS系统由Python语言编写，采用MVC架构，即模型层（Model）、视图层（View）、控制层（Controller）。其中，模型层接收控制层转发的用户音频数据和视频数据，使用开源深度学习模型Wav2Lip对这些数据进行处理;视图层为面向用户的操作界面，使用Python GUI库中的pyqt5作为构建图形界面的工具，它可运行于UNIX、Windows、Mac OS等操作系统;控制层提供控制软件运行逻辑，实现控制视图跳转、将数据转发到模型层。系统基本功能包括文本转音频、唇域提取、唇音同步合成、唇域替换这些基本功能模块。“输入”包括讲课音频文件、讲课文本、教师图片或视频等多种输入形式。“输出”为虚拟讲师讲课视频输出的窗口。“生成视频”为用户生成虚拟讲师讲课视频动画的操作，选择视频、播放原视频、播放视频，是为了方便用户而设置的选择或观看视频的操作功能。

四、虚拟讲师的慕课教学实践

（一）基于VLSS的课件制作

对目前教学模式与讲课方式进行调研分析，可以看到，当前教师使用课件PPT的授课模式在教学过程中占主流地位。[17]实现虚拟讲师教学时，和一般传统教学一样，教师也需要根据教学大纲编写教案及授课内容，并制作教学课件PPT。新型基于虚拟讲师的教学模式需要对课件制作方式进行变革。如图2所示，将课件PPT分为三种类型：①无人物出镜（图2a），主要为教学内容展示;②有人物跟随（图2b），由虚拟教师化身和教学内容组成;③有人物出镜（图2c），由虚拟教师化身出镜讲解教学内容。通过VLSS，在系统的“添加文本中”输入教师授课时的讲课文本，该内容是虚拟讲师发音材料，直接调用系统的文本转音频功能模块可产生音频文件，如图2中的■符号，将该音频文件插入到课件相应位置。在系统的添加视频或图片中输入教师本人的图像或视频（自拍照或自己录制的视频），调用系统的生成视频模块可输出虚拟讲师讲授课程内容的视频动画，将该视频文件插入到课件中。通过这三种课件类型能够快速制作课件PPT的内容，也可随时方便地对教学内容进行更新。

基于VLSS的课件制作流程如图3所示。①收集、整合各种有关教学内容的素材并形成课件脚本;②根据课件PPT三种不同类型，运行VLSS，分别调用“文本转音频”模块生成讲课文本音频文件，以及调用“生成视频”模块形成讲课视频动画，在课件中添加、编辑讲课音频，以及虚拟讲师形象，生成各个幻灯片帧;③将每帧幻灯片进行合成，输出视频形式的课件PPT。

（二）《人工智能引论》慕课的虚拟讲师教学实践

以VLSS为平台，以《人工智能引论》课程慕课教学为实践对象，将该课程在武汉大学珞珈在线（http：//www.mooc.whu.edu.cn/portal）上进行尝试。在该慕课幻灯片中，输入讲课脚本“在这场围棋人机大战中，AlphaGo使用深度神经网络配合强化学习的训练方法，并利用启发式的蒙特卡洛搜索树算法和自我博弈，在不依赖人类棋谱先验知识的情况下，从零开始自主训练，展现出极强的学习能力。那么，机器学习到底有着怎样的魔力，能够打败我们人类的围棋冠军呢？今天我们就一起来学习机器学习方面的内容”。虚拟讲师能按照该脚本进行长文本解说。为了对比实际效果，在课件PPT中添加真人讲课视频和虚拟讲师讲课视频的对比画面。由实践可知该虚拟讲师完全能有效地承担课件PPT的讲解任务。

五、结语

本文设计并开发一款智能化的面向在线课程教学的虚拟讲师机器人软件产品，并将其运用于《人工智能引论》慕课教学实践，使机器人能模拟教师讲课教学场景和过程。从实践效果来看：①教师层面，充分发挥人工智能、计算机图形/图像等先进技术，并与在线教学紧密结合，开发在线虚拟讲师，将极大地减少网课视频制作成本和内容更新成本，减轻教师制作、更新网课的负担，使教师能够全身心地投入到讲课内容的不断改进上，着实提高课件制作效率。②学生层面，虚拟讲师由语音驱动的3D动画生成，引入虚拟讲师化身使课堂教学更加生动形象，能有效地提高学生在网课教学中学习知识的兴趣。③在线教育层面，在开发VLSS基础上，基于《人工智能引论》慕课教学开展试点，探索一个切实可行的虚拟讲师在线慕课实践教学新模式，通过人工智能课程的实践可推广到其它课程，对全国在线慕课教学改革起到示范作用。

在本文研究成果基础上，进一步工作将包括：①改进、完善VLSS的功能，丰富虚拟讲师形象，使系统可以优化虚拟讲师的声音、手势动作、面部表情等内容，编辑出具有逼真效果的虚拟讲师课件;②建设课程领域的知识图谱并开发基于知识图谱的智能知识问答功能，与VLSS紧密结合，实现具有与学生实时互动、对话的能力;③开发虚拟讲师APP，集会讲课、能交互、擅答疑为一体的虚拟讲师这种学习陪伴机器人，能智能化地模拟教师讲课、辅导全过程，使学生可以随时有效地利用碎片时间学习课程。

参考文献：

[1]潘玉立，姚志英.基于“慕课+腾讯课堂”的疫期在线教学实践与反思[J].滁州学院学报，2020，22（3）：100-103，109.

[2]喻梅，王建榮，于健，等.基于MOOC的线上线下混合教学实践[J].计算机教育，2021， 315（3）：1-5.

[3]吕美香，董永强，洪小丽，等.疫情时期高校在线教学管理实践与思考[J].计算机教育， 2021，315（3）：20-25，30.

[4]郑小军.关注XR技术应用、教学能力慕课敏捷开发与信息化教学能力提升，加快职业教育信息化2.0落地[J].广西职业技术学院学报，2021，14（3）：46-47.

[5]李晓，邓丽娜，胡艳，等.高校教育教学改革研究[J].教育与教学研究，2020，34（12）：91-119.

[6]PAPERT S. Programming and problem-solving： the logo programming language[R]. In W. Feurzeig （Ed.）， Computer Systems for Teaching Complex Concepts： Final Report 1742， 1969：94-106.

[7]YUN S， SHIN J， KIM D， et al. Engkey： tele-education robot[C]. International Conference on Social Robotics，Springer-Verlag， Berlin， Heidelberg， November 24-25， 2011：142-152.

[8]HASHIMOTO T， KATO N， KOBAYASHI H. Development of educational system with the Android robot SAYA and evaluation[J]. International Journal of Advanced Robotic Systems， 2011，8（3）：51-61.

[9]江西一高校现“美女机器人”讲课[J].求知导刊，2015（11）：5.

[10]KUMAR R， SOTELO J， KUMAR K， et al. Obamanet： photo-realistic lip-sync from text[C]. 31st Conference on Neural Information Processing Systems （NIPS 2017）， Long Beach， CA， USA， December 4-9， 2017：1-4.

[11]VOUGIOUKAS K， PETRIDIS S， PANTIC M. Realistic speech-driven facial animation with GANs[J]. International Journal of Computer Vision， 2020，128：1398-1413.

[12]PRAJWAL K R， MUKHOPADHYAY R， NAMBOODIRI V P， et al. A lip sync expert is all you need for speech to lip generation in the wild[C]. Proceedings of the 28th ACM International Conference on Multimedia. Association for Computing Machinery， New York， United States， October 12-16， 2020：484-492.

[13]付藍.Loom.ai 3D虚拟形象平台亮相2019年Qualcomm骁龙技术峰会[J].计算机与网络，2019，45（24）：15.

[14]北京沃富瑞德文化传播有限公司.具有面部表情并能自动应答的仿真人：中国， CN106426222A[P].2017.

[15]张忠华.元宇宙何以赋能未来教育：变革与挑战[J].中国教育信息化，2022，28（4）：35-43.

[16]赵慧勤，孙波，张春悦.虚拟教师研究综述[J].微型机与应用，2010，29（5）：1-5，8.

[17]雷武超，吴振强.结构化课件自动生成系统设计方案[J].中国教育技术装备，2016（12）：30-34.

作者简介：

谢榕，教授，博士，主要研究方向为人工智能，邮箱：xierong@whu.edu.cn。

Exploration and Practice of New Technologies of Online Course Teaching

by Virtual Lecturer

Rong XIE

（School of Computer Science， Wuhan University， Wuhan Hubei 430072）

Abstract： To solve the issues of high production cost， slow update and promotion of online courses， this paper integrates the latest artificial intelligence technologies such as deep learning and natural language processing with online courses， and consequently proposes the definition， connotation and technical framework of virtual lecturer. It develops a virtual lecturer software system for online teaching to simulate the teaching scene. On this basis， it puts forward the courseware making process based on this system and applies it to the MOOC teaching practice of “Introduction to Artificial Intelligence”. By exploring the innovative teaching mode of online course based on the technology of virtual lecturer， it can effectively promote the sustainable development of online courses in China.

Keywords： Online course teaching; Virtual lecturer; Virtual Lecturer Software System（VLSS）; Deep learning; Natural language processing

编辑：王天鹏校对：王晓明

猜你喜欢

虚拟讲师在线课程教学新技术探索与实践

猜你喜欢

杂志排行

中国教育信息化·高教职教的其它文章