APP下载

科研项目向专业教学内容的转化
——以“计算机视觉中的注意力机制”单元为例

2023-11-21谢勤岚

科技风 2023年32期
关键词:注意力计算机机制

李 智 谢勤岚*

1.中南民族大学生物医学工程学院 湖北武汉 430074;2.医学信息分析及肿瘤诊疗湖北省重点实验室 湖北武汉 430074;3.认知科学国家民委重点实验室 湖北武汉 430074

1 概述

科研反哺教学是高校教学过程的重要特点。[1-7]科研与教学存在内在统一性,两者并举可以实现良性互动。在高校教学内容中展现最新科学技术的成果和研究动态,可以促进学生深入理解学科基础知识,了解学科前沿动向,为进一步的科研实践做好准备。

人工智能技术正在深刻改变临床医疗和生物医学研究。[8-12]近来,人工智能前沿技术已经开始应用于各种医学成像设备中,承担起一些以往由医学专家完成的任务。随着诸如数字化数据采集、机器学习、基础算力设施等各方面条件的发展,人工智能将在未来十年更加广泛地应用于分析诊断等临床实践。

中南民族大学生物医学工程学院面向国家战略发展需求,大力推进新工科建设,坚持立德树人培养理念,培养德才兼备、通专融合的高素质医学人工智能人才,于2019年开始在生物医学工程专业建设智能医学工程卓越工程师班(简称“卓越班”)。“卓越班”培养具备坚实的生物医学、工程技术、信息科学、人工智能有关的基础理论知识的生物医学工程专业高素质人才。

“医学人工智能前沿”是面向“卓越班”的专业选修课程。中南民族大学生物医学工程专业是国家级一流本科专业。生物医学工程学院有医学信息分析与肿瘤诊疗湖北省重点实验室、认知科学国家民委重点实验室、生物医学工程湖北省虚拟仿真实验教学中心等科研和教学平台。深入挖掘学院科研资源、反哺学院本科生教学,具有非常现实的重要意义。本文以“计算机视觉中的注意力机制”教学单元为例,进行科研反哺理念下的课程教学设计。

2 教学分析

《医学人工智能前沿》是面向“卓越班”学生在第6学期开设的专业选修课程。医学人工智能是一门新兴的医、理、工高度交叉的学科,是医学与一系列前沿科技的密切融合。医学人工智能的崛起,将改变医疗手段甚至医疗模式,成为推动医疗创新与发展的强大动力。身处医学人工智能技术的峰浪尖口,“卓越班”的培养方案面向时代的需求,开设课程实践相关前沿技术的教学工作。本文选取的教学单元是“计算机视觉中的注意力机制”,教学单元设计时长为2个学时。

教学目标包括以下四个方面:

(1)知识目标:了解视觉注意力机制原理,熟悉常见的视觉注意力方法;

(2)能力目标:理解视觉注意力提升网络性能的原因,掌握设计视觉注意力方案的思路;

(3)素质目标:提高学生独立思考、独立学习、独立分析问题及解决问题的能力;

(4)思政目标:寓价值观引导于知识传授和能力培养之中,将价值塑造、知识传授和能力培养三者融为一体,落实立德树人根本任务,帮助学生塑造正确的世界观、人生观、价值观。

本单元教学的重点是:分析视觉注意力机制的原理。教学的难点是:在分析与讨论的基础上,引导学生提出视觉注意力机制的设计方案。

学情分析:“卓越班”实行动态管理。学生入班时经过选拔测试、全过程末位淘汰。学生具有如下的一些特点:在学习兴趣上,有较强的好奇心;经过前五个学期的学习,有一定编程基础;学习习惯较为认真,在明确要求下能够进行一定程度的探索;学业压力较大,课程安排较多,学生在学习方法上倾向于“照葫芦画瓢”,独立思考时间不够多。

教学理念:科研与教学具有内在统一性。科研和教学都是促进社会进步的重要推力,科研创造知识、教学传播知识。科研与教学相互促进,在教学中穿插最新科技成果,一方面科研激发学生学习兴趣,提高教学质量;另一方面教学工作科研激发科研的灵感,成为科研创新的重要源泉。

教学策略:在教学工作中结合科研专长,用最新的研究成果指引学生主动寻求真理、积极探索世界。以前沿科研课题指导教学的开展,引导学生发现问题、提出设想、实验验证、解决问题。

教学手段:(1)运用互联网教学平台,在超星学习通上使用学习资源库拓展学习、使用手机端实现签到、答题投票、进行小测试等课堂实时互动。(2)运用多媒体信息技术,将文字、图片、音频、视频有机结合,使学生在课堂教学过程中可以从视觉和听觉多种感官接收知识。(3)运用分组讨论和翻转课堂,引导学生对知识进行探索、提炼和表达。

教学方法:(1)积极培养学生对科研的兴趣,用前沿科研动态引导学生提高课堂注意力。(2)围绕科研实例构建教学内容,选择与教学内容相匹配的科研实例,让学生参与科研文献中知识点的归纳与提炼。(3)引导学生参与科研实践训练,开放科研平台,指导学生以教学内容为起点,参与大学生创新创业训练和毕业设计。

3 教学实施

3.1 课前准备

3.1.1 阅读参考文献

教师提供三篇文献供学生课前学习。文章包括Squeeze-and-excitationnetworks,Spatialtransformernetworks,TAM:Temporaladaptivemoduleforvideorecognition。

3.1.2 完成思考题

教师设计课前学习思考题,引导学生阅读文献。问题设置有以下三点考虑:一是突出针对性,紧紧围绕“计算机视觉中的注意力机制”设计问题;二是提高自信心,基于所提供的文献学生很容易找到最基本的回答;三是有扩展性,问题有很大深入思考的空间,学生可以探索更深刻、更全面、更有洞见的回答。问题1:什么是“计算机视觉中的注意力机制”?问题2:你认为“计算机视觉中的注意力机制”可以分为哪几类?

3.2 课堂教学

课堂导入:人类的视觉系统能够在复杂场景中找到显著区域。受此启发,计算机视觉中引入了注意力机制,希望能够模拟人类视觉系统。

3.2.1 教学子模块1:计算机视觉注意力机制的基本概念

将注意力转移到图像中最重要的区域并忽略无关部分的方法称为注意力机制;人类视觉系统使用注意力机制辅助实现高效分析和理解复杂视觉场景。受这种生理机制启发,计算机视觉系统中也引入了注意力来提高性能。我们可以将计算机视觉系统中的注意力机制看作一个动态的选择过程,也就是根据输入的重要性适应性地对特征进行加权。注意力机制已经广泛应用在各种视觉任务中,并且实现了性能的提升,例如,图像分类、目标检测、语义分割、人脸识别、行人重识别、动作识别、小样本学习、医疗图像处理、图像生成、姿态估计、超分辨率、3D视觉以及多模态任务。

3.2.2 教学子模块2:计算机视觉注意力机制的发展历程

近年来,注意力机制在计算机视觉中的作用越来越重要。深度学习时代计算机视觉中基于注意力的模型的发展历程可以粗略地分为四个阶段。第一阶段始于循环注意力模型(Recurrent Attention Model,简称RAM),RAM将深度神经网络和注意力机制结合。在这一阶段,循环神经网络是注意力机制的必要工具。第二阶段以空间变换网络(Spatial Transformer Networks,简称STN)为开端,STN引入一个子网络来预测一个仿射变换用以在输入中选择重要区域。明确地预测有差异的输入特征是第二阶段的重要特点。第三阶段始于提取激发网络(Squeeze-and-Excitation Net,简称SENet),SENet是一个通道注意力网络,隐式地适应性预测潜在关键特征。最后一个阶段是自注意力时代。

3.2.3 教学子模块3:计算机视觉注意力机制的数学表达式

基于人类视觉系统的认知过程,科学家总结出注意力机制的一个通用形式。在日常生活中我们看到一个场景的时候,我们会关注到最重要的区域,再快速处理这些区域,这个过程可以公式化地表达为:

Attention=f(g(x),x)

这里,g(x)表示产生注意力,注意力对应于参与有辨别力的区域的过程。f(g(x),x)意思是基于注意力g(x)处理输入x,注意力g(x)就是处理关键区域并获取信息。[13]

3.2.4 教学子模块4:计算机视觉注意力机制的分类

大家都可以根据自己的理解对计算机视觉注意力机制进行分类。我们这节课采取的分类思路是按照视觉注意力机制作用的数据维度进行分类。视觉数据通常有这么几个维度:通道、空间、时间。大家是否已经发现,我们课前阅读的三篇文献所接受的注意力机制,正好就是分别作用于这三个数据维度。接下来,我们将介绍各种典型注意力机制,并说明各种注意力机制如何对应到前述数学表达式。

3.2.5 教学子模块5:通道注意力

通道注意力适应性地校正每个通道的权重,SENet开创了通道注意力。SENet的核心是提取激发(SE)模块,SE模块用来收集全局信息,捕获通道方面的关系并提升表达能力。

SE模块分为两个部分:一个提取模块和一个激发模块。提取模块使用全局平均池化收集全局空间信息;激发模块使用全连接层和非线性层(ReLU和sigmoid)获取通道方面的关系并输出一个注意力向量。然后,输入特征的每个通道乘以注意力向量中对应元素来给各个通道加上权重。总体上,输入为X、输出为Y的提取激发模块Fse(有个参数θ)可以公式化地表示为:计算注意力打分s=Fse(X,θ)=σ(W2·δ(W1·GAP(X)))和使用注意力分数进行加权Y=s·X。

SE模块的作用是突出重要通道,同时抑制噪声。SE模块所需的计算资源不多,可以在每个残差单元后都加上SE模块。不过,SE模块也有不足,在提取模块、全局平均池化过于简单,不太能够获取复杂一些的全局信息。在激发模块,全连接层增加了模型的复杂性。[14]

3.2.6 教学子模块6:空间注意力

空间注意力可以看作一个可学习的空间区域选择机制。STN是空间注意力方法的代表性工作。卷积神经网络具有平移不变性,这个特点很适合用来处理图像数据。不过,卷积神经网络缺乏其他变换的不变性,例如,旋转变换、尺度变换、扭曲变换。为了获得在这些变化下的不变性,同时使得卷积神经网络聚焦于重要区域。科学家提出了空间变换网络STN,STN使用一个显式的过程来学习不变性,包括平移、缩放、旋转以及其他更一般的扭曲,来使网络将注意力放到最相关的区域。STN是第一种显式预测重要区域,并提供具有变换不变性的深度神经网络的注意力机制。

在数字图像中,二维仿射变换可以表示为:

3.2.7 教学子模块7:时间注意力

时间注意力可以看作一个决定什么时候注意的动态的时间选择机制,常常用在视频处理中。时域适应性模块(TAM)是时间注意力的代表性方法。TAM采用一个可学习的卷积核高效灵活地获取复杂时域关系。

TAM有两个分支:局部分支和全局分支。给定输入特征图X∈RC×T×H×W,首先在特征图上使用全局空间平局池化,从而保证TAM有一个较低的计算代价。然后,局部分支在时域使用几个有ReLU非线性的一维卷积,以产生对局部敏感的重要性图,从而增强逐帧特征。局部分支可以写作:

s=σ(Conv1D(δ(Conv1D(GAP(X)))))

X1=s·X

与局部分支不同,全局分支具有位置不变性,聚焦于基于每个通道的全局时域信息产生一个逐通道的适应性的核。对于第c个通道,卷积核可以写作:

Θc=Softmax(FC2(δ(FC1(GAP(X)c))))

Y=Θ⊗X1

在局部分支和全局分支的作用下,TAM可以获取视频中复杂的时域结构,并且增强每帧的特征,而这些只需要比较低的计算代价。由于其灵活轻量的设计,TAM可以添加到任意已有的二维卷积神经网络。[16]

3.2.8 教学子模块8:自注意力机制

近来,自注意力显示出在计算机视觉领域成为主要工具的潜质。对于自注意力,g(x)和f(g(x),x)可以写作以下形式:Q,K,V都是x的线性变换,所以

Q,K,V=Linear(x)

计算注意力分数:g(x)=Softmax(Q·K)

使用注意力为特征加权:f(g(x),x)=g(x)·V

自注意力可以用于各个数据维度,其中一个广泛的应用是作为一种空间注意力机制来获取全局信息。由于卷积操作的局部性,卷积神经网络的感受野天然窄,这就限制了CNN全局地理解场景的能力。为了提升感受野,科学家将自注意力引入计算机视觉领域中。

以一个二维图片为例,给定一个特征图F∈RC×H×W,自注意力首先用线性投射计算查询、键、值,即Q,K,V∈RC′×N,其中N=H×W。这个自注意力可以公式化表达为:

注意力分数:A=(a)i,j=Softmax(Q·KT)

使用注意力为特征加权:Y=A·V

其中A∈RN×N是注意力矩阵,(a)i,j是第i个元素和第j个元素之间的关系。自注意力是一个建模全局信息的强大工具,在很多视觉任务中都很有用。不过,自注意力机制的二次方的复杂度限制了它的适用性,也就是输入向量尺寸不能过大。

课堂结语:在深度学习时代,注意力机制成为计算机视觉领域不可或缺的技巧。这节课我们介绍了计算机视觉领域深度神经网络中的注意力机制的代表性方法。希望能够帮助大家理解注意力机制,并在将来进行科研训练时应用到深度学习之中。

3.3 课后拓展

充分利用科研平台,引导学生参与科研。学生在科研训练中进行创新实践探索,凝练创新成果。根据科研项目的最新进展,为学生提供以下几个探索方向:

3.3.1 通用注意力模块方向

目前,对于每一个不同的任务,需要单独设计特别的注意力机制,这需要大量努力来探索筛选和改进注意力方法。例如,通道注意力非常适合图片分类,而空间注意力很适用于密集预测任务诸如语义分割和目标检测。通道注意力聚焦于注意什么,空间注意力考虑注意哪里。我们鼓励学生探索是否存在具有所有种类注意力机制优势的通用注意力模块。例如,有一种可能可行的方向时:采用一个软选择机制(分支注意力)针对特定任务从通道注意力、空间注意力、时间注意力选择合适的注意力机制。

3.3.2 描述和可解释性方向

注意力机制受人类视觉系统启发产生,这种产生方式使得注意力机制有可能有助于建立可解释计算机视觉系统。一般来说,我们用注意力图来理解基于注意力的模型,而这只能给我们直觉感受,不能给出精准解释。在诸如医疗诊断和自动驾驶这样一些安全性要求很高的应用领域,通常会对优化机制的可解释性有更严格的要求,需要更好的描述方法是如何工作的,以及什么时候系统会出现漏洞。开发可描述、可解释的注意力模型,使得注意力机制能够更广泛应用。

3.3.3 基于注意力的预训练模型方向

近来,一些模型证明了基于注意力的模型非常适用于视觉任务。基于注意力的模型兼容各种不同的输入,因而能够处理未见过的目标、非常适用于转换预训练权重到各种任务。预训练和注意力模型的结合需要进一步探索:训练方法、模型结构、预训练任务以及数据规模都值得研究。

3.4 课程评价

教师对教学环节中学生的完成进行考核、得到学生学习情况的反馈,从而优化学习过程、帮助学生更好地掌握知识。(1)课前学习评价:通过课前思考题的回答了解学生阅读参考文献以及对相关内容理解的情况。(2)课堂学习评价:利用学习通设置实时课堂提问,由统计结果把握学生对知识点掌握情况。(3)课后学习评价:根据学生的科研训练实践报告对学生的课后拓展学习效果进行评估。

4 教学效果

在“计算机视觉中的注意力机制”单元的教学中,将科研内容融入教学,激发学生好奇心、增加学习过程的挑战性和参与感,充分调动学生学习的内在动机。将科研成果、科研思维有机地融入教学工作,发挥科研对教学的促进作用。与时俱进,将科研中学科前沿知识和研究进展传授给学生。增加教学深度,拓展教学广度,促进教学创新,提升教学质量。

结语

中南民族大学生物医学工程学院“卓越班”承担着培养能从事医学人工智能、医学大数据、智能医学工程相关领域科技工作的创新人才的使命。本文以“计算机视觉中的注意力机制”单元为例,探索在“医学人工智能前沿”课程教学中依托学院科研平台开展科研反哺教学实践。通过将研究成果融入教学内容,能够增加教学知识深度与广度,提高学生学习兴趣,加深学生对知识的理解,培养学生解决实际问题的工程能力。未来将继续加强教学与科研的结合,提升教学质量,培养高素质医学人工智能人才,为全面建设社会主义现代化国家做出新的更大贡献。

猜你喜欢

注意力计算机机制
让注意力“飞”回来
计算机操作系统
基于计算机自然语言处理的机器翻译技术应用与简介
自制力是一种很好的筛选机制
信息系统审计中计算机审计的应用
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
破除旧机制要分步推进
Fresnel衍射的计算机模拟演示
注重机制的相互配合