APP下载

多模态信息处理前沿综述: 应用、融合和预训练

2022-06-21吴友政李浩然何晓冬

中文信息学报 2022年5期
关键词:模态注意力图像

吴友政, 李浩然, 姚 霆, 何晓冬

(京东人工智能研究院,北京 100101)

0 引言

人工智能研究经过70多年的探索,在视觉、语音与声学、语言理解与生成等单模态(1)模态是指信息的来源或者信息表示形式。文本、图像、视频、声音和种类繁多的传感器信号都可以称为一种模态。人工智能领域已取得了巨大的突破。特别是视觉领域的目标检测与人脸识别技术、语音领域的语音识别与语音合成技术、自然语言处理领域的机器翻译与人机对话技术在限定场景下已经实现了规模化的应用。然而,人类对周围环境的感知、对信息的获取和对知识的学习与表达都是多模态(Multimodal)的。近些年,如何让计算机拥有更接近人类的理解和处理多模态信息的能力,进而实现高鲁棒性的推理决策成为热点问题,受到人工智能研究者的广泛关注。另一方面,随着图文社交(Facebook、Twitter、微信、微博等)、短视频(YouTube、抖音、快手)、音频(Clubhouse等)、视频会议(Zoom、腾讯会议等)、直播(抖音、京东、淘宝等)和数字人(2D、3D、卡通、写实、超写实等)等应用的涌现,对多模态信息处理技术在用户理解、内容理解和场景理解上提出了更高的要求,同时也给多模态技术提供了海量的数据和丰富的应用场景。

多模态信息处理技术打破计算机视觉、语音与声学、自然语言处理等学科间的壁垒,是典型的多学科交叉技术。多模态技术从20世纪70年代开始发展,Morency等人[1]将多模态技术的发展划分为四个阶段,即1970-1980年的行为时代(Behavioral Era)、1980-2000年的计算时代(Computational Era)、2000-2010年的交互时代(Interaction Era)和2010年起的深度学习时代(Deep Learning Era)。多模态核心技术又分为: 多模态表示(Representation),多模态融合(Fusion)、多模态转换(Translation)、多模态对齐(Alignment)和模态协同学习(Co-learning)类。

近些年,研究者从不同的视角对多模态信息处理技术做了很好的总结回顾。Zhang等人[2]围绕图像描述、视觉-语言生成、视觉问答和视觉推理四个应用,从计算机视觉的角度总结了多模态表示学习和多模态融合的最新进展。Summaira等人[3]的综述覆盖了更多的多模态应用,并根据应用组织了每一个多模态应用的技术进展和局限性。

本文从自然语言处理的视角出发,介绍多模态信息处理技术的最新进展,组织结构如下: 第1节介绍NLP领域关注度较高的多模态应用和相关的数据集。多模态融合是多模态信息处理的核心问题。第2节从单模态信息的表示方法、多模态信息的融合阶段、融合模型的网络结构、未对齐模态和模态缺失情况下的多模态融合等角度介绍主流的多模态融合方法。第3节介绍多模态预训练技术,并从模型的网络结构、模型的输入、预训练目标、预训练语料和下游任务等维度对比最新提出的多模态预训练模型。第4节介绍多模态技术在工业界的应用。最后一节是总结和对未来工作的展望。

1 多模态应用

我们分析了最近两年在自然语言处理领域国际学术会议上(ACL、EMNLP、NAACL)发表的多模态信息处理的论文,并从应用的角度对论文进行了分类。关注度较高的多模态应用如图1所示。本节将对这些应用展开介绍。除此之外,多模态应用还包括视听语音识别(Audio-Visual Speech Recognition)、多模态语言分析(Multimodal LanguageAnalysis)和视觉辅助的句法分析[4]等。文献[4]还获得NAACL 2021的最佳长文奖。

图1 多模态信息处理论文的分类统计

1.1 多模态情感识别

情感是人类区别于机器的一个重要维度,而人的情感往往又是通过语音、语言、手势、动作表情等多个模态表达的。在交互场景下,多模态情感识别研究如何从人的表情和动作手势、语音音调、语言等多模态信息中理解用户细颗粒度的情感表达,进而指导人机交互策略。其主要研究内容有: ①基于多模态信息互补性和异步性的动态融合; ②高噪声环境下对于模态模糊或模态缺失问题的鲁棒性融合; ③客服和营销等自然交互情境下的情感识别等。

多模态情感识别的常用数据集有IEMOCAP[5]、CMU-MOSI[6]、CMU-MOSEI[7]、CH-SIMS[8]和IVD[9]等。数据集的多维度比较如表1所示。IEMOCAP数据集收录了10位演员的表演数据,包含视频、语音、面部运动捕捉和文本模态,并标注了高兴、悲伤、恐惧和惊讶等共9类情感。CMU-MOSI数据集收录了89位讲述者的2 199条视频片段,每段视频标注了7类情感。CMU-MOSEI数据集是CMU-MOSI的扩展版,收录了1 000多名YouTube主播的3 228条视频,包括23 453个句子,每个句子标注了7分类的情感浓度(高度负面、负面、弱负面、中性、弱正面、正面、高度正面)和6分类的情绪(高兴、悲伤、生气、恐惧、厌恶、惊讶)。CH-SIMS数据集是一个中文多模态情感分析数据集,该数据集为2 281个视频片段标注了细颗粒度的情感标签。IVD是从中文语音助手的真实用户对话日志中抽取的语音情感数据集,包括500 000条无标注的语音数据和2 946条带6分类情感标注的语音数据。

表1 常用多模态情感识别数据集对比

随着图文和短视频等新兴社交媒体的迅速发展,人们在社交平台上的表达方式也变得更加丰富。社交场景下的多模态情感识别主要研究基于图文表达的情感倾向[10]和方面级的细颗粒度情感[11]等。

1.2 视觉-语言生成

视觉(图像或视频)到语言的生成和语言到视觉(图像或视频)的生成打破了计算机视觉和自然语言处理两个领域的边界,成为多模态交叉学科中最热门的研究课题。2021年初,OpenAI推出的基于GPT-3的语言到视觉的生成模型DALL-E(2)https: //openai.com/blog/dall-e/可以根据自然语言的描述生成逼真的图像,产生了较大的反响。本节主要介绍视觉到语言生成的相关应用。

1.2.1 图像描述

图像描述(Image Captioning)是对给定的一幅自然图像生成一句自然语言描述的任务。2015年以前,图像描述的主流方法是基于模板的方法。其基本思想是检测图像中的物体、动作,并将这些词作为主语、动词和宾语等填写到预定义的模板中。从2015年开始,基于视觉编码器(CNN等)和语言解码器(RNN/LSTM等)的序列到序列(Sequence-to-Sequence,Seq2Seq)框架广泛应用于这一任务。通过从视觉图像中解析出属性(Attribute)、关系(Relation)和结构(Hierarchy)等高层语义信息,并将这些语义信息融入视觉编码和语言解码中,提高了图像描述的生成效果。

图像描述任务的常用数据集有MSCOCO[12]、Conceptual Captions[13]、Flickr30K[14]、Visual Genome[15]和SBU Captions[16]。MSCOCO数据集是微软发布的可用于目标检测(Object Detection)、人体姿势识别(DensePose)、关键点检测(Keypoint Detection)、实例分割(Stuff Segmentation)、全景分割(Panoptic Segmentation)、图片标注(Category Labelling)和图像描述(Image Captioning)的数据集。该数据集有91类物体(人、猫和卡车等),共计32.8万幅图像,每幅图像包含5个英文描述。Conceptual Captions数据集收录了330万幅“图像,描述”对,是目前最大的多模态数据集,其中的图像有自然图像、产品图像、专业照片、卡通和绘图等类型,描述取自HTML中的Alt-text属性字段值。Flickr30K收录了来自 Flickr的共计 31 783 幅日常活动、事件和场景的图像,每幅图像通过众包方式标注了5个图像描述。Visual Genome是基于10.8万幅图像的大规模多模态数据集,该数据集标注了380万个对象、280万个属性、230万个关系、170万个“图像、问题、答案”三元组和540万个区域描述。图像中的对象、属性、关系、区域描述和视觉问答中的名词与短语还被归一化到相应的WordNet同义词集。

1.2.2 视频描述

视频描述(Video Captioning)是对给定的一段视频(通常是几十秒的短视频)生成一句准确、细致描述的任务。视频除了图像信息外,还包括时序和声音等信息。视频描述可提取的特征更多,技术挑战也更大。

视频描述任务的常用数据集有MSR-VTT[17]、ActivityNet-Captions[18]、YouCook2[19]和ACTIONS[20]等。MSR-VTT数据集由1万个网络视频剪辑、20万“视频,描述”对组成。MSR-VTT数据集涵盖了音乐、游戏、体育、教育等20多个类别的视觉内容,每个视频剪辑时长10~20秒,人工为每个视频剪辑标注了20个描述句子。YouCook2数据集是一个烹饪教学视频数据集,包括89个食谱的2 000个未经剪辑的教学视频(最长10分钟,平均5分钟)。ACTIONS是首个无需人工标注、从数以亿计的网页内容中自动提炼“视频,描述”对的视频描述数据集,总共包含了163 183个GIF视频。

1.2.3 视觉叙事

视觉叙事(Visual Storytelling)要求模型对于给定的图像序列,在深度理解图像序列的基础上生成连贯的叙事故事。相比于图像描述和视频描述,视觉叙事更具挑战性。在视觉理解上,视觉叙事的输入是有时序关联的图像序列,需要模型具备根据历史视觉事件推测当前的视觉事件的能力。在语言生成上,对比图像描述和视频描述中的客观文字描述,视觉叙事的输出由更多评价性、会话性和抽象性语言组成。SIND[21]是一个视觉叙事数据集,该数据集收集了81 743幅图片,以及排列成符合文字描述和故事情节的20 211个序列。

1.3 视觉问答和多模态对话

1.3.1 视觉问答

视觉问答(Visual Question Answering, VQA)[22-27]是2015年新提出的任务,简单来说就是图像问答。给定一幅图像和一个关于该图像的开放式自然语言问题,要求模型准确回答该问题。视觉问答是一个典型的多模态问题,需要模型具备物体定位、属性检测、事件分类、场景理解和推理及数学计算等能力。根据图片类型的不同,VQA又分为自然图像理解VQA[22-23]、合成图像推理VQA[24]和自然图像推理VQA[25]。表2列举了这3种VQA的示例。

表2 三类视觉问答的示例

VQA常用数据集有VQAv1/v2[22-23]、CLEVR[24]和GQA[25]。VQAv1/v2是自然图像理解VQA数据集,VQAv2解决了VQAv1中明显的语言先验(Language Priors)问题。CLEVR[24]是合成图像推理问答数据集。CLEVER中的图像由简单的几何形状的物体组成,旨在测试模型对组合式语言的理解能力和对视觉场景的推理能力。CLEVR数据集中的图像是程序合成的,其场景的复杂度与自然场景相去甚远。对此,Hudson等人[25]发布了基于自然图像的组合式问题视觉问答数据集GQA,该数据集包括关于11.3万幅图像的超过2 000万的问题。每幅图像都标注了一个场景图(Scene Graph),表示图像中的对象、属性和关系。每个问题都对应一个功能性程序(Functional Program),列出了获得答案所需执行的一系列推理步骤。每个答案都有与之对应的验证信息,指向图片中的相关区域。

1.3.2 视觉对话

视觉对话(Visual Dialog)[28-32]是给定一幅图像(或视频等视觉内容)和一个上下文相关的问题,要求模型根据图片(或视频)内容回答该问题。与视觉问答相比,视觉对话还要解决对话中特有的挑战,如共指(Co-references)和省略(Ellipsis)等。视觉对话也被认为是视觉图灵测试。视觉对话常用数据集有VisDial[28]、IGC[29]、GuessWhat[30]、Image-Chat[31]和AVSD[32]。VisDial中的问题和答案都是形式自由的。GuessWhat是通过一系列“是/否”问题发现图像中的物体。IGC是一个闲聊型的视觉对话数据集,但闲聊的话题受限于给定的图像。Image-Chat也是一个闲聊型视觉对话数据集。与IGC不同的是,Image-Chat数据集还限定了对话参与者A和B的风格特征。AVSD定义了一个视听场景的多轮对话任务,要求机器在理解问题、对话历史和视频中的场景等语义信息的基础上回答用户问题。

视觉对话中的用户问题只与单个图像(视频)相关,且用户问题和模型回答都是文字的。

1.3.3 多模态对话

多模态对话(Multimodal Dialog)关注更接近人类自然对话的多模态人机对话技术的研究。它与上一节介绍的视觉对话的主要差异有: ①多模态对话给定的输入图像可能是多幅的; ②随着对话的推进,图像是不断更新的; ③用户问题和模型的回答可以是文本的、图像的或者图文结合的; ④模型可能需要查询外部领域知识库才能回答用户的问题(如购物者希望看到更多与特定商品相似的商品,或者要求提供满足某些特征的商品,或者查询特定商品的属性等); ⑤模型可能需要通过反问等对话策略澄清用户需求。零售和旅游等限定领域的多模态对话最近受到了越来越多的关注。

常用的面向购物场景的多模态对话数据集有MMD[33]、SIMMC[34]和JDDC[35]。MMD是在服饰专家的指导下通过模拟扮演(Wizard-of-Oz,WoZ)的方式收集的时尚购物场景的数据集。SIMMC 2.0是时尚和家具购物场景的数据集。其中,时尚和家具杂乱的购物场景是通过逼真的VR场景生成器(VR Scene Generator)生成的。与MMD和SIMMC不同,JDDC 2.0是从电商平台客服和消费者之间的真实对话数据中采样的(图2)。JDDC 2.0包括多模态对话24.6万,其中,图片50.7万张,平均对话 轮 数14轮。 此 外,JDDC 2.0 还 提 供 了 30 205个商品的759种商品属性关系,共计21.9万的<商品ID、属性、属性值>三元组。

图2 JDDC 2.0中的多模态对话示例图片引自文献[35]

视觉对话和多模态对话常用数据集的详细对比如表3所示。

表3 视觉对话和多模态对话常用数据集的对比表

1.4 多模态摘要

多模态摘要是基于对多模态输入(文本、语音、图像和视频等)的理解,归纳并生成单模态或者多模态的概括性总结(摘要)的任务。根据具体任务类型,多模态摘要又可细分为视频会议摘要[36]、教学视频摘要[37]、多模态新闻摘要[38-42]和多模态商品摘要[43]。

视频会议摘要方面,Li等人[36]提出了一个从音视频会议输入中提取会议文本摘要的方法,并在AMI数据集上验证了方法的有效性。AMI数据集[44]包含137场视频会议。每场会议持续30分钟,包含4名参与者和约300字的文本摘要。

教学视频摘要方面,Palaskar等人[37]提出一种融合视觉信息和文本信息(用户生成的和语音识别系统输出的)的生成式文本摘要方法,同时在开放域教学视频数据集How2[45]上验证了方法的有效性。

多模态新闻摘要方面,Li等人[38]提出一种从异步的多模态(文本、图像、音频和视频)输入中抽取文本摘要的方法,并发布了中文和英文数据集MMS。Li等人[39]提出一种为“文本,图像”对生成多模态摘要的模型,同时发布了英文数据集MMSS。Zhu等人[41]提出了一种从异步的多模态(文本和多张图像)输入中生成多模态(一段短文和一张图片)摘要的方法,同时发布了英文数据集MSMO。

多模态商品摘要方面,Li等人[43]提出了一种从异构的多模态输入(文本、图像、商品属性表)中生成商品摘要的方法,同时发布了数据集CEPSUM(3)http://jd-nlg-rhino.github.io/。CEPSUM数据集由140万“商品文本介绍,商品图片,文本摘要”三元组组成,涉及3个商品大类。

1.5 多模态对齐

多模态对齐研究多个模态不同颗粒度元素间的对齐关系,具体又分为显式对齐和隐式对齐。视觉-语言跨模态的显式对齐任务研究图像和句子[46-47]、图像和词[48]、图像中的目标和句子中的短语[49-50]间的对齐关系。多模态对齐方法可直接应用于多模态检索等应用,也可作为图像描述、VQA、多模态预训练的训练语料,尤其是在缺乏大规模多模态人工标注语料的场景。

图像和句子(或文档内其他文本单元)间的显式对齐通常是不存在的。对此,Hessel等人[46]提出了一种将同一网页内的图像和句子对齐的无监督方法。该方法在7个难度不同的数据集上获得了不错的性能。Suhr等人[47]定义了一个视觉推理任务NLVR2,对于给定的两幅图像和一段自然语言的描述,要求模型判断它们是否存在语义上的对齐关系。

文本预训练语言模型已经取得了巨大的成功,但该方法仅使用文本上下文信息作为监督信号,导致词的上下文表示学习严重依赖词的共现关系(Co-occurrence),缺乏外部物理世界的背景知识。为了给预训练语言模型提供视觉监督信号,Tan等人[48]提出了Vokenization技术(图3),其通过给文本中的每一个词打上一幅图像的标签,实现在大规模文本语料上自动构建多模态对齐语料库。在大规模图像-词汇对齐的多模态语料库上训练的预训练语言模型可增强其对自然语言的理解能力。实验证明,该模型在多个纯文本的任务上(如GLUE、SQuAD和SWAG等)均获得了显著的性能提高。

图3 Vokenization技术示例图片引自文献[48]

图像中的目标和文本中的短语对齐也被称为图像短语定位(Phrase Grounding),可用于提高图像描述、VQA、视觉导航等视觉-语言下游任务的性能。Plummer等人[49]发布了一个大规模的短语定位数据集Flickr30k Entities,如图4所示。Wang等人[50]提出了一种基于细粒度视觉和文本表示的多模态对齐框架,在Flickr30k Entities数据集上显著提高了短语定位的性能。

图4 Flickr30k Entities标注示例对齐的图像中的目标和文本中的短语用相同的颜色标记。图片引自文献[49]

视频定位(Video Grounding)[51]是多模态对齐中另一项重要且具有挑战性的任务。给定一个查询(Query),它要求模型从视频中定位出与查询语言对应的一个目标视频片段。该技术可应用于视频理解、视频检索和人机交互等场景。常用数据集有Charades-STA[52]、ActivityNet-Captions[53]和TACoS[54]。Charades-STA数据集是基于Charades数据集[55]构建的,包括6 672个视频和16 128个“查询,视频片段”对。ActivityNet-Captions数据集包含两万个视频和10万个“查询,视频片段”对,其覆盖的视频类型更多样。TACoS数据集包含127个烹饪视频和18 818个“查询,视频片段”。

1.6 多模态翻译

多模态翻译是将多模态输入(文本、图像或视频等)中的源语言文本转换为目标语言文本的过程。多模态翻译的目标是在视觉等多模态信息的辅助下,消除语言的歧义,提高传统文本机器翻译系统的性能。

Elliott等人[56]于2015年首次提出多模态翻译任务。随后,在2016年举办的第一届机器翻译会议上成功组织了第一届多模态机器翻译比赛,并于接下来的两年连续举办了两届比赛,引发了研究者们对多模态机器翻译的关注热潮。目前的工作主要集中在Multi30k数据集[57]上。该数据集是英语图像描述数据集Flickr30k[14]的多语言扩展,每幅图像配有一个英语描述和一个德语描述,任务定义为给定图像和英语描述,生成德语描述。

模型方面,Huang等人[58]首先从图像中提取视觉全局表示(参见2.1.1节的介绍)和视觉目标表示(参见2.1.3节的介绍),提取的视觉表示被视为源语言中特殊的单词与文本拼接,再融入编码器-解码器神经网络翻译模型中的编码器中。在Calixto等人[59]提出的模型中,视觉特征被视为源语言中特殊的单词,或者融入编码器中,或者融入解码器中。Calixto等人的模型显著提高了模型的翻译效果。文献[58-59]中的模型依赖大量的多模态翻译对齐语料(源语言、图像、目标语言)。对此,Elliott等人[60]将多模态机器翻译分解为两个子任务: 文本翻译和基于视觉的文本表示(Visually Grounded Representations)。该模型不依赖昂贵的(源语言、图像、目标语言)对齐语料。模型可以分别在文本翻译语料(源语言,目标语言)和图像描述(图像,源语言)语料上训练。受文献[60]的启发,Zhou等人[61]提出了一种机器翻译任务和视觉-文本共享空间(Vision-Text Shared Space)表示学习任务相结合的多任务多模态机器翻译框架(VAG-NMT)。VAG-NMT首先把文献[60]中的基于视觉的文本表示(即从文本表示重建图像)修改为视觉-文本共享空间表示学习。其次,VAG-NMT还提出了一种视觉文本注意机制,可以捕获与图像语义强相关的源语言中单词。多模态机器翻译中的视觉信息只在非常特殊的情况下(如文本上下文不足以消除歧义词的歧义)对翻译模型有帮助。对此,Ive等人[62]提出了一种翻译-优化(Translate-and-refine)的两段式翻译方法。该方法先翻译源语言中的文本,再使用视觉目标表示对第一阶段的翻译文本进行调整。大多数的多模态机器翻译模型没有考虑不同模态的相对重要性,但同等对待文本和视觉信息可能会引入一些不必要的噪声。Yao等人[63]基于Transformer,提出了一种多模态自注意机制,探索了如何消除视觉特征中的噪音信号。一方面,单层多模态注意力模型难以有效提取视觉上下文信息,另一方面,多层多模态注意力模型容易导致过拟合,尤其是对训练数据少的多模态翻译。对此,Lin等人[64]提出一种基于动态上下文指导的胶囊网络(Dynamic Context-guided Capsule Network,DCCN)提取和利用两种不同颗粒度(视觉全局表示和视觉区域表示)的视觉信息。也有研究者对多模态翻译的可解释性进行了探索。Wu等人[65]的研究表明,视觉特征对多模态翻译的帮助来自于正则化,视觉特征的合理选取对模型性能至关重要。

1.7 多模态信息抽取

命名实体识别(NER)是指识别自由文本中的具体特定意义的实体(如人名、地名和组织机构名等)。命名实体识别虽然取得了较大的成功,但对于社交媒体中大量的用户生成内容(User-Generated Content,UGC),仅根据文本模态的信息来定位和分类其中的实体仍然存在一些挑战。多模态命名实体识别(MNER)通过引入视觉、语音等其他模态作为文本模态的补充,识别社交媒体中高噪声短文本中的实体,最近几年受到了比较多的关注。

模型方面,Moon等人[66]首次提出了融合图像和文本模态信息的通用多模态注意力模型。文献[66]还发布了SnapCaptions数据集,该数据集由1万张“图像,短文本标题”对构成,并标注了短文本标题中的四类命名实体(实体类型: PER、LOC、ORG、MISC)。一方面,文献[66]中的方法提取的是图像的视觉全局表示,这可能把图像中的噪声信息也引入到模型中。另一方面,视觉和文本模态的特征融合较简单。对此,Zhang等人[67]提出了一种自适应的协同注意力网络(Adaptive Co-attention Network,ACN)。ACN首先提取图像的视觉区域表示(参见2.1.2节的介绍),再通过文本到视觉和视觉到文本的协同注意力剔除图像中的噪声信息,以提高MNER的性能。文献[67]在内部数据集上验证了该方法的有效性。基于类似的出发点,Lu等人[68]提出了一种注意力机制与门控机制相结合的模型提取视觉图像中与文本最相关的区域的特征。该模型可忽略不相关的视觉信息。文献[68]基于注意力机制获取了单词感知(word-aware)的视觉表示,却忽略了图像感知(image-aware)的单词表示。对此,Yu等人[69]首次将Transformer应用于多模态NER任务中,并提出了实体片段检测辅助任务,进一步消除视觉偏差,提升了模型效果。

Sui等人[70]提出了融合语音和文本信息的多模态NER,并在自建的中文数据集CNERTA上验证了方法的有效性。

多模态信息抽取领域中另一个受到较多关注的研究方向是多模态商品属性抽取。多模态商品属性抽取是指从给定商品文本描述和商品图片中抽取商品的属性信息,例如商品的“颜色”“材料”等属性值。为了推动多模态商品属性抽取的研究,IV等人[71]发布了首个大规模多模态属性提取英文数据集MAE。MAE包含400万图片和760万“属性-属性值”对。文献[71]提出的多模态属性抽取模型需要对每一个属性识别其对应的属性值,且无法滤除视觉噪声。为了提高模型的效率,Zhu等人[72]将属性预测和属性值抽取建模为一个层叠化的多任务学习过程,实现了多个属性及其对应属性值的一次性识别,且视觉全局表示和视觉区域表示通过门控机制和文本信息融合,可有效过滤视觉噪声。Zhu等人还发布了一个包含9万“属性-属性值”对的多模态商品属性抽取中文数据集MEPAVE。

2 多模态融合

多模态融合将多个单模态表征整合成为一个多模态信息表征,它是多模态信息处理的核心问题。多模态融合的示例如图5所示,其中,Ni{i=1,…K}表示单模态表示学习模型的模型深度,M表示K个多模态表示的融合模型深度。多模态融合的研究方向有: 基于多模态互补性的全模态融合问题、模态模糊或者模态缺失下的鲁棒性融合问题、非对齐的多模态融合问题等。目前,大部分工作是关于模态对齐且无模态缺失情况下的多模态融合算法研究,这也是多模态融合中最基础的挑战。本节根据单模态的特征表示、多模态融合的阶段、多模态融合的模型结构等对多模态融合方法进行分类介绍。

图5 多模态融合示例

2.1 根据单模态表示进行分类

单模态的特征表示是多模态融合的基石。这一类方法重点研究如何在多模态融合之前提取更好的单模态特征表示。以视觉-语言-音频多模态应用为例,如何从视觉内容中解析出高层语义信息以增强视觉特征表达是这一类方法的主要研究内容。例如,从视觉内容中识别目标(Object)、属性(Attribute)、动作(Action)、关系(Relation)、场景图(Scene Graph)[73-75]和树形语义结构(Hierarchy)[76]等,进而实现对视觉内容的全局(Global)、区域(Regional)、目标(Object)和关系(Relation)等颗粒度的视觉语义建模。语言表示通常使用词的独热编码表示、词的上下文表示(Contextual Representation)[77-78]、句子表示[79-80]、句法依存关系(Syntactic Dependency)表示[81]、场景图表示[82]等。音频表示可使用基于COVAREP[83]提取底层声学特征表示[85]、基于预训练模型wav2vec[84]提取低维特征向量表示[85]等。本节侧重介绍多模态融合中的视觉特征表示方法。

2.1.1 视觉全局表示

视觉全局表示(Global Representation)是从图像编码器的高层网络提取一个D维静态向量v表示一幅图像。相关工作[43,72]通常使用预训练的ResNet[86]对图像编码,再提取ResNet的最后一个池化层作为视觉全局表示(ResNet152池化层输出是1×2 048维向量,即D=2 048)。视觉全局表示可用来初始化多模态自动摘要模型的解码器[43],或作为一个特殊的字符与文本字符拼接,再用递归神经网络对拼接的字符序列编码[58],或通过注意力机制学习与其他模态特征的联合表示[72]等。由于视觉全局表示将图像信息压缩到一个静态的向量中,这可能会导致大量图像细节信息的丢失。

2.1.2 视觉区域表示

视觉区域表示(Regional Representation)是从图像编码器的高层网络中提取一组D维向量表示一幅图像。每个D维向量表示图像中特定的大小相同的区域[87]。具体的,预训练ResNet先编码输入的图像,再提取Conv5_x层的输出作为视觉区域表示v={v1,…,vK}(ResNet152的Conv5_x层输出是7×7×2 048的张量,即K=49,vi的维度是2048)。视觉区域表示与注意力机制相结合,通过在每一步解码过程中关注不同的图像区域可生成内容丰富的图像描述[87]。视觉区域表示实现了图像的细颗粒度表示,但是每个特征的感受野大小和形状相同,同一个目标(Object)可能被切分到多个区域中,它无法表达视觉上完整的语义信息。

2.1.3 视觉目标表示

视觉目标表示(Object Representation)也是用一组D维向量表示一幅图像,但每个D维向量表示图像中的一个目标(Object)。具体的,预训练Faster R-CNN[88]通常被用来检测目标所在的区域,再使用目标所在区域的视觉特征和边界框(Bounding-box)特征作为该视觉目标表示[79,81,89-90]。视觉目标表示与注意力机制等多模态融合方法相结合,可进一步提高视觉-语言任务的性能。例如,受人类视觉系统的启发,Anderson等人[78]首次提出了一种“自底向上”和“自顶向下”相结合的注意力机制(BUTD)。BUTD在2017年CVPR视觉问答比赛中获得冠军。视觉目标表示通过目标定位与分类实现视觉图像的浅层语义理解,但它无法刻画图像中多个目标间的语义关系。

2.1.4 视觉场景图表示

视觉场景图表示(Scene Graph Representation)是用场景图G=(V,R)表示一幅图像。场景图中的节点V={v1,…,vK}是图像中的目标集合,关系R={r1,…,rR}是图像中目标和目标间的显式语义关系(如Wearing、Eating)、空间位置关系(如Cover、Intersect、In)和隐式语义关系的集合,如图6所示。视觉场景图表示可实现模型对视觉内容的深度理解。Yao等人[75]提出了基于GCN-LSTM的网络结构,将视觉场景图中的显式语义关系和空间位置关系集成到图像编码器中。GCN-LSTM网络显著提高了图像描述任务的性能。Li等人[79]提出了一种关系感知的图注意力网络(ReGAT),它通过图注意力机制对图像目标间的显示关系(语义关系和空间关系)和隐式关系进行建模,学习问题自适应的多模态联合表示,ReGAT可提高VQA的性能。文献[75、79]使用Faster R-CNN识别图像中目标,并提取目标的视觉特征表示vi。

图6 视觉场景图表示

除了场景图表示,Yao等人[76]把视觉内容解析成一个树状结构,其根节点是整个图像,中间节点为一组图像物体,叶子节点则是在图像目标的基础上应用图像分割技术得到的图像Instance级的区域。

2.2 根据融合阶段进行分类

根据多模态融合的阶段,多模态融合方法可分为早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早期融合的特点是单模态表示学习简单,而多模态融合部分的模型深度大,融合策略复杂。例如,词的独热编码表示和视觉区域表示直接参与多模态融合[93]。晚期融合的特点是单模态表示学习模型复杂,多模态融合一般采用拼接、按位乘/求平均等简单策略[92]。由于晚期融合抑制了模态之间的交互,目前大部分基于深度学习的模型均使用早期或者中期融合。在第3节介绍的多模态预训练模型中,基于单流架构(Single-Stream)的预训练模型把融合操作放在早期阶段,如VideoBERT[94]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]和M3P[98]等。基于双流架构(Two-Stream)的预训练模型则把融合操作放置在深层模型的中期阶段的多个层中,如ERNIE-ViL[82]、LXMERT[91]、ActBERT[99]和ViLBERT[100]等。

Alberti 等人[90]通过实验证明在视觉常识推理(Visual Commonsense Reasoning,VCR)应用中,语言与视觉的早期融合是获得高准确率的关键。Shrestha等人[80]也通过实验发现早期融合对他们提出的模型RAMEN至关重要,因为去掉早期融合会导致VQA准确率的绝对值在视觉推理数据集CLEVR上下降20%,在视觉理解数据集VQAv2上下降4%。

2.3 根据融合方式进行分类

多模态融合模型的设计是多模态融合的关键研究点。我们将多模态融合模型分为简单融合、门控融合(Gating)、注意力融合(Attention)、Transformer融合、图模型融合(Graph Fusion)和双线性注意力(Bilinear Attention)融合共六类方法。常见简单融合方法包括编码器、解码器的初始化(参见1.6节和2.1.1节)、拼接、按位乘/求和/求平均等操作。本节主要介绍其余的五类较复杂的融合方法。

2.3.1 门控融合

基于自编码(Auto-encoding)[101]和自回归(Auto-regression)[102]的大规模预训练语言模型和在下游任务上的微调相结合是自然语言处理研究和应用的新方法。但文本预训练语言模型与下游的多模态任务相结合还是一个尚未充分研究的课题。Rahman等人[103]提出了一种多模态适应门(Multimodal Adaptation Gate,MAG)的网络结构将非语言特征(视觉和声学特征)与文本预训练语言模型融合,MAG与BERT[101]结合(MAG-BERT)以及MAG与XLNet[104]结合(MAG-XLNET)都可以有效融合三个模态信息,并在多模态情感识别数据集CMU-MOSI和CMU-MOSEI上获得当时最优性能。

2.3.2 注意力融合

Bahdanau等人[105]在2015年提出的注意力机制是为了让神经机器翻译模型中的解码器在每一步解码过程中,有针对性地选择源语言中“对齐”的词来指导目标语言的解码,包括全局注意力和局部注意力两种方法。2017年Vaswani等人[106]提出了由多头注意力和自注意力等模块组成的Transformer。目前Transformer已经成为自然语言处理、计算机视觉和语音领域的标准模型之一。在多模态领域,Yang等人[77]提出了Stacked Attention Networks(SANs),通过多层视觉注意力机制逐步过滤掉图像中的噪声区域,定位到与答案高度相关的图像区域,从而提高VQA准确率。Anderson等人[78]提出一种“自底向上”和“自顶向下”相结合的注意力机制。具体的,基于Faster R-CNN的“自底向上”的注意力机制提取图像中的兴趣区域,“自顶向下”的注意力机制确定兴趣区域的权重。

上述注意力都是单向的视觉注意力,即基于文本表示选择性地关注图像中的兴趣区域。Lu等人[107]认为文本注意力和视觉注意力同等重要,并提出了协同注意力机制(Co-attention)。协同注意力又根据文本注意力和视觉注意力计算的交替顺序分为平行协同注意力(Parallel Co-attention)和交替协同注意力(Alternating Co-attention)两种策略。Nam等人[108]基于类似的想法提出了双重注意力网络(Dual Attention Networks)。受Transformer模型的启发,Yu等人[109]提出了一种类Transformer结构的协同注意力机制,可实现文本中的任一词与图像中的任一区域间的完全交互。

2.3.3 Transformer融合

BERT凭借着Transformer强大的特征学习能力和掩码语言模型(Masked Language Model)实现双向编码,刷新了多个NLP任务的最优性能。2019年Transformer开始被应用到多模态领域。基于Transformer的多模态融合又分为单流模型[95-98]和双流模型[82,91,110-111]两大类。单流模型使用一个Transformer在一开始便对多模态信息进行充分的交互。双流模型则对不同的模态使用独立的Transformer编码,再通过协同注意力机制实现不同模态间的融合,如图7所示。双流模型可以适应不同模态独立的处理需求。ViLBERT[100]证明了双流模型的性能优于单流模型,但目前没有更多的对比实验分析单流模型和双流模型的优点和不足。

图7 基于Transformer的双流多模态融合

2.3.4 图模型融合

对比CNN/RNN等神经网络模型,图神经网络模型的优势是可处理具有复杂结构的异构数据,并且具备一定的关系推理能力和可解释性。图神经网络最近一两年在自然语言处理领域也受到了广泛的关注。

在视觉-语言任务中,将图像进行结构化(参见2.1.4节),再与图神经网络结合,有助于对图像的深度理解,进而提高图像描述和视觉问答等视觉-语言任务的性能[79]。Huang等人[81]提出一种双通道图卷积网络(DC-GCN)。DC-GCN通过I-GCN模块学习图像中物体间的关系、通过Q-GCN模块学习问题中词的依存关系,再通过注意力对齐模块学习多模态的联合表示。Yin等人[112]将基于图的多模态融合编码器应用到多模态神经机器翻译模型中。不同于DC-GCN对图像和文本独立建图,Yin等人[112]把源语言中的词和图像中的物体放到了同一个图中,再堆叠多个基于图神经网络的多模态融合层(在每一层顺序执行模态内融合和模态间融合)。该方法可以同时学习模态内和模态间的各种颗粒度的语义关系,进而显著提高了机器翻译的性能。

最近,基于图模型的多模态融合也被广泛应用于多模态情感识别任务。Hu等人[113]提出了一种基于图卷积网络的多模态融合模型(MMGCN),它可以有效地融合多模态信息和学习长距离的依赖关系,还可以通过说话人向量(Speaker Embedding)把说话人的音色特征等信息融入情感识别模型中。

2.3.5 双线性注意力融合

协同注意力机制虽然同时引入了文本和视觉注意力,实现了文本和图像双向交互。但为了减少计算量,协同注意力为每个模态建立了独立的注意力分布。因此,协同注意力忽视了问题和图像之间的两两交互。对此,Kim等人[114]提出了双线性注意力网络(BAN)。双线性注意力网络是低秩双线性池化方法的一般推广。本文不展开介绍BAN模型,有兴趣的读者请参考相关文献。

2.3.6 多模态融合模型小结

门控融合和注意力融合是早些年提出的基础的多模态融合方法。它们的优点是能方便地与CNN/LSTM/Transformer等主流的神经网络结构相结合,也能与2.1节介绍的多种单模态表示相结合。图模型融合和Transformer融合是近几年提出的新方法,它们的模型结构较复杂,且对单模态的表示要求较高。如图模型融合需要跟视觉场景图表示(和文本的图表示)相结合。双流Transformer融合视觉-语言-语音3种模态信息,需要多个Transformer[110-111]。图模型融合和Transformer融合通常可获得更好的性能,如表4所示。门控机制和注意力机制跟预训练模型结合,也能取得不错的性能,如门控机制跟XLNet相结合的MAG-XLNet模型在情感识别上获得了最佳的性能。

表4 多模态融合方法的代表性模型在视觉问答、图像描述和情感识别数据集上的性能对比

2.4 其他融合方法

融合语言、视觉和声学序列信息的多模态情感识别,由于每个模态的采样率不同,多模态序列通常表现出“未对齐”特性(也称之为异步性)。早期的多模态情感识别工作是在词对齐的多模态序列上展开的。最近也有工作提出了基于异步的多模态序列的建模方法。然而,Tsai等人[110]提出的多模态 Transformer(MulT)一次只能接收两个模态。为了实现三个模态的融合,作者使用了六个跨模态Transformer。Yang等人[115]提出了一个可解释的基于图神经网络的异步多模态序列融合算法: 模态-时间注意力图(Modal-Temporal Attention Graph,MTAG)算法。MTAG算法首先将多模态序列转为一个异构图,再从多模态序列中抽取特征作为节点,节点间通过多模态边(Multimodal Edges)和时间边(Temporal Edge)进行连接。最后,在图上进行融合操作,实现每一个模态的节点与其他模态节点的交互。

由于利用了多个模态间的互补性,多模态系统具有较高的预测鲁棒性。然而,在现实应用场景中,我们经常会遇到模态缺失的问题。例如,由于隐私问题关闭了摄像头、由于语音识别错误带来的语言模态缺失等。模态缺失问题通常会导致现有基于全模态的多模态融合模型失效。对此,Zhao等人[116]提出了基于缺失模态想象网络(Missing Modality Imagination Network,MMIN)来处理不确定的模态缺失问题。由于模态缺失现象的普遍性,该问题将会是多模态领域接下来的一个研究热点。

3 多模态预训练

通过预训练语言模型从海量无标注数据中学习通用知识,再在下游任务上用少量的标注数据进行微调,已经成为自然语言处理领域成熟的新范式。从2019年开始,预训练语言模型(BERT[101]、GPT-3[102]、BART[117]和T5[118]等)相继被扩展到多语言和多模态等场景。

相对于文本预训练语言模型,多模态预训练模型可以更好地对细颗粒度的多模态语义单元(词或者目标)间的相关性进行建模。例如,基于语言上下文,被掩码的词“on top of”可以被预测为符合语法规则的词“under”或“into”等。但这与关联的图片场景“猫在车顶”不符。通过多模态预训练,模型从图像中捕获“汽车”“猫”之间的空间关系,从而可以准确地预测出掩码词是“on top of”[82]。大部分的多模态预训练模型是在视觉-语言对齐数据上进行的。例如,使用图像和文本对齐数据集(MSCOCO[12]、Conceptual Captions[13]、Visual Genome[15]和SBU Captions[16]等)训练的跨模态预训练模型LXMERT[91]、Oscar[96]、VL-BERT[97]和ViLBERT[100], M3P[98]。使用视频和文本对齐数据集训练的VideoBERT[94]和ActBERT[99]等[119-120]。Liu等人[85]最近还发布了视觉、文本、语音三模态预训练模型OPT。

本文表5中从网络结构、模型输入、预训练目标、预训练语料和下游任务等维度对比了最新的视觉-语言跨模态预训练模型ERNIE-VIL[82]、LXMERT[91]、LightningDOT[92]、E2E-VLP[93]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]、M3P[98]、ViLBERT[100]、TDEN[121]、UNIMO[122]。表5中的表示“图像,语言”对,I表示一幅图像,w=w1,…,wT表示长度为T的文本表示。g=g1,…,gG是图像区域表示,q=q1,…,qK和v=v1,…,vK分别表示图像中的目标的文本表示和目标的视觉表示。g和v的提取可参考2.1节的介绍。此外,[SEP]、[IMG]、[CLS]等特殊标记用来分割不同模态。MLM(Masked Language Model)是根据未掩码的词和图像区域预测掩码单词。MOC(Masked Object Classification)根据未掩码的图像区域和文本预测掩码区域的目标类别。MOR(Masked Object Regression)根据未掩码的图像区域和文本预测掩码区域的特征表示。MSG(Masked Sentence Generation)根据输入图像逐字生成句子。VQA根据输入的图像和该图像相关问题预测该问题的答案。CMCL是跨模态对比学习任务。VLM是预测图像-文本对是否语义一致。

表5 视觉-语言预训练模型对比

从表5中的11个图像-语言跨模态预训练模型的对比,我们发现的跨模态预训练模型的特点如下: ①单流模型和双流模型均被广泛采用。虽然双流模型可以适应每种模态的不同处理需求,但目前尚无完整的实验证明双流模型优于单流模型。②多模态预训练模型从应用于多模态理解任务或多模态生成任务发展到可兼顾多模态理解和生成两大任务的统一模型。③相对动辄上百G甚至T级别的单模态数据,多模态对齐数据的规模有限。最新的多模态预训练模型可以利用互联网上的大规模非对齐的文本数据、图像数据、以及文本-图像对齐数据学习更通用的文本和视觉表示,以提高模型在视觉和语言的理解和生成能力,如M3P和UNIMO。④多模态预训练模型从仅应用于多模态下游任务发展到可同时应用于单模态下游任务和多模态下游任务。

上述的多模态预训练模型需要在大量图像文本的对齐语料上进行训练。然而,此类数据的收集成本昂贵,很难扩大规模。受无监督机器翻译[123-124]的启发,Li等人[125]提出了一种不依赖图像-文本对齐语料的预训练U-VisualBERT,该预训练模型的输入是一批文本数据,或一批图像数据,并通过图像中物体标签作为锚点(Anchor Points)对齐两种模态。U-VisualBERT在四个多模态任务上取得与使用多模态对齐数据训练的预训练模型接近的性能。该方向可能会是接下来的一个研究热点。

4 多模态技术的产业应用

本节介绍多模态信息处理在商品文案生成、智能客服与营销等场景的应用。

多模态商品文案生成是基于商品的文本描述和商品的图片生成卖点突出的商品介绍文案的任务。为了生成一段简洁凝炼、卖点突出、流畅、合规的商品文案,Li等人[43]提出了一种基于商品要素的多模态商品信息自动摘要模型,其可以根据商品的文本描述、商品图片信息自动生成商品短文。目前文献[43]中的算法已支持3 000多个商品品类,广泛应用于商品导购机器人、搭配购、AI直播带货等实际场景中。AI创作的文案人工审核通过率超过95%,AI文案曝光点击率高出专业写手平均水平40%。表6对比了文本模型和多模态模型的生成文案效果。

表6 文本生成模型vs. 多模态生成模型

智能客服场景中,超过16%的客服与用户的对话包括一张以上的图片(截屏图片和实拍图片)。所以,客服机器人不仅要理解文字内容,还要理解图片等多模态内容,才能准确回答用户咨询。基于多模态技术的用户意图识别已经应用于京东智能情感客服系统。多模态情感识别也应用到语音客服质检(4)语音客服质检是根据语音和ASR识别结果识别客服和用户的情绪变化,提高客服服务的质量。、语音外呼机器人等产品中。此外,融合语音、计算机视觉和自然语言处理的数字人已应用到智能客服、虚拟主播、数字人直播带货等场景。

5 结束语

多模态信息处理是一个典型的多学科交叉领域。最近几年,多模态信息处理受到自然语言处理、计算机视觉和语音与声学领域研究者的广泛关注。本文从自然语言处理的视角出发,首先介绍了目前热点的多模态应用,接着介绍了多模态的三个重要研究方向及其主流方法: 即视觉的单模态表示(视觉全局表示、视觉区域表示、视觉目标表示和视觉场景图表示)、多模态融合(简单融合、门控融合、注意力融合、Transformer融合、图模型融合和双线性注意力融合)和通用的多模态预训练。最后,本文对多模态技术在产业界的应用进行了简要的描述。

多模态信息处理还有很多亟待进一步研究的课题。我们认为,以下五个方向将是多模态信息处理技术领域未来重要的研究内容: ①非对齐语料上的多模态信息处理。目前,大多数下游的多模态任务和多模态预训练模态都依赖多模态对齐语料。相对动辄上百G甚至T级别的单模态语料,多模态对齐语料的规模还是很有限。探索如何在海量非对齐多模态语料上训练多模态模型具有非常实用的价值,也是多模态领域需要重点关注的课题之一。此方向已经有了初步的探索。例如,利用多模态对齐技术将海量的单模态语料与其他模态进行自动对齐[48,122]。②面向单模态和多模态的理解和生成任务的统一模型。当前的主流模型或面向单模态理解(或生成)或面向多模态理解(或生成)的模型,构建一个既适用于单模态理解与生成任务,又适用于多模态理解与生成任务的统一模型是未来非常重要的研究方向。多模态模型在文本任务上的性能未来可能会超过单模态模型[48,122]。③高噪声环境下的多模态鲁棒性融合。真实场景常常有较强的背景噪声,部分模态的数据通常是模糊或缺失的。因此,探索如何在高噪声情况下获得信息缺失的有效表征,提高模型预测鲁棒性和准确性是多模态领域重要的研究课题之一。文献[116]提出一种基于缺失模态的想象网络(Missing Modality Imagination Network,MMIN)对该方向进行了初步的探索。④多模态与知识的融合。2.1节介绍的从视觉内容中提取视觉粗粒度特征表示和基于视觉场景图的细颗粒度特征表示,其目的都是增强视觉特征表示。我们认为,如何提取更精细粒度的视觉特征表示是多模态领域重要的基础研究方向之一。引入知识图谱作为图像实体信息的补充,从而进行知识增强的视觉特征表示是该方向一种探索思路[126-127]。⑤复杂交互情境下的多模态应用。第1节介绍了多模态信息处理技术的多个应用场景。我们认为,数字人、元宇宙(Metaverse)是多模态信息处理技术最佳的应用场景之一,探索复杂交互情境下的多模态信息处理是多模态领域未来最重要的研究方向之一。

猜你喜欢

模态注意力图像
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
让注意力“飞”回来
浅析p-V图像中的两个疑难问题
跨模态通信理论及关键技术初探
巧用图像中的点、线、面解题
有趣的图像诗
如何培养一年级学生的注意力
A Beautiful Way Of Looking At Things
日版《午夜凶铃》多模态隐喻的认知研究