“灵”同学：你从哪里来？

2023-05-26刁雅琴王新伟

大学生 2023年5期

刁雅琴王新伟

“我叫‘灵，是‘挑战杯001号参赛者，我将与大学生参赛者同屏参与、同台竞技”2023年3月17日晚，第十三届“挑战杯”全国决赛开幕式的现场大屏上，北京理工大学数字人科研团队“孕育”的“挑战杯”办赛史上的第一位数字仿真人——“灵”闪亮登场。

自2015年起，北京理工大学光电学院翁冬冬教授的课题组开始围绕虚拟现实技术和数字人光场重建技术，开展了大量文化科技融合的前沿研究。

团队坚信，随着人口老龄化和信息技术的飞速发展，未来人类在虚拟环境中的时间会大幅增加，人与人的交往将更依赖沉浸式互联网完成。当用户戴上VR眼镜，进入三维互联网世界后，数字人就成为人类在虚拟世界的重要传输载体。它不仅能代替人在虚拟世界中传情达意，还能在虚实场景中进行交互，让用户拥有完整的虚拟感官体验。

在团队的多次调研中，他们发现数字人的商业价值早已不容小觑。2021年5月，超写实数字人“AYAYI”亮相小红书，其发布的第一篇笔记就收获了近300万阅读量和10万+点赞，一夜间涨粉4万人，它的整个商业估值达6亿人民币。而这还只是一个2D虚拟人物形象。

数字人能实现7*24小时不间断的服务，这极大降低了企业的人力成本，更重要的是数字人的价值主体、数字资产都归公司所有。事实上，今天已有一批数字人涉足了不同产业和领域，如游戏主播、博物馆虚拟讲解员、虚拟教师、虚拟主持人等。

“神韵”何来？

光学工程专业2020级博士生包仪华是最早加入北理工数字人科研团队的同学之一，负责数字人技术迭代和表情驱动的她始终困惑于老师所强调的“感觉与神韵”，“‘感觉与神韵这种美学范畴的抽象观念，确实很难被我们以相对客观的技术表达来呈现。”包仪华笑着说道。

人类的表情是个复合构成，每个人的面部都由44块表情肌组成，它们与血管、骨骼相互配合，形成表情。科学研究表明，人类的面部最多能组合出5000多种不同的表情。哪怕一个最简单的微笑，牵动的也不只是嘴角，还有脸颊、苹果肌和眼角的微微颤动，不然就成了皮笑肉不笑。

除了相貌的差异，光线打在不同人脸上也会产生不同效果。比如年轻女孩的皮肤透亮、红润，血气方刚的小伙子脸上常常油脂旺盛，老人的皮肤则缺少光泽和弹性。此外，真实的人眼里有光的反射点，如果数字人的眼球只有白色巩膜和黑色瞳孔，目光看起来就很无神。所以，想要做出栩栩如生的数字人，面部高逼真、表情自然生动是第一步。

包仪华清楚传统复现真人的做法，是由原画师一帧帧画出来。作為光电专业的学生，他们显然不具备专业的绘画功底，利用光学专业知识和相机成像的基础技术成为首选。团队把画家作画模式变成了他们擅长的数字拍摄模式，自主研发了3D光场采集重建系统，利用“照相术”替代“绘画师”打造高逼真可实时驱动的数字人。

在北理工光电学院的数字人实验室里，成员们搭建了一个特殊的“大球”，它由80个三角面，42个顶点和120条边组成。边的中点和顶点上安装了156组可编程LED灯源，球形灯光舞台围绕其中心均匀排布32台佳能850D相机，可对用户的多种表情进行采集，并得到不同光照，不同视角，不同偏振状态的图像数据。

被采集者坐在“大球”的正中央，根据要求作出各种表情。在快门频繁开合间，团队获得了梯度光场下的图像，经过后台算法的解析，他们重建了人脸3D模型以及基于物理模型的皮肤贴图，不仅让人的脸部特写有了真实皮肤质感，就连面部毛孔、鼻子上的小痘痘、脸上的小斑点乃至皮肤纹理都清晰可见。

复现人的表情神态需要更细致地拆解。首先是扫描被采集者的面部肌肉运动、脸部的皱褶等，再根据模特作出的表情，编码成几百个基础表情元素。比如完全闭上左眼、左眼半睁开、完全闭上右眼、嘴角向上微微扬起但人在做表情时，脸上很多部位是联动的。所以，负责数字人面部模型重建和动作捕捉的田泽俞博士要先将已扫描出的表情拆分成单个的表情元素，再根据实际需要，将这些元素重新组合起来，构成新的表情。

但此时的数字人仍是2D的，想让它在3D虚拟世界里动起来，就需要实现数字人的个性化驱动能力。团队专门打造了另一套动态面部捕捉的4D系统，通过高速相机的矩阵，逐帧采集并重建演员的动作，达到了个性化的面部运动采样与捕捉。

这套4D动态设备与3D静态光场采集系统联合捕捉人的表情、运动特征和个性化信息，以此构建了数字人完整立体的形象数据集。

克服“人工智障”

硬件设备置办齐了，数字人团队迫切希望采集更多人的数据。因为人的一个表情，至少可以拆成近10个表情，之后再通过算法让这些表情运动起来，又能组合出来上百种表情，从而能达到传递微妙信息的效果。

采什么人呢？基于北京理工大学同中央戏剧学院签订的战略合作协议，团队联系了中戏宋震教授负责的戏剧数字化团队进行这部分数据采集的合作，宋教授给他们很大帮助。包仪华解释，之所以选择专业的演员，不仅因为这些人有着符合大众审美的外貌，让人第一眼见到就赏心悦目。还因为他们受过专业的表演训练，能够做出更丰富、更准确的表情和动作，还能更精准地传达自己的情绪，即表演级表情。他们的表情驱动力比那些只能拍硬照的网红、模特更符合要求。

但数据采集过程中遇到的困难远比想象中多。负责数字人数据采集与驱动的于秦伯是电子信息专业的研三学生，他2020年刚进实验室时，自主研制的核心光场正在飞速迭代中，但总还有些“人工智障”，设备的稳定性和自动化难以达到标准，算法也有一定的优化空间。

为方便进行采集和后续的合作，2020年9月，团队将整体设备迁移到中戏。按要求，光场应放在无光环境下，但当时可以放置设备的地点只能在楼顶带有天窗的画室，对于采集环境来说并不达标，团队紧急协调，在中戏老师们的帮助下采用遮光帘暂时进行了光源的隔断，但设备打开后的温度问题仍然存在，再加上老楼没有保温层，光场里布满了LED灯和相机镜头，虽然开了空调，但屋子里始终热气腾腾，为了给设备散热，于秦伯给每个设备都加上了风扇，导致工作时，光场的噪音极大，人机交互体验不好。

由于早期技术还在迭代，录完的数据精度不够完美，仍然需要一些人工操作来实现数据的重建。而系统不稳定也导致了小麻烦频出。不是演员刚做几个动作，系统卡住了。就是演员做完动作后，数据怎么都出不来，设备连续工作过热，需要散热和调试。平均每半天到一天才能采集一个人的数据，每天最少持续工作八九个小时，整个数据采集周期大约持续了两个多月而后期的数字人重建和制作又是一个漫长的周期，虽然已经比传统影视行业动辄以年为单位计算快了很多，但仍然没达成老师理想的“一键生成”。于秦伯粗略计算过，当时还原一个数字人物资产并实现实时驱动，至少需要奋战两个月。

田泽俞心里更急，运动摄像机1秒可以录60帧，也就是60个细微的表情。而1秒的数据量约是3GB，采集完1个人的信息得有4？5TB的数据量。数据量呈百倍地增长，光靠人力根本无法完成，必须改进技术，实现批量化和自動化的分布式处理，解决数据量大的问题。

好图像是一切基础的开端，想提高精度、降低误差，必须做好相机的选型及硬件系统的联调。首先得了解每款相机的各种参数值，然后将它们有机组合成一个整体，这样才能捕获到团队想要的数据，这是个系统工程。

光场所需的相机大多是外国产的工业相机，价格昂贵，一个相机头动辄四五万元人民币。再加上需求量小，国内厂家通常不存现货，购买就直接从国外发货。为了不造成不必要的损失，田泽俞翻阅了大量的专业资料，先从原理上进行验证和构思，再按要求找机器。如今动捕房内已有14台工业相机，能达到不错的效果。

要想相机照明好，就得缩短快门，以避免运动画面模糊，这涉及到软件成像、电路及计算机的三维几何测量等知识。但能借鉴的资料实在太少了，田泽俞所找到的相关论文中并没有具体的实现细节，更找不到工程实践的经验，不仅如此，他们也没有现成的函数库、现成的软件供使用。为了减少流程中出现的潜在问题，所有细节必须系统管理，很多底层算法、底层流程控制软件都要团队自行开发。

相机的手调也是个专业技术活。因为每个人坐的角度、姿态、身高、身材不同，基本上每进去一个人后都要调试相机的姿态精度、成像参数、摄像参数等。不仅如此，光场中300多盏LED灯前的偏振片，也需要一个个校正角度。在开机运行了一段时间后，相机表面温度已足有六七十度了，那感觉就像手里攥着一只发烫的灯泡，但田泽俞不能戴手套，因为那样就无法精确对焦，每次一圈调试下来，他的双手总被烫得通红。但调好后的图像果真更清晰了，就连人嘴上的汗毛都看得真切。

经过团队的小伙伴一次次技术迭代，在今天的第六代核心光场中，软件的稳定性和流程的自动化程度均得到大大的改善。机器在采集到人的静态、动作数据后，能快速送入后台系统，按要求自动生成符合要求的模型，制作完善一个人物资产的时间被缩减到一两周内。

AI大脑和AI小脑

除了高逼真，数字人技术要想走得长远，必须实现“可交互”功能。北理工数字人团队给出的解决方案是AI大脑和AI小脑的结合。团队中负责人机交互的光学工程专业研二学生杜秋欣解释：AI大脑赋予了数字人逻辑思维能力，AI小脑则能让数字人拥有运动能力。

“AI大脑”负责实现数字人自然语言的处理、知识管理、对话系统等功能，实现对多个业务系统的实时连接，提供人机交流的主题逻辑功能。但问题是，人与人进行沟通时，人的微表情、细节、神态等多模态信息，都是逻辑脑无法解决的，那该怎么办呢？基于采集到的行为资产，团队专门训练了一个驱动数字人运动的深度学习网络，将AI大脑和小脑相结合，这样做出来的数字人不仅超逼真，也十分有智慧。

作为团队的最新作品，“灵”的面部表情由800多根“骨骼”协同控制，而面部材质则由82个材质参数进行动态调整。她是语义、语音、视觉三大AI技术融合的结晶，代表着未来人机交互的新范式，是未来元宇宙世界沟通真实与虚拟的关键。

包仪华和团队的小伙伴坚信，未来在AI技术的支持下，一定能实现机器与情感的连接和流动，终将会有更真实的数字人参与人类的生活。

责任编辑：刁雅琴