突破人眼极限的智能光场成像

2020-03-19方璐倪凯

科研成果与传播 2020年3期

方璐倪凯

海市蜃楼是光的折射形成的、彩虹是光的色散形成的、平静水面上的各种倒影是光的反射形成的……自然界中许多奇妙而美丽的现象都和光有着密不可分的关系。光是物理世界观测最重要的载体之一，不管是艺术还是科学，对光的追求从未停止。

自1991年E.H.Adelson提出将光建模成一个七维全光函数，计算摄像领域自此拉开序章。清华大学副教授方璐的工作就是围绕光的感知和计算展开，她提出了新一代智能光场成像理论与技术，突破人眼极限，实现了大范围动态场景的视觉感知与处理，实现了机器看得全、看得清和看得准，她的光场成像理论与技术，是智慧城市的重要利器。

大家所熟悉的第一代单一像感器，它的成像方式和手机的成像方式类似，本质上无法突破宽视场与高分辨之间的矛盾，即无法实现既有很大的观测范围，画面又保持高清。第二代多像感器拼接成像依然有一定局限，它难以实现大场景、多对象的动态观测，并且观测维度受限。方璐团队开展了第三代“非结构化光场智能成像”的研究，使计算光场成像有了很大进展，不仅提高了观测范围、分辨率，解决了视角受限和难以动态观测等问题，还发明了大场景、多对象智能处理等技术。

基于第三代计算光场成像技术，方璐团队提出了一个全新的结构自适应、光场感知的新原理，研制了一系列的硬件可扩展、算法可自适应的装备，这一系列装备可以实现大场景、自适应、多维度的动态目标感知，能够看得全、看得清、看得真。以其研制的全景360°的相机为例，它既可以实现全景的感知，还可以实现局部细节的深度获取。这个相机还首次赋予了用户交互性，用户可以任意选择感兴趣的区域，并且可以放大看細节，获取画面局部的信息。这还可以有效应用于自动驾驶、VR等领域。

前面提到的第一代、第二代、第三代计算光场成像技术本质上依然是采用的采、存、算分离的模式，方璐团队还提出了采存算一体的第四代光电计算光场视觉，即使用可控的高维光场传播代替传统的数字硅基电路，这可以将计算速度提升3个数量级，功耗降低6个数量级。除了视觉感知，还可以做更高级的比如显著性检测与分割等系列算法。

基于以上研究，方璐团队还研制建立了PANDA（gigaPixel humAN-centric viDeo dAtaset）数据集。这是国际首个面向10亿像素视频的大范围、多人群、多目标、多尺度检测、识别、跟踪视频数据集，可用于大规模、长期和多对象视觉分析。其视频由一个10亿像素的摄像机捕获，可以覆盖超过1km2超广视场范围，其提供的视频具有高分辨率，可查看细节（每帧像素高达7.98亿）。通过这个数据集，我们既可以看到一个超大场景的多人的运动情况，同时可以实现多人群、多目标的复杂社交行为的理解。例如，识别对象是站着、坐着还是在走路;通过对比分析多个目标在一定时间内的运动状态，可以自动计算识别对象的群体关系，得出多个目标的亲密度等。