APP下载

受脑启发的机器人认知抓取决策模型

2021-08-05左国玉刘洪星龚道雄阮晓钢

北京工业大学学报 2021年8期
关键词:通路物品决策

左国玉,刘洪星,龚道雄,阮晓钢

(1.北京工业大学信息学部,北京 100124;2.北京市计算智能与智能系统重点实验室,北京 100124)

随着机器人技术的进步,机器人正在代替人类完成一些重复、简单的操作.然而,为了让机器人获得更加通用的能力,抓取技能是机器人必须要掌握的.抓取是人类行为中常见但复杂的综合性行为,其整合了感知、认知决策和动作执行以及其间的协调与配合,体现了人类的认知能力和操纵能力.研究者们在机器人智能抓取领域已经取得了一些进展.一些工作[1-3]将机器人抓取检测看作计算机视觉问题,并使用深度学习方法以目标检测的方式进行研究.这些深度神经网络结构依赖于卷积神经网络(convolutional neural network,CNN)[4].CNN是受哺乳动物的视觉通路启发而产生的,并且在空间和特征处理方面有很好的表现.机器人利用深度神经网络赋予的视觉感知能力对抓取位置进行回归或分类,其中抓取位置具体指示了机器人末端执行器以怎样的姿态抓起物体.然而,目标检测的方法不能满足机器人对物品更深层次的探索和理解.因此相关学者对affordance检测展开了研究.Affordance检测和目标检测最大的区别在于关注的物品特征形式不同.Affordance 检测关注的是物品与环境的交互特征.Affordance是指用一个物体进行不同行为的可能性,这个概念最早是由心理学家吉布森[5]提出.Affordance的概念用于描述物品的功能特性,在机器人抓取和操作的研究中得到了广泛的应用[6-8].一些工作[9-10]借助深度学习方法,使用视觉输入学习affordance表征,其中 affordance由图像中物品的具有特征区分性的部分表示.物品的抓取方式与物品的affordance密切相关.Kokic等[11]利用CNN在点云上对affordance进行编码和检测并使用affordance来建模任务、对象和抓取动作之间的关系.类似地,Chu等[12]表明基于部分的物品表征有利于affordance检测,因为一些物品部分分别具有独特的特征但与其他物品又具有共性,所以可以推广到新颖的物品上使用.Zeng等[13]使用CNN将视觉观察(例如图像)映射到感知的affordance上用以关联物品和动作.在物品感知中,affordance检测使得机器人可以获取物品与环境的交互特征,并使得物品特征以更加基元化、更加普遍的形式表现,为机器人的抓取操作提供了重要的信息.然而,这些模型没有考虑抓取相关的约束条件(例如任务),也没有使用先验知识指导机器人最终的抓取决策.值得注意的是,视觉感知的作用更像是一个环境感受传感器,机器人并不能只依靠传感器实现完整的推理和决策,这最终会导致不灵活、非鲁棒的抓取表现.

物品感知在一定程度上实现了物品的分割和解析,并且感知结果会在抓取决策阶段作为影响因素被考虑.目前抓取决策的方法可分为基于概率逻辑的方法和基于学习的方法.Ardón等[14]为了得到物品抓取affordance的概率分布,利用马尔可夫逻辑网络建立了知识图表征.Antanas 等[15]使用概率逻辑模块,通过利用物品部分的语义、物品的属性和任务约束来提高抓取能力.Fang等[16]提出了一种面向任务的抓取网络,用于联合预测面向任务的抓取和后续操作动作.在基于学习的方法研究中,Karaoguz等[17]对抓取矩形建议网络检测到的抓取矩形按照得分进行排序,以得分最高的抓取矩形作为目标抓取位置.Kasaei 等[18]通过人机交互的方式学习抓取,示教者使用示教的方式向机器人演示一个物体的可能的抓取方式.这些方法中,概率逻辑规则使抓取决策过程具有可解释性.然而,手工设计的逻辑规则的设计和学习通常是复杂的.视觉输入的深度学习方法是黑箱学习.虽然该方法避免了手工规则设计,但可解释性较低.

抓取行为本质上是大脑综合认知的一种外部表现,若只考虑利用一方面的能力来实现智能抓取是很困难的.因此抓取模型应该被赋予多种类似人一样的认知功能.不可否认,在机械任务层面机器人和生物的抓取表现是很相似的.然而,目前机器人和人类对抓取的认知在决策层面上还有很大的差距,而且这种决策能力会直接影响机器人后续抓取动作的执行和操作.对于机器人而言如何将人类认知中形而上的功能(例如记忆、视觉感知和大脑皮层推理)整合到一起是必要且亟待解决的问题.

人类大脑集合了多种类型的认知功能,受人类大脑分区分块的功能结构的启发,本文提出了一种认知抓取决策模型.模型包含了3个信息通路:1)受视觉腹部通路功能启发构建了一个卷积神经网络以实现物品空间信息和特征信息的提取;2)受海马体信息通路功能启发构建了一个图神经网络以实现数据的存储以及推理检索;3)受皮质柱信息通路功能启发构建了一个贝叶斯编码解码网络以实现信息的融合和最终的决策.因此通过模仿人类大脑中存在的功能性结构,构建该模型以实现更符合实际应用场景的合理抓取决策.

1 模型结构

生物大脑因其出色地整合了数百种认知功能而在认知方面具有权威性.视觉和记忆在大脑的认知决策中都起着至关重要的作用.本文以控制二指机械手抓取为例,提出了一种受脑启发的认知决策模型,以实现合理、灵活的机器人抓取动作决策.如图1(a)所示,该模型包含3条认知信息通路:负责视觉感知的视觉腹部通路,负责记忆推理和检索的海马体信息通路和负责决策的皮质柱信息通路.图1(b)展示了所构建模型整体信息流的传递.本文采用了3种网络架构来分别实现上述3种信息加工和信息流的传输功能.

1.1 卷积感知网络

在认知视觉信息通路中,原始视觉信息从视网膜外侧膝状核,V1~V4,经一系列连续处理,直到形成复杂的物体表征[19].视觉腹侧信息通路通常被认为是识别和处理与形状和颜色相关信息的部分[20-21].此外,一些生物抓取行为的研究表明,大脑倾向于将物体形状编码为非整体的、基于部分的格式[22].心理学和神经科学都表明,affordance与抓取行为有着密不可分的联系[23-24].因此,本文构建了一个感知网络模拟腹侧信息通路以affordance的形式编码视觉信息.

如图2所示,感知网络对物品图像进行卷积操作,分割出物品的affordance并输出对应类型.该网络以卷积层为基本结构.利用预先训练好的5个卷积块作为第1个编码块来提取目标图像的低层特征.然后,采用4个反卷积层[25]作为第2个编码块进行高层特征编码.图像中可区分的低层特征(低分辨率)通过第1个编码块学习,然后将这些特征语义编码到像素空间(高分辨率)获取图像中物体的affordance分类.为了恢复网络提取低层特征时丢失的空间信息,在高级特征编码过程中,利用跨连接融合第一个编码块不同阶段的空间信息来细化物品的affordance分布.本文采用了4个跨连接对4种不同分辨率的空间信息进行融合.为了将感知网络的结果转化为决策网络的可识别输入,使用不需要训练的后处理块提取出affordance的语义和像素坐标.

图2 感知网络结构Fig.2 Perception network structure

1.2 记忆图网络

海马体与记忆密切相关,海马体信息通路传递着各种与记忆相关的信息.海马体对于情景记忆的关键作用已经被神经心理学、动物模型、计算模型和人类神经成像[26-28]研究明确地确立了.计算模型表明,在接收到部分记忆线索后,海马体中的神经元会协调皮层目标部位相关记忆的恢复[29].因此,受到海马体神经元之间图形连接信息通路和检索记忆的功能的启发,建立了一个图神经网络作为记忆网络,实现记忆先验的搜索和推理.

一些与图相关的符号如下:定义了一个有向图,G=(V,E,R).式中V、E和R分别表示节点的集合、边的集以及关系的集合.设vi∈V表示一个节点,(vi,r,vj)∈E表示一条从vi指向vj的边,其关系为r∈R.在常识知识图中许多关系是普遍有效的,被认为是人类的常识.然而,对于机器人来说,这些关系很难理解和应用.为了利用有价值的常识记忆作为先验信息,使用一个称为记忆网络的图神经网络来学习常识图.记忆网络是基于一种图编码器模型:关系图卷积网络(relational graph convolutional network,r-GCN)[30]建立的.输入线索的触发下,利用图中的关系和节点,对已存储的记忆信息进行推理和搜索,并输出相关结果.在记忆网络中,使用r-GCN层来嵌入图中事实的实体(节点)和关系(边)(例如,三元组(drink,need,contain)).在记忆网络中,节点和关系用词向量表示.嵌入过程以关系学习的过程为例.在局部图邻域中进行操作.在网络训练中,使用了消息传递框架

(1)

图3 记忆网络处理信息过程Fig.3 Process of information processing by the memory network

(2)

经上述处理,记忆网络可以理解节点和关系表示的常识图,并在接受到部分记忆线索之后能检索相关的记忆.与直接使用知识库进行查询的方法相比,记忆网络使用了消息传递框架能有效地推理和学习记忆中的信息,使得记忆检索边的具有逻辑,更加准确.

1.3 贝叶斯决策网络

皮质柱是大脑动力学和皮质信息处理的重要决定因素[32].作为感觉处理或运动输出的基本功能单元,皮层柱在皮层的学习和发育中起着重要作用.6层细胞构成皮层柱的垂直方向.皮质柱的每一层都包含不同的细胞类型,并在水平层上通过突触连接[33].本文假设皮质柱中信息处理或是一个编码和解码的过程,它会产生一些潜在的特征表达或决策.

本文试图研究和模拟人类潜在的决策过程,以执行完备的抓取动作.模仿人们的思维方式,将记忆作为先验信息,视觉感知作为观察信息,与任务相关的信息作为约束,帮助机器人实现合理决策.值得注意的是,人类的行为是由大脑中产生的任务驱动的,因而行动是有目的的.因此,在决策模型中加入与任务相关的约束是有必要的.该决策方法符合贝叶斯理论的思想.故本文基于贝叶斯理论建立了决策网络.

CVAE[34]方法将高维输出空间的分布建模为以输入观测为条件的生成模型,受该方法的启发本文使用了一个条件编码解码去实现决策.定义y表示抓取的决策结果.决策网络的目标是在给定观测信息x、先验信息m和任务约束t的情况下,使y的条件对数似然最大化.网络的条件生成过程如图4所示.高斯隐变量z被编码并从先验分布pθ(z|x,m,t)中进行采样.输出y被解码并从分布pθ(y|x,z,m,t)中生成.直观地说,隐变量z允许网络对输出y的多个条件分布建模,这些条件分布代表可供抓取的潜在选择.然而,难以处理的隐变量z的边缘化问题,使得决策网络的参数估计具有挑战性.本文使用随机梯度变分贝叶斯框架[35]来解决这个问题.在SGVB中,对数似然的变分下界被用作替代目标函数.模型的变分下界为

图4 决策网络图模型Fig.4 Graphical model of the decision network

(3)

模型的经验目标为

(4)

式中:qφ(z|x,y,m,t)为识别网络用于估计真实的后验分布pθ(z|x,y,m,t),真实的后验分布pθ(z|x,y,m,t)表示当给定物品观测信息x、记忆m、任务t和标签y时产生的潜在抓取分布;pθ(z|x,m,t)在这里表示一个条件高斯隐变量z的条件先验网络;pθ(y|x,z(l),m,t)表示一个生成网络,z(l)=g(x,y,m,t,(l)),∈N(0,I),g(·)是一个使用了重参数化技巧[47]的可微函数;L表示样本数量.

在模型中,使用了多层感知机去建模识别网络、先验网络和生成网络.模型有与皮质柱一样的6层结构.训练时的网络结构如图5所示,在训练网络时,先验网络和识别网络分别得到的隐变量z,使用KL散度进行处理,目的是使得先验网络逼近识别网络.

图5 用于训练的决策网络结构Fig.5 Structure of the decision network for training

2 实验结果

本文关注的是给定操作任务时对象的可行性抓取,因此测试以下三方面能力是至关重要的:1)感知网络的affordance检测准确率;2)记忆网络的记忆联想能力;3)决策网络的决策能力.

2.1 数据集

基于Myers等[36]建立的UMD part affordance数据集对认知模型进行了评估.此数据集包含不同视角的105个工具的RGB-D图像,并提供了像素级affordance标签.这些工具共有17类,包含了7类affordances:grasp、cut、scoop、contain、pound、support和wrap-grasp(如表1所示).模型中的感知网络直接对UMD part affordance数据集进行处理.对于记忆网络,需要一个与任务,affordance和物品相关的抓取常识图作为记忆数据.但是,目前没有专门用于抓取相关的常识图,或者有类似的图结构数据但是其中包含了大量与本文研究无关的数据,导致无法有效地提取相关数据.因此,本文使用Neo4j图形平台建立了一个抓取的常识图,其关系如图6所示.图6中有140个节点、315个关系,包含3种类型的节点:任务节点、affordance节点和物品节点.节点之间的关系包括3种类型:need、found和has.

表1 工具的7种affordances描述Table 1 Description of the seven affordances of tools

图6 抓取常识图Fig.6 Common-sense graph for grasping

对于决策网络,本文创建了一个决策数据集.数据集有4个部分:观察到的affordance记忆数据、任务和标签.观察到的affordance是从UMD part affordance数据集收集的,记忆数据和任务数据是使用建立的抓取常识图进行创建的.数据集中的每个样本设计为包含观察到的affordance、任务、记忆的形式,并以单词的形式存储,如表2所示.数据集中有304 326个样本.在决策网络中,使用嵌入层将单词转换为向量.

表2 决策数据集中样本的组成部分Table 2 Compositions of some samples in the decision dataset

2.2 Affordance检测结果

本文在UMD part affordance数据集上评估affordance检测的表现.为了进行对比,将Myers等[36]和Sawatzky等[37]的结果作为基线进行比较.使用交并比(intersection over union,IoU)作为评价指标来评价affordance检测的准确性.如图7所示,本文的方法实现了更高的平均检测精度,在平均IoU方面比基于resnet的网络高出14%.在每类affordance的检测中,感知网络也取得了最高的IoU值.这表明,卷积下采样编码和反卷积上采样编码相结合的算法在UMD part affordance 数据集的affordance检测任务上表现很好.因此,感知网络对物品实现了以affordance为基元的物品分解,并且这种以affordance形式对物品实现原语理解便于后续决策网络处理感知信息.

图7 IoU度量的affordance检测结果Fig.7 Performance of the affordance detection with metric of IoU

2.3 记忆网络实现结果

为了帮助机器人理解抓取常识图中的节点和关系,训练了一个包含1个嵌入层和2个r-GCN层的网络.网络的输入是自建的抓取常识图,其中事实以三元组的形式表示,例如(pour,need,contain)和(scissor,has,cut).在嵌入层中,一个词向量的维度被设置为100.使用Adam优化器,将其学习率设置为0.01,并将每一层r-GCN的dropout率设置为0.1.同时使用了惩罚参数设置为0.02的L2正则化.对于每个测试三元组,其头部实体被删除,然后轮流由字典中每个实体替换同时计算得分,并将得分按照降序排列,得分最高的实体被选择作为最终的记忆输出.记忆网络最终的平均倒数排名(mean reciprocal rank,MRR)为0.77,并且hits@10训练后能达到0.97.结果表明记忆网络可以从向量的角度实现对节点和关系的语义理解,并可以根据记忆线索对相关节点或关系进行关联.

2.4 决策网络实现结果

在训练中,决策网络的输入是关于任务、记忆、观测affordance和标签的词语,并使用100维的嵌入层来处理这些输入.决策数据集被随机分割成训练集(80%)和测试集(20%).该决策网络的测试准确率为99.99%.测试结果表明,该网络成功地区分了不同的任务,并能够理解对象的affordance.使用6项常见任务测试了5种不同的物体,并将决策结果在总结在了表3中.决策结果的表示形式为:A/B,其中A表示任务所需要的affordance,B表示要被抓取的物品affordance.值得注意的是如果B为[none]则表示该物品不能满足任务需求,因此选择不去抓取该物品.结果表明,该决策网络能够做出准确的决策,即正确地判断一个物品是否可以被操纵执行输入的任务.如果物品不具有操作任务所需的affordance,则选择不去抓取该物品,并给出任务所需affordance的建议;否则,输出将被抓取的物品affordance来指导抓取动作.

表3 决策网络结果Table 3 Results of the decision network

2.5 认知模型评估

认知模型将3个训练好的网络融合在一起,并使用语义向量的形式传递信息.为了验证认知模型,在测试集的各类型物品中分别选择了15张图片进行测试,总共使用255张照片作为素材进行抓取决策推理.为了保证物品affordance的完整性,选择的图片中物品的affordance均被完整地展示.如表4所示,模型实现抓取决策的准确率为99.8%,除了其中的2个错误决定:抹刀在挖的任务中和锯在敲击的任务中各出现了一次错误决定,查验各环节结果显示是因为模型在感知部分输出的affordance产生了误判,以至于输出错误的affordance类型.为了输出给决策网络使用,在感知网络的后处理部分使用了超参数作为像素阈值,对分割出的affordance像素数量进行了约束,以保证网络输出的鲁棒性.大于该阈值则输出该affordance类型,否则不会输出.上述超参数的设置会过滤掉感知网络中误判的affordance(误判像素数量小于阈值),提高了输出的准确性,同时也会使得部分像素较少的affordance特征被过滤,因此输出了有缺失的affordance种类,直接影响了后续的决策部分.认知模型的决策结果可视化如图8所示.橘色框左边的表示输入的任务示意图,橘色框中的图片分别表示模型根据不同任务得到的抓取位置.黑色方块代表该物品不适合该任务,因此选择不去抓取.注意,在可抓取位置中,标记了一个6×6的像素块来表示初始抓取位置.准确率结果证明了认知模型实现了合理灵活的决策.认知模型以affordance的形式实现对物品的基元理解,并通过记忆数据将物品与任务联系起来,从而输出满足任务要求的抓取决策,为后续动作执行提供可靠的初始抓取位置.

图8 认知模型的决策结果可视化Fig.8 Visualization of the decision results of the cognitive model

表4 模型测试准确率Table 4 Test accuracy of the model %

3 结论

1)提出了一个机器人抓取决策的认知模型.认知决策模型受大脑中分区分块的功能结构的启发,由卷积感知网络(受视觉腹侧信息通路功能启发)、记忆图网络(受海马体信息通路功能启发)和贝叶斯决策网络(受皮层柱信息通路功能启发)三部分组成.模块化结构使认知模型具有很强的鲁棒性,3个模块的结构设计和模块之间的协调具有很强的可解释性.

2)建立了抓取相关的常识图和抓取决策数据集.在该模型中,将常识图中的物品属性、任务和物品编码为空间向量,以实现语义理解.对物品、任务、记忆间的关系进行建模,以决策抓取位置.

3)该模型对UMD part affordance数据集的抓取决策准确率达到99.8%.

猜你喜欢

通路物品决策
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
称物品
决策大数据
决策大数据
决策大数据
诸葛亮隆中决策
图画捉迷藏
找物品