APP下载

智能冰壶机器人实践教学平台设计与建设

2022-08-09李丹丹

关键词:冰壶半圆冰面

姜 宇,金 晶,李丹丹

(哈尔滨工业大学,黑龙江哈尔滨 150001)

我国通过实施《高等学校人工智能创新行动计划》,积极推进“新工科”建设,重视人工智能与计算机、控制、数学、物理学等学科专业教育的交叉融合,形成“人工智能+X”复合专业人才培养模式[1]。对标国际一流大学自动化类专业的人才培养质量,建立人工智能与自动化复合专业实践教学体系,搭建理论与实践应用的桥梁,培养学生的创新意识、创新素质和创新实践能力,以适应国家新工科战略背景下形成符合工程教育规律和时代特征的新培养模式[2]。

面向新工科创新人才培养,人工智能与自动化复合专业的教学实验平台不仅需要涵盖自动化专业“自动控制理论”“鲁棒控制”“自适应控制”等课程的实验教学内容,还需要兼顾人工智能专业的机器学习、深度学习、强化学习等新内容。

冰壶比赛被称作“冰上的国际象棋”[3],是对智力要求很高且需要团队合作的冬奥会热点赛事。冰壶比赛过程包含典型的人工智能与自动化专业相关技术内容,具体包括:基于赛前试投冰壶球的冰面摩擦参数辨识技术;基于对手历史战绩的博弈策略规划技术;基于高稳定性投掷的冰壶球初始速度控制技术;基于视觉信息的冰壶球滑行速度实时估计技术;基于擦冰动作的冰壶球落点位置控制技术;基于场上冰壶球布局变化的比赛策略动态博弈技术[4]。可见,特别适合以冰壶比赛作为背景自制人工智能与自动化专业的综合性实验平台。

通过研究具有开放性、扩展性、兼容性和前瞻性的冰壶机器人教学实验平台,可以形成贯穿自动控制理论、运动控制、数字图像处理、神经网络、博弈论等人工智能与自动化专业的一体化实验教学内容,满足教学实验平台的高阶性、创新性和挑战度要求。学生依托该实验平台能够更加直观地理解复杂环境下多运动体动力学建模方法,研究相关深度学习视觉检测算法,通过强化学习算法训练投掷与擦冰控制策略来赢得比赛任务,为学生设计的仿真算法提供实物验证平台,助推新工科人才培养实践创新平台建设。

一、冰壶球运动的动力学建模

冰壶场地具有凹凸不平的冰粒,冰壶球在自由滑行时无法保持高精度的直线平移运动,通常采用旋转冰壶球的方式来产生弧线型的平移运动,保证投掷后冰壶球运动轨迹和落点位置的准确度和稳定性,称为“旋进”[5]。冰壶球在冰面上旋转——平移运动很难建立高精度动力学模型,这是由于冰壶球旋转所带来的摩擦生热融化冰面,在冰壶球和冰的接触面之间存在液态水薄膜,引起冰壶球不同位置受到的摩擦力不同,产生侧向偏移,因此冰壶球的平移运动不是直线,而是具有一定“曲度比”的弧线。冰壶球运动的曲度与初始速度、角速度和摩擦系数等参数相关,建立冰壶球在冰面上运动的高精度动力学模型,并对冰壶球所受到的摩擦力进行相关测量和分析,对于理解冰壶运动、比赛和训练策略以及制冰都具有重要价值。

为了建立更加准确的动力学模型,将冰壶球运动过程分为三个阶段。第一阶段,当冰壶球以最大速度滑行时,前导外侧半圆处于干摩擦状态,引起冰面融化。前导半圆的内侧主要处于湿摩擦状态,如果冰壶球运动足够快,薄层水膜在尾随半圆的内侧主要处于湿摩擦状态。第二阶段,尾随半圆还未追上前导半圆融化的水膜便被冻结。前导半圆的外侧仍然是干摩擦情况,引起冰面融化,前导半圆的内侧处于湿摩擦状态。尾随半圆的内侧处于干摩擦状态,引起冰面融化,尾随半圆的外侧处于湿摩擦状态。第三阶段,当冰壶球的移动速度足够慢,冰壶球和液体之间的黏附力能够将一些液体加速到冰壶球的速度,然后在冰壶球旋转时将液膜拖曳到冰壶球周围时出现本阶段。预计这种情况水膜黏附力会在冰壶球周围发生,最明显的影响将出现在冰壶球的右侧,即旋转和平移速度平行的位置。

冰壶场地的表面由许多被称为“冰卵石坑”的圆形突起和伴随空洞组成,这种不光滑冰面使得冰壶球在给定的初始旋转下,运动轨迹会产生大小不一的曲度,曲度的大小并不与旋转速度直接相关,且旋转运动可能在平移运动之后结束,因此,冰壶球运动的动力学模型与通常光环平面上简单直线/旋转运动的动力学模型完全不同。冰壶球在滑行过程中,通过底部中空、半径12.5cm、宽度3~6mm 的薄环与冰面接触,与冰卵石坑有着更加复杂的摩擦关系,形成非常复杂的物理过程。

下面基于干湿摩擦混合的方式建立带有旋转的冰壶球运动模型。将干摩擦力描述为:

其中,M是冰壶质量,g 是重力加速度,μ 是动摩擦系数,θ 是冰壶球薄环旋转的角度。

将湿摩擦力描述为:

其中,u(θ)是相对于冰的净速度,k 和φ 是根据擦冰过程设置的系数。湿摩擦力随着速度的增加而增加,类似于流体中运动物体的阻力增加。

当冰壶球经过冰层时,由快速擦冰运动产生的动摩擦和由冰壶压力导致冰层融化的湿摩擦在不同运动状态下互相切换,共同作用产生冰壶球的各种运动。该干湿摩擦力混合模型的可行性表现为:(1)当遇到固体冰时,动力摩擦导致冰融化,其结果是冰壶球既经历了干摩擦,也经历了湿摩擦,其接触区域穿过冰上的液态水薄膜;(2)可以建立湿摩擦与运动速度之间的依赖关系,以及建立互相切换的状态关系;(3)冰壶球在其运动的最后阶段能够将一些液体薄膜部分地拖曳到冰壶球底部周围,从而可以准确描述冰壶球增强的旋度。

二、冰壶球运动信息估计

冰壶场地长44.5 米,宽4.32 米,冰场的空旷性和冰面反光性等复杂环境给冰壶机器人的精确运动检测和跟踪等带来了挑战性问题。基于冰壶场地的图像识别技术进行冰壶球定位,可以为投掷与擦冰控制提供反馈信息[6]。针对冰壶球的形状、色调特征和定位测量要求,采用工业级CCD 摄像机获取图像,经过基于色调的图像分割进行目标识别和粗定位,并通过传统的提取边缘和椭圆模板拟合等方法获得目标精确位置,正确识别物体相对于标线到达毫米级的位置变化[7-8]。

考虑冰壶机器人目标跟踪过程中可能存在人或机器人对冰壶球产生遮挡的情况,被遮挡下的冰壶球外形会频繁地发生变化,冰壶球的识别和定位难度都会大大增加;冰壶球与机器人摄像头距离不同时在图像中的大小也会发生变化,距离摄像头越近在图像中就越大,反之就越小,该问题可以被归结为目标的多尺度问题;如果在拍摄过程中摄像头的角度发生了变化,先前测量的结果相对当前角度下的正确结果会产生偏移,这也是冰壶球跟踪过程中需要克服的关键问题[9]。

采用SiamRPN++网络作为冰壶球目标跟踪方法。首先该网络在训练时使用随机偏移的数据增强策略,缓解网络因为破坏了严格平移不变性带来的影响,消除了位置偏见;其次使用多层融合的策略,选择网络最后三个卷积层的输出进行融合;最后提出按深度的互相关计算方法,在减少网络参数及计算量的基础上实现更好的跟踪效果。

SiamRPN++是一个统一框架的、可实现端到端训练的视觉追踪网络,可以应对冰壶球被遮挡导致的外观特征频繁发生变化的问题,能够根据被遮挡的情况动态调整目标边界框的大小,还可以对深层网络的特征图进行多层融合,有效解决目标的多尺度问题,因此能很好地应对所采集的冰壶球大小的变化。

为了易于在嵌入式设备上部署,以MobileNet 作为SiamRPN++的骨干网络,在GPU 上的运行速度能达到70FPS。经实测,在1080Ti 上的速度在45FPS 左右,该速度完全能够实时处理摄像机拍摄到的视频,并在跟踪精度和稳定性方面满足基本需求。

三、冰壶机器人投掷与擦冰控制策略

冰壶机器人投掷和擦冰控制系统模型具有参数不确定性、控制输入约束的特点,很难通过古典或现代控制理论方法计算控制律,采用深度强化学习方法进行控制算法训练,实现高精度的落点位置和速度控制是冰壶机器人投掷和擦冰控制系统设计的必然趋势[10]。

冰壶球投掷与擦冰控制的强化学习需要多个智能体从连续空间中选择出最优控制策略[11]。近年来,深度强化学习已成功地应用于具有离散动作空间的博弈[12],但离散动作的强化学习模型不适合为冰壶机器人设计投掷与擦冰策略,在冰壶机器人比赛过程中,动作的微小变化会显著影响结果。采用神经网络与蒙特卡洛树搜索相结合的强化学习框架,将场景感知与策略决策进行融合。神经网络的训练为离线过程,基于专家数据以及自我对弈生成数据训练策略函数与价值函数;蒙特卡洛树搜索为在线过程,基于当前比赛状态选择下一步动作,考虑到不确定性影响,在蒙特卡洛搜索中引入核回归。

通过监督学习训练动作策略输出所有可能动作的概率分布。该策略使用随机梯度上升法对随机采样的状态动作对进行训练,实现在状态中选择专家动作的可能性最大化。

使用自我对弈数据进一步训练动作策略。在每个时间步骤,按照使预期得分最大化的方向,通过随机梯度上升来更新动作策略。

其中,r(st)是奖励值,从当前时间步骤t 直到本局比赛结束的得分总和。

得分函数输出当前状态s 的得分值。状态s 的预期得分是由状态s 使用策略p 到本局比赛结束累计奖励的平均值。

该得分函数可以通过得分估计量来近似。该得分估计量由状态报酬对使用随机梯度下降法训练,以最小化预测值与真实得分之间的均方误差。

在算法实现过程中,将冰壶机器人所处的连续动作空间进行离散化。确定性离散化过程会在策略评价和策略改进中产生巨大的偏差,通过随机连续行为搜索,取消确定性离散化的限制,在具有连续动作样本的物理模拟器中进行局部搜索。采用KR-UCT 的Monte Carlo 树搜索方法,通过核回归和核密度来估计连续行为空间中的得分,并利用邻域信息有效地选择和扩展节点。给定一个动作,根据附近的值估计得分的置信上限:

代表期望值va与每个动作a 的访问次数na的单边置信区间,常数C 是折中系数。

通过上述设计的策略—得分网络来得到给定输入状态下的动作概率分布和期望得分。在监督训练中,神经网络的训练数据直接从冰壶机器人自我对弈的模拟比赛中获得。利用策略网络与价值网络,以基于核回归的蒙特卡洛树搜索算法选择动作,该过程考虑冰壶击打具有不确定性情况下,探索和调整连续空间中的控制策略。

四、结论

将人工智能技术、机器人控制技术与冰壶运动技术相结合,通过研制智能冰壶机器人实践教学平台,以人机对弈、机机对弈的方式设计人工智能与自动化专业的相关实验教学内容,适应新工科对人才培养的实践创新能力的要求,为组织全国大学生冰壶人工智能挑战赛奠定基础。

猜你喜欢

冰壶半圆冰面
冰面下
冰面上
半圆的周长就是圆周长的一半吗
在“冰立方”里推冰壶
在天然冰面上滑行
找冰壶
冰面精灵
冰壶运动员心理障碍的克服
半圆周长和圆周长的一半
有关半圆的几个结论及应用