APP下载

人形机器人,曙光将近?

2024-02-01朱秋雨

南风窗 2024年2期
关键词:人形赛道机器人

朱秋雨

在生成式AI爆发的2023年,有实力的科技厂商把一个赛道也带火了—人形机器人。

2023年12月,特斯拉发布了Optimus 2.0人形机器人演示视频。视频里,它不仅拥有灵活的手指,还能做瑜伽、夹鸡蛋。

这些进步让外界惊叹。要知道,人形机器人在过往,连加速跑、灵活跳跃都会让科技圈振奋。

小鹏汽车董事长何小鹏也在2023年10月“秀”了一把自己的实力。他在新车发布会上,宣布自研出了一个可以敏捷行走、会踢足球的类人机器人PX5。

那一天,他兴奋地对台下的观众谈畅想:“等我老了,机器人可以跟我一起打掼蛋,帮我换尿布了。”

听上去,科幻电影的场景很快就能在现实中实现了。但这些美好设想,在21世纪初,机器人产业飞速发展的日本、美国都提出过。那时也有人以为,智能机器人即将“占领”世界,重复、无聊的人类劳动,马上将被机器人取代。

事实倒是,发展了20多年,那些人类畅想的智能机器人,仍然没进入普通人的生活。

2023年,当人形机器人再度成为投资人眼里的大热点时,一个问题仍存:为什么产业发展了20多年,现在的机器人,看上去仍像智力不高、只能完成单一功能的机器。

为此,我去参观了两家国内年轻的机器人公司,分别与公司创始人、大学教授聊了聊这个新赛道。关于机器人如何发展的共识并不多,但一个可见的结论是,AI大模型正颠覆产业,催促众人争相追逐前方的不确定性。

对深圳市乐聚机器人董事长冷晓琨及同事的采访,经常会伴随嗡嗡的机械背景音。

冷晓琨刚满30岁,喜欢卫衣配球鞋,说话爽快,走路也快。2016年,在哈尔滨工业大学就读博士时,他与十余位校友在深圳创立了这家机器人公司。

如今,他们将人形机器人迭代了4版。最新的这一版,约1.4米高,重量约45公斤;有凶猛的胸肌以及与之协调的粗壮双腿,有点儿像高达。据称,这是“国内首款可跳跃,可适应多场地行走”的人形机器人。

他们叫它,“夸父”。

我去到时,“夸父”们正被开膛破肚,吊在天花板垂下的两条线上,由工程师做最后的调试。它们即将交付,订购者主要来自中国高校科研团队。

幕后研发人员告诉我,当下的难点是,如何让机器人做到走路既快又稳,同时行动灵活。

这是一个对人类而言非常简单的行为。但放到人形机器人领域,要想稳步行走的难度大。这是因为,人形机器人首先是双足机器人。而一些人体的运作规律,连人类自己都没完全搞清楚。比如,我们的大小脑是如何与四肢配合、稳住重心,让我们自如行走、旋转跳跃的?这些盲区让机器人的发展举步维艰。

更别提其中面对的各类工程问题。从续航能力看,目前人形机器人多数只能续航1—2小时,未来预测可以提升到20小时。而对比持续工作7—8小时的工人而言,人型机器人远未达到可用的程度。

尽管难度摆在面前,眼下,这却是受众人瞩目的赛道。

“人形机器人,2023年可以说是产业化的元年。”冷晓琨兴奋地对我说。

从2021年马斯克宣布造人形机器人Optimus开始,冷晓琨明显感到,越来越多人与钱涌入了昔日冷门赛道。

接着,2023年,ChatGPT和生成式AI的爆火,再次催熟了这个产业。人们开始相信,未来的机器人要长得像人,要有包括两只脚的四肢,这样它可以爬楼梯,也可以适应各种地形条件和生活场景。

国内最出圈的创业者,是有250万粉丝的B站UP主稚晖君(彭志辉)。他在2023年宣布从华为辞职,创业做人形机器人。仅仅用了10个月,“稚晖君”的智元机器人已经估值约40亿元。

一切的火爆與追随,都源于一种全新的相信—在软件层面,当AI可以被训练得像人一样智慧时,这一进步说不定也能被转移到它的实体—机器人上。

“从2016年我创业做人形机器人时,我就一直被别人问,‘这玩意到底能干什么?’”冷晓琨回忆。

他曾在回答这个问题时一度语塞—个人的技术信仰很难回应外界的疑问。“现在,不用我说,大家都能知道它可以干什么了。”

“90后”邱迪聪也在2023年,从某自动驾驶公司技术副总裁(VP)职位离职,加入创业大军。

新公司在2023年4月成立,坐落在香港科技大学(广州)的实验室。地方不大,但透明敞亮。

对比做人形机器人,邱迪聪选择了从更简单的移动机器人入手。他目前的机器人demo,有一只机械臂,专门服务于超市补货场景。表面看,这个机器人的外观与过往的工业机器人无异,但邱迪聪兴奋地告诉我,机器人的发展范式即将发生改变。

他做的雅可比机器人,最大的亮点是可以听懂人的语言,与人进行交互并完成简单任务。

“这也许是(创业)最好的时间点。”谈及有点冒险的决定时,他非常坚定地说。

“更早以前,做机器人连技术通路都没有,前路充满不确定性。”而过去这一年AI的智能涌现,让业内人士包括邱迪聪有了奋身前进的方向。

他在全球知名的机器人院校—卡内基梅隆大学博士毕业,非常清楚这些年的变化。要想弄清楚现在,他在白板上画了一张思维导图,和我解释过去。

传统的机器人包括三个部分:感知、决策、执行。这些分别对应着人类的感官、脑和肢体三部分。

过去,要想驱动机器人行动,工程师必须使用闭源数据集,训练机器人感知。同时,程序员还要预先写好大量代码,帮助机器人决策和规划,最后,驱使机器人行动。

这个办法耗费大量人力,机器人能做的事还十分有限,经常被嘲笑为“人工智障”。

如今,它被一套新的思路颠覆了。邱迪聪说,AI涌现智能后,业内想将大模型(LLM)理解语言和推理的能力搬到机器人的大脑(决策)系统里。

这种能力是什么?

“人面向没见过的东西,不会傻愣或者死机,而是进一步做很多猜想、推理,这叫开放认知。”他解释说。

开放感知加上开放的决策能力,结合在小脑(执行)部分的创新,给机器人行业带来了新变化。

“这是一套新的技术路线,让机器人从封闭的感知走向全开放的世界。这在过去是不可能发生的。”邱迪聪表现得依然很兴奋。

新思路让机器人产业盎然向上,但深耕产业多年的人都清楚,眼下像登山般终于见到了前方的一座山峰,但究竟怎么走、怎样更快抵达,一切仍是未知的。

邱迪聪在香港科技大学(广州)的公司摆了两排货架,上面放着可乐、雪碧、维他奶等饮料,就像一个简易的便利店。平日里,白色的、拥有底座的机器人在“便利店”里来回熟悉环境,听人的语言指令,取相应的货物。

他们的目标是,训练出区别于工业机器人的智能体。“以前的工业机器人,一般只会识别一种零部件,”邱迪聪说,“人也不敢轻易靠近,因为可能引发机器人的错误识别。”

但现在,他们想要的是智能机器人。这意味着,机器人时刻能理解和认知环境,“人看到它也不用绕路走,它可以自己规划路线、解决问题”。

只是,理解和认知环境—这一对人类极自然的事情,却是机器人领域最大的难题之一。香港城市大学机械系助理教授殷鹏用自动驾驶汽车类比,和我说明造机器人的难度。

走在马路上的自动驾驶汽车,经常面对的是从一地到另一地,从A点到B点的问题。但要做一个走入人类生活的机器人,需要认识的环境复杂程度远高于路面。

殷鹏举例和我解释:“不同的家庭,它的结构、装修风格完全不同,光照条件也非常不同;室内环境和室外又不一样;屋子里面的动态障碍物,也会干扰机器人的判断。”

这些难题之所以在机器人行业存在多年,还有一个更重要的前提—机器人不具有像人类一样的常识。人类很多天生的能力,在机器人这荡然无存。

殷鹏把这些能力概括为感性认知。他说,即使当下大模型可以通过拍照、多模态等方法,告訴机器人眼前为何物,但机器人始终无法理解真实的空间。

“比如我距离你近或者远,它没有概念;一个东西的硬度、刚度,它都没有感觉,只能依靠数据的标注。”殷鹏说。

如果再概括地说,机器人缺的是一种“非数据化的、抽象的概念的理解,也就是对这个世界的理解”。

这也是为何,2023年,无论在业界还是学界,都在为ChatGPT等生成式AI心潮澎湃。“通过与ChatGPT交流,我们确实感到它有智力,这不是单单线性公式可以实现的。”殷鹏解释。

因此,学界想把ChatGPT的智能更往外扩,让它跟物理世界建立关联。

邱迪聪也认可这样的思路—用AI驱动实体机器人认知世界,也就是学界常说的“具身智能”。

但真正投入这片蓝海时,他发现,如今核心的问题来自整个系统的协调性。那就是,即便他们成功让机器人拥有了像ChatGPT一样聪明智慧的大脑,但如何让大脑与机器人的感知、执行的两个部分衔接,又是另一个难题。

这便是AI在虚拟世界和物理世界的能力差距。

比如,“今天,如果你想吃雪糕了。”邱迪聪和我举例,“你可以告诉ChatGPT说,你给我拿雪糕,ChatGPT能听懂。”

“但问题是,它要如何驱动其他部分,真的去打开冰箱给我拿雪糕呢?”

面对上述核心且关键的问题,各家公司有各自的解法。

走在最前沿的马斯克人形机器人Optimus,提出了 “端到端”(End to End)的模式。比起将机器人模块化地分为三部分,特斯拉更倾向于将这三部分当做一个整体,输入原始数据就可以得出最终结果,相当于用数据引导行动。

这是一个风险性与实验性并存的激进方法。邱迪聪告诉我,“端到端”模式最大的特点,那就是“黑匣子”。当AI模型操纵整个系统,“端到端”地输出结果,一旦遇到问题,“很难找到出错的原因”。

这也是特斯拉等人形机器人公司一直以来面临的争议。英国《每日邮报》在2023年底爆料称,美国得克萨斯州特斯拉汽车的工厂,曾发生一起残暴血腥的事故,一名工程师遭到机器人袭击。一位代表特斯拉合同工人的律师还揭露,该工厂的受伤人数被瞒报了。

殷鹏也认为,如同自动驾驶当下的处境,安全性会是人形机器人落地的一大阻碍。

这里面,难度指数取决于场景的复杂程度。

“把机器人放在无人的工厂里,会是一个难度量级,而把机器人放在有人的工厂,又是一个量级,放在生活家居场景,又是更高一层的难。”

他认为,当机器人最终形态是协助人类、陪伴人类时,我们不能忽略它是具有大扭矩的机器。“当你身边充斥机器人的时候,如果程序出现紊乱,对人动粗,或者黑客黑进去远程操纵它,你觉得一般人能抵抗得了吗?”他问我。

一位机器人赛道投资人表示,她在观察这一新兴领域时,会着重观察公司在细节上的交付能力,否则没有客户愿意为产品买单。这主要是因为,硬件在场景解决上的容错率很低,“这可能是涉及硬件的AI和纯软件AI最大的区别”。

也因此,包括冷晓琨等上述受访业界人士对我表达了一个共识—当下距离具身智能机器人充斥人类生活的未来,还有一段距离。各家机器人公司如今准备从简单且有需求的场景切入,慢慢迭代,再逐渐让机器人进入复杂的场景,与人类共存。

冷晓琨将他的人形机器人发展之路分为三个阶段,预计5年内实现。首先,乐聚将产品交付给高校,接下来会切入特种、物业等简单场景领域。第三阶段,让复合型的机器人进入家居场景。

他为这个美好的未来提了一个口号:“让机器人像博士一样聪明,像家电一样便宜。”

殷鹏却认为,等待技术成熟,至少仍要10年左右。其中的一个关键,便是真实场景的数据十分稀缺。各家公司只能在实际落地中,积累更多数据,不断迭代技术。只有这样,机器人才能更好地处理现实生活中极端的长尾场景(corner case)。

好消息是,对创业公司和追赶者而言,前方的赛道胜局未定。谁都有超越的可能。

“数据虽然重要,但光有佐料也不行,” 殷鹏说,“巨头特斯拉有数据归有数据,但还缺一个高级的大厨,把这些数据用起来。”

“这需要一套非常合理且优雅的算法。”他告诉我。

现在,这个优雅算法,大家都在尝试突破。

猜你喜欢

人形赛道机器人
世界上走路最快的人形机器人
自制冰墩墩不能滑出“法律赛道”
科创引领,抢跑新赛道
征服蒙特卡洛赛道
会变形的人形机器人
人形蔬菜
无人驾驶,先上赛道如何?
机器人来帮你
认识机器人
机器人来啦