"人形机器人太卷了!"2024年世界人工智能大会的展厅里,时不时就会听到从业者这样的感叹。
大模型的概念才火了一年多,很多人便迫不及待地把目光投向了人形机器人,视之为通往AGI(通用人工智能)的必由之路。
去年的人工智能大会上,人形机器人还难觅踪影,但是到了今年,众多机器人企业已然占据了展会的半壁江山。展馆入口处"十八金刚"的集体亮相,更是吸引大量观众驻足。
不过,相比于外界热炒的"具身智能元年",从业者的态度大都冷静得多。在多位专家看来,具身智能的训练难度,要远远大于大语言模型。而人形机器人的落地应用,目前也仍然局限于较为单纯的工业场景。
国产机器人本领如何?
除了数量极多之外,今年参展的国产机器人类型也相当多样,既有与真人身高相仿的双足机器人,也有侧重负重能力的外骨骼,以及轮式机器人、机器狗等。
这款极其逼真的人脸机器人,显然是为了克服"恐怖谷效应"。
在展厅内,不少机器人也现场进行了能力展示。但是平心而论,它们的运动能力相比于过去几年并没有质的提升。
来自宇树科技的这款机器狗,能够现场表现空翻等技巧,引发阵阵惊呼。
但我们在现场也看到,有些品牌的机器狗在面对稍微复杂的场景,例如上下台阶时,偶尔也会失误。
对于双足机器人来说,受限于运动能力,下台阶的步伐与真人存在明显差异。
经典的脚踢机器人环节,工作人员的力道也较为温柔。
客观来说,目前人形机器人与真人还有相当大的差距,很难说有什么实际的应用场景。即使早已名声在外的特斯拉"擎天柱"(Optimus)机器人,此次也只做了静态展示。
而真正体现出技术进步的,更多还是应用于工业场景的机械臂。
例如,穹彻智能的机器人,这几天给不少观众喂了黄瓜。
给黄瓜削皮、叠衣服,这些技能的关键在于机器人对于空间的理解和力度的拿捏。尤其是叠衣服,这件对于人来说平平无奇的小事,至今仍然是机器人面临的高难挑战。
由于衣服是柔性物体,尤其揉成一团之后相当于无数多个面的多面体,机器人能够面对随机场景,自主判断折叠的方向和力度,体现了深度学习技术的前沿进展。
穹彻智能CEO、上海交大计算机系的卢策吾教授,还展示了用这款机器人刮胡子的视频,令不少专业观众印象深刻。
银河通用机器人(GALBOT)也在现场演示了抓取任意形状物体的能力。据介绍,银河通用的机器人今年有望与美团合作,部署到无人药店等实际场景中。
物理世界的训练难题
让机器人学会刮胡子,意义有多大?答案取决于你对机器人抱有多大的期望。
从本质上来讲,这体现了机器人对于物理定律的掌握,这是当前大语言模型很难做到的。这也是为什么具身智能被视为通往AGI的必经之路。
卢策吾教授关于柔性抓取的论文,曾获得机器人领域的国际顶会RSS 的最佳系统论文提名,这是中国团队历史上首次获得这一成绩。
可以说,刮胡子这件事已经代表了中国和全球机器人领域的领先水平。在工业场景,穹彻智能正与新希望、海天等企业合作,将类似能力用于食材加工。
但如果以AGI为标准,当下的机器人还差得很远。
与AGI的区别在于,像抓取、叠衣服、刮胡子这样的技能,被穹彻智能称为"原子技能",而每一项原子技能都需要单独训练。
据穹彻智能现场工作人员介绍,一项原子技能的训练,需要先由人工借助VR技术,远程操作机械臂完成重复任务,积累一定数据后,机械臂才能通过深度学习获得泛化能力。
这意味着,每一项原子技能的训练,都要额外花费人力和时间。这显然算不上是通用智能。
目前,穹彻智能正致力于建立更大的原子技能库AnySkill。卢策吾教授指出,当统一模型具备20个通用技能时,可解锁200个商业化任务,100个通用技能则可以解锁10000个商业化任务。
但无论能掌握多少技能,只要技能还需要单独训练,AGI就无从谈起。
那么想要通过具身智能达到AGI,难度究竟有多大?
现在人们已经知道,人工智能产生的基础是scaling law(尺度定律),也就是说,参数量、训练数据和算力的持续提升会带来模型性能的提升,最终带来涌现。
相比于大语言模型可以使用全网的文本、图像数据,以及动辄十亿、百亿级别的参数量,目前机器人的训练规模还非常小。
有业内人士指出,早在2022年,谷歌就推出了机器人模型RT-1,能够执行700多个任务,成本是用13台机器人,在17个月中收集13万条数据。
更重要的是,具身智能所需要的数据是物理世界中的视觉-控制数据,相比于文本数据,获取成本极高。
人们最初获取数据是利用相机拍摄,后来发展到相机阵列:
再后来甚至是这样的:
卢策吾教授认为,如果说自动驾驶所需的训练数据是2D的,具身智能所需要的数据则是80D,空间不确定性更是自动驾驶数据的10000倍量级。
此外,与自动驾驶类似,具身智能需要的是多模态数据,除了视觉感知之外,更多训练者开始引入激光雷达。
上海科技大学的虞晶怡教授团队,还使用了陀螺仪来记录运动数据,以解决超大场景的感知难题。虞晶怡指出,想要获取足够多的数据,未来或许需要在每个人的衣服中都植入微型陀螺仪,由此产生的成本同样不可忽视。
物理世界中数据来源的难题,成为本届人工智能大会上行业人士探讨的焦点。如果不能跨越这道门槛,具身智能的scaling law就无从谈起。
通往AGI之路
为了应对现实世界的数据难题,研究者也在做出新的尝试。
卢策吾团队的思路是将数据简化。他指出,人脑在进行决策的时候,其实也不需要用到非常庞大、精准的感知数据,而是下意识做出一个判断,只要大致趋势正确就可以,后面随时调整。
因此,他们让数据回归到与自动驾驶类似的点阵云,极大压缩了图像体积,并引入力量的维度,建立力位混合的决策,使得数据复杂性大大下降。
此外,用仿真数据替代真实数据,能够大大降低数据成本。
银河通用创始人王鹤认为,当下真正可以实现规模化量产的数据,就是合成数据。过去几年间,王鹤团队建立起从物体、传感器仿真到数据标签生成的全方位合成方法,先以合成数据进行训练,再向真实世界迁移。
王鹤指出,以机器人灵巧手抓取为例,当训练量为10万次时,抓取成功率仅为58%,而十亿次训练可以做到86%的成功率。依托十亿级别的训练,银河通用机器人做到了对透明物体的抓取能力,而这样的训练量在现实世界中是无法做到的。
虞晶怡教授则展示了只用一张图片,就能生成物体三维模型的能力,这同样为仿真训练提供了便利。
除了构建仿真数据,开源合作也是扩大数据资源的有效方式。机器人领域的"国家队"--国家地方共建人形机器人创新中心在此次人工智能大会上发布了国内首款开源人形机器人"青龙",并宣布将建立对标谷歌Robot Farm的机器人训练场,目标在2027年部署超过1000台机器人。
尽管取得种种进展,但业内人士仍然强调,当下不宜对具身智能抱有不切实际的期望。
谷歌DeepMind首席执行官哈萨比斯近日表示,尽管目前的人工智能可以写作、画画、创作音乐,但以通用智能的标准来说,仍然没有达到家猫的水平。
梅卡曼德创始人邵天兰也直言,目前具身智能仅仅相当于蜥蜴的水平,还没有走出"二叠纪"。
邵天兰还谈到,对于AGI,人类只是有了一些零散的感觉,但很难说真正找到方向,人形机器人也未必是最优的路径。他指出,人类并不一定是很好的模仿对象,比如每个人拿筷子、跑步的姿势也各不一样,也会有一些缺陷,AI也可以在实践中找到自己的方式,未必一定要像人。事实上,AI在围棋上也只是以人类为拐杖,但最终抛弃了人类的思维方式。
优艾智合创始人张朝辉则提醒,认为机器人可以先在工业场景落地,然后过渡到通用智能的想法可能是错误的。因为工业领域要求的是高效率、低成本,但是通用智能的训练与工业要求背道而驰。
因此,多位行业专家都表示,要警惕当下具身智能过热的风险。邵天兰指出,在过去十多年中,机器人行业已经经历了多次起落,如果不专业的资本盲目进入,对行业发展未必是一件好事。