斯坦福开源的家用机器人!Transformer 架构驱动,由华人开发!
在科技领域,时不时就会出现一项突破性的成果,彻底重塑我们对可能性的认知。 近日,斯坦福大学、伯克利大学和谷歌 DeepMind 团队合作推出一款家用机器人,名为"Mobile ALOHA"。 乍一看,"Mobile ALOHA" 似乎只是一个普通的家庭助理,但很快你就会发现它的功能远不止于此。这款 AI 能够执行广泛的家务任务。


在技术细节上,Mobile ALOHA 继承了原始 ALOHA 系统的优点,即低成本、灵巧、可维修的双臂远程操作装置,同时将其功能扩展到桌面操作之外。 在模仿学习方面,Mobile ALOHA 利用了 Transformer(大型语言模型中使用的架构)。最初的 ALOHA 系统使用了一种名为 Action Chunking with Transformers (ACT) 的架构,它将来自多个视点和关节位置的图像作为输入并预测一系列动作。 另外,得益于生成模型的成功,MobileAloha 可以快速从人类演示中学习,而且它可以只通过 50 次的演示就能学会一件事,合作训练可以提高成功率高达 90%。
生成式 AI 与机器人技术中的未来
Mobile ALOHA机器人的优秀性能,离不开目前一些大模型关键技术的加持。具了解生成式 AI 在具身 AI 和机器人研究中扮演两个独特角色:
1.数据/经验生成器:生成 2D 图像、视频、3D 场景或 4D(3D + 时间)等训练机器人所需的语料。鉴于现实世界中的机器人经验(数据)极为珍贵,生成式 AI可以被视作“学习型模拟器”。我坚信,没有模拟的训练和测试,机器人研究是无法大规模进行的。
2.自监督学习架构:生成机器人未来可能观察到的感官数据,与实际观测进行比较,作为一种无需标注的学习信号。
机器人学家还发现,大型的视觉-语言-动作模型可以被训练用来增强机器人的感知能力,并控制其手臂和腿部的动作。目前 生成式AI 对机器人技术的各个领域,从模拟到设计,都将产生革命性的影响。例如: 模拟:模型将通过构建场景、创建环境和生成资产来加速模拟开发,缩小 3D 技术艺术家和开发者之间的差距。生成式AI 生成的资产将被广泛应用于数据合成、机器人技能训练和软件测试。多模态人工智能:基于 Transformer 的模型将提升机器人理解其周围世界的能力,使它们能在更多的环境中工作,并完成更复杂的任务。
机器人(重新)编程:机器人将具备更强大的能力来用简单的语言定义任务和功能,使它们变得更加通用和多用途。
设计:创新的机械设计将提升效率,例如在末端执行器的设计上。
Mobile ALOHA的出现无疑给家务机器人市场注入了一剂强心针,虽然现在还不完善 ,但正如 加州大学伯克利分校的Ken所言,家务机器人的市场是广阔且必须:“我预计,未来十年中,我们将看到更多负担得起的家用机器人,它们能够协助我们进行日常整理,比如捡起地上的衣服、玩具和垃圾,并将其放置到指定位置。正如现代的吸尘器,尽管这些机器人可能偶尔会出错,但它们将为家庭提供的便利,尤其是对于父母和老年人,将大大超过它们的局限性。”
租!GPU云资源 新上线一批A100/A800 运营商机房,服务有保障



评论