智元曝光「机器人大模型」，但真正的核心，并不是机器人！

法援小能手 · 昨天 22:31

3 月 7 日晚，智元机器人联合创始人「稚晖君」（彭志辉）在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话，迅速引爆全网，阅读量飙升至 10 万+。

结果，3 月 10 日上午，智元机器人就揭晓了谜底——Genie Operator-1（GO-1），智元首个通用具身基座大模型亮相。视频中，机器人可以烤吐司、煮咖啡、送早餐到你的手上，完全不成问题。官方宣称，GO-1 不仅具备强大的泛化能力，还能在极少数据甚至零样本的情况下，迅速适应新场景和新任务。

早在 2024 年底，智元就推出了 AgiBot World，一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」，GO-1 才能在短时间内实现高效训练和广泛泛化。可以说，AgiBot World 是 GO-1 背后的「隐形英雄」。

那么，GO-1 这个机器人基座大模型的实际表现究竟如何？它对机器人行业又意味什么？

机器人大模型，来了！

按照官方说法，GO-1 除了拓展机器人的运动能力，更重要的是加强了其 AI 能力，从而大大增加了机器人的实用价值。

通过学习人类视频，GO-1 具备了强大的物体跟踪能力 | 图片来源：智元机器人官网截图

在智元发布的演示视频中，GO-1 展现了很强的学习能力：通过观看人类操作视频，它就能快速掌握新技能，并高效应用到实际任务中。比如，视频中展示了 GO-1 强大的物体跟踪能力：即使水杯被随意移动，它依然能精准完成倒水动作。

其次，GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同，GO-1 仅需百条级数据，就能实现快速泛化。例如，在演示中，GO-1 在完成倒水任务后，无需额外训练，便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性，更体现了其极简学习的核心优势。

GO-1 可以支持不同形态机器人能力迁移，既可以接待嘉宾，也可以制作咖啡 | 图片来源：智元机器人官网截图

同时，GO-1 的跨本体能力，为多机器人协作提供了强大的技术支持。在智元发布的视频中，展示了两个机器人协同完成复杂任务的场景：一个机器人在前台接待嘉宾，另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。

传统具身模型通常针对单一机器人本体（Hardware Embodiment）进行设计，导致两大问题：数据利用率低和部署受限。但GO-1可以赋能多种本体，在不同机器人形态之间快速迁移，显著提升了数据的利用效率，降低了部署成本。

值得一提的是，GO-1 大模型还可以搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据，尤其是执行失误或异常情况，并通过人工审核和模型优化，持续提升 GO-1 的性能。例如，在演示场景中，机器人在放置咖啡杯时出现失误，系统会立即将相关数据回流，并针对性地优化模型，确保下一次操作更加精准。

同时，GO-1 大模型还为机器人增加了新的语音交互方式，这极大便利了用户在现实场景中自由表达需求。

大模型不重要，数据集才重要

GO-1 神乎其神的背后，来自其不同的模型架构。

GO-1 采用了 Vision-Language-Latent-Action（ViLLA）架构，这一架构结合了多模态大模型（VLM）和混合专家系统（MoE），分为三个协同工作的模块：

业内人士认为，其实GO-1的这个模型架构很简单，创新之处并不多，主要是对已有工作、数据和训练方式做了大幅整合。

相比之前的模型，唯一新增的是一层 Latent Planner（隐式规划器），但它也就几层 Transformer，并不复杂。

相比基座大模型，更重要的是数据集 | 图片来源：智元机器人官网截图

地瓜机器人技术副总裁隋伟表示，智元的工作直指行业痛点——数据问题，对具身智能行业有非常好的促进作用。不过，相比大模型，这里面最有价值的是数据集。

据介绍，GO-1 的底层支撑则是一个名为 AgiBot World 的超大规模机器人数据集。据了解，AgiBot World 数据集包含超过 100 万条轨迹，由 100 个真实机器人收集，涵盖 100 多个真实世界场景和 217 个具体任务。

该数据集基于 AgiBot G1 硬件平台构建，由 100 多台同构机器人共同收集，提供高质量的开源机器人操作数据，支持解决多种现实生活场景中的挑战性任务。最新版本的 AgiBot World 数据集，包含 100 万条轨迹，总时长达 2976.4 小时，覆盖 87 项技能和 106 个场景。

同时，AgiBot World 超越了实验室环境中的基本桌面任务（如抓取和放置），专注于涉及双臂操作、灵巧手和协作任务的现实场景。

与行业内现有的数据集（Open X-Embodiment）相比，智元的数据在数量上更为庞大，且数据质量、规范性和一致性更好。Open X-Embodiment 数据集包含很多不同形态的本体，数据的形态差异性较大，会给模型的训练带来极大地干扰。

不过，虽然智元的数据集已经有一定规模，仍只是一小步的起点，并未带动机器人能力的显著提升。

测试结果显示，GO-1 的表现比之前模型已经提高了很多，但在倒水（Pour Water）、清理桌面（Table Bussing）和补充饮料（Restock Beverage）的成功率最高仍不到 80%。

隋伟表示，目前阶段，模型并不是机器人行业的核心瓶颈。真正的挑战在于两个方面：首先是硬件的收敛问题，例如夹爪、灵巧手、触觉传感器等仿生设计尚未形成标准化；其次是因为本体无法大规模推广，导致数据量始终存在不足。

目前，在数据采集方面，机器人业内主要依赖遥操作技术，包括虚拟现实（VR）设备、同构背带式设备以及运动捕捉设备等。然而，机器人行业的数据采集成本较高，且缺乏明确的商业价值支撑，这导致数据闭环的飞轮难以快速运转。

相比之下，自动驾驶行业的数据采集成本几乎可以忽略不计，其通过车载感知系统能够源源不断地回传数据，形成了高效的数据闭环。

在 GO-1 发布视频的最后，大家发现了一个彩蛋——智元机器人预告了下一个具身智能机器人产品，尽管具体时间尚未公布。然而，紧接着稚晖君在微博上发文称，「明天还有惊喜」，这一消息瞬间让业界再次充满了期待感。

大模型的兴起，让 AI 行业获得了爆发式进化。大模型对于机器人和具身智能行业，到底能有这样的促进作用，也让人们格外好奇。智元和创始人稚晖君的 GO-1，看起来是个很好的起点，显然具身 AI 很难由一家公司独立完成，只有开源合作，才有可能真正实现机器人行业的快速进化。

		自动登录	找回密码
密码			立即注册

智元曝光「机器人大模型」，但真正的核心，并不是机器人！

本帖子中包含更多资源

最近发表

公社版块

关注我们