踢掉OpenAI后，Figure AI推出Helix，让机器人像人一样思考和行动

花檩镜 · 2025-2-23 15:34:40

大模型的风终于吹到了机器人身上。

刚刚，人形机器人初创公司 Figure AI 发布了新 AI 系统 Helix，这是专为人形机器人设计的“视觉-语言-动作”（Vison-Language-Action，VLA）模型，能够让机器人直接理解自然语言、解析视觉信息，并执行相应的动作。

（来源：Figure AI）

Helix 是第一款对整个人形上身（包括手腕、躯干、头部和各个手指）进行高速率连续控制的 VLA 模型。

简单来说，这就像给机器人装上了一个超级大脑，让它们可以像人类一样用眼睛观察、用耳朵听、用手操作，并且能在没有特别训练的情况下完成全新的任务。

如果你觉得机器人还停留在那种“机械化执行命令”、只能按照预设流程工作的阶段，那 Figure AI 的新视频可能会改变你的看法。

视频中，虽然两个机器人的动作慢吞吞的，但它们对人类指令的理解十分到位，包括打开冰箱、拿起食物、摆放到恰当的位置，甚至还能传递食物（协同合作）。

Figure AI 在 X 上写道：“我们发现，只要给机器人提示词，我们就可以（让它）拿起几乎任何物体。”

图 | Figure AI 发布 Helix 模型（来源：X）

相比传统的机器人控制方式，Helix 可以让机器人具备更强的自主学习能力，不再局限于固定任务，而是可以在各种场景中学习、适应新挑战。

这种能力得益于 Figure AI 的 S2+S1 双系统架构，可对人形机器人的整个上半身进行高速、灵巧的控制。

图 | Helix 的双系统架构（来源：Figure AI）

其中 S2 系统是一个机载互联网预训练的视觉语言模型（VLM），以 7-9 Hz 的频率运行，用于场景理解和语言理解，从而实现跨对象和上下文的广泛概括。

而 S1 系统负责快速反应的视觉运动策略，将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。换句话说就是负责理解来自人类的语言指令，并结合视觉信息解析环境，实现自主决策并保证流畅的肢体协调。

“这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以慢慢‘思考高级’目标，而 S1 可以‘快速思考’以实时执行和调整动作。”Figure AI 写道。

图 | Figure AI 的 CEO 表示：“要让机器人进入千家万户，我们需要在能力上实现重大进展。”（来源：X）

据 Figure AI 介绍，他们收集了高质量的多机器人、多操作员数据集，其中包含各种远程操作行为，总共约 500 小时。

为了生成自然语言条件训练对，Figure AI 使用自动标记 VLM 来生成 hindsight 指令。VLM 会处理来自机器人机载摄像头的分段视频片段，并提示：“你会给机器人什么指令来执行此视频中看到的动作？”训练期间处理的所有物品均不包含在评估中，以防止污染。

Helix 系统由两个主要组件组成：S2（VLM 主干）和 S1（潜在条件视觉运动 Transformer）。

S2 建立在 7B 参数开源、开放权重的 VLM 上，该 VLM 已在互联网规模数据上进行了预训练。它将单目机器人图像和机器人状态信息（包括手腕姿势和手指位置）投影到视觉语言嵌入空间后进行处理。

结合指定所需行为的自然语言命令，S2 将所有语义任务相关信息提炼为单个连续潜在向量，并传递给 S1 以调节其低级动作。

S1 是一个 80M 参数交叉注意编码器-解码器 Transformer，用于处理低级控制。它依靠完全卷积、多尺度视觉主干进行视觉处理，该主干通过完全在模拟中完成的预训练进行初始化。

图 | 机器人可以捡起各种各样的东西（来源：Figure AI）

虽然 S1 接收与 S2 相同的图像和状态输入，但它以更高的频率处理它们，以实现响应更快的闭环控制。来自 S2 的潜在向量被投影到 S1 的标记空间中，并沿着序列维度与来自 S1 视觉主干的视觉特征连接起来，提供任务调节。

S1 以 200hz 的频率输出完整的人形机器人上半身控制，包括所需的手腕姿势、手指屈曲和外展控制以及躯干和头部方向目标。他们在动作空间中附加了一个合成的“任务完成百分比”动作，使 Helix 能够预测自己的终止条件，从而更容易对多个学习到的行为进行排序。

通过端到端训练，Helix 能够控制机器人，直接从视觉和语言输入中推理出正确的行动，而无需手动编写具体任务指令，也不需要针对特定任务进行调整。

Helix 的训练设计支持在 Figure 机器人上高效地并行部署模型，每个机器人都配备了双低功耗嵌入式 GPU。推理管道分为 S2（高级潜在规划）和 S1（低级控制）模型，每个模型都在专用 GPU 上运行。

Figure AI 总结道：“Helix 以极少的资源实现了强大的对象泛化。我们总共使用约 500 小时的高质量监督数据来训练 Helix，这仅仅是之前收集的视觉-语言-动作数据集的一小部分（<5%），并且不依赖于多机器人化身收集或多个训练阶段。”

图 | Figure AI 定义的新“机器人技能获取”扩展法则（来源：Figure AI）

早在 2 月 4 号，Figure AI 就在为 Helix 的出现埋下伏笔。

当时，CEO 布雷特·艾德考克（Brett Adcock）宣布“终止与 OpenAI 的合作”，并表示将向外界展示“人形机器人上从未见过的东西”。

与此同时，据知情人士透露，Figure AI 似乎正在接洽投资者，计划以 395 亿美元的估值筹集 15 亿美元。

Figure AI 拒绝发表评论，但如果属实，新一轮融资将使这家初创公司的估值大幅提升，去年该公司的估值为 26 亿美元。Figure AI 之前的投资者包括微软、OpenAI、英伟达和杰夫·贝佐斯。

可以看出，Figure AI 对 Helix 寄予厚望。他们希望这不只是一次普通的 AI 升级，而是让机器人更接近“真正的人类助手”。它可以控制机器人听懂你的话、看懂世界、灵活行动，并且不断学习新技能，让机器人真正成为“聪明的 AI 劳动力”。

当然，演示视频再天花乱坠，实际应用中也可能频频翻车、不堪大用。这种事情我们已经目睹无数次了。

因此，Figure AI 的 Helix 是否真的像宣传的那样灵活、聪明，我们还是要保持冷静，等到它真正走向市场。

参考资料：
https://www.figure.ai/news/helix
https://www.bloomberg.com/news/articles/2025-02-14/robotics-startup-figure-ai-in-talks-for-new-funding-at-39-5-billion-valuation
https://x.com/Figure_robot/status/1892577876454801453

redbomb597 · 2025-2-24 07:57:25

赞一个！

冰莫凝 · 2025-2-24 07:57:25

沙发？？？

candywei · 2025-2-26 15:20:29

一直在看

		自动登录	找回密码
密码			立即注册

踢掉OpenAI后，Figure AI推出Helix，让机器人像人一样思考和行动

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们