门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能产品
›
机器人
›
踢掉OpenAI后,Figure AI推出Helix,让机器人像人一样思 ...
返回列表
踢掉OpenAI后,Figure AI推出Helix,让机器人像人一样思考和行动
[复制链接]
花檩镜
6 小时前
显示全部楼层
|
阅读模式
大模型的风终于吹到了机器人身上。
刚刚,
人形机器人初创公司 Figure AI 发布了新 AI 系统 Helix,
这是专为人形机器人设计的“视觉-语言-动作”(Vison-Language-Action,VLA)模型,能够让机器人直接理解自然语言、解析视觉信息,并执行相应的动作。
(来源:Figure AI)
Helix 是第一款对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA 模型。
简单来说,这就像给机器人装上了一个
超级大脑
,让它们可以像人类一样用眼睛观察、用耳朵听、用手操作,并且能在没有特别训练的情况下完成全新的任务。
如果你觉得机器人还停留在那种“机械化执行命令”、只能按照预设流程工作的阶段,那 Figure AI 的新视频可能会改变你的看法。
视频中,虽然两个机器人的动作慢吞吞的,但它们对人类指令的理解十分到位,包括打开冰箱、拿起食物、摆放到恰当的位置,甚至还能传递食物(协同合作)。
Figure AI 在 X 上写道:
“我们发现,只要给机器人提示词,我们就可以(让它)拿起几乎任何物体。”
图 | Figure AI 发布 Helix 模型(来源:X)
相比传统的机器人控制方式,Helix 可以让机器人具备更强的自主学习能力,不再局限于固定任务,而是可以在各种场景中学习、适应新挑战。
这种能力得益于 Figure AI 的 S2+S1 双系统架构,可对人形机器人的整个上半身进行高速、灵巧的控制。
图 | Helix 的双系统架构(来源:Figure AI)
其中 S2 系统是一个机载互联网预训练的视觉语言模型(VLM),以 7-9 Hz 的频率运行,用于场景理解和语言理解,从而实现跨对象和上下文的广泛概括。
而 S1 系统负责快速反应的视觉运动策略,将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。换句话说就是负责理解来自人类的语言指令,并结合视觉信息解析环境,实现自主决策并保证流畅的肢体协调。
“这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以慢慢‘思考高级’目标,而 S1 可以‘快速思考’以实时执行和调整动作。”Figure AI 写道。
图 | Figure AI 的 CEO 表示:“要让机器人进入千家万户,我们需要在能力上实现重大进展。”(来源:X)
据 Figure AI 介绍,他们收集了高质量的多机器人、多操作员数据集,其中包含各种远程操作行为,总共约 500 小时。
为了生成自然语言条件训练对,Figure AI 使用自动标记 VLM 来生成 hindsight 指令。VLM 会处理来自机器人机载摄像头的分段视频片段,并提示:“你会给机器人什么指令来执行此视频中看到的动作?”训练期间处理的所有物品均不包含在评估中,以防止污染。
Helix 系统由两个主要组件组成:S2(VLM 主干)和 S1(潜在条件视觉运动 Transformer)。
S2 建立在 7B 参数开源、开放权重的 VLM 上,该 VLM 已在互联网规模数据上进行了预训练。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后进行处理。
结合指定所需行为的自然语言命令,S2 将所有语义任务相关信息提炼为单个连续潜在向量,并传递给 S1 以调节其低级动作。
S1 是一个 80M 参数交叉注意编码器-解码器 Transformer,用于处理低级控制。它依靠完全卷积、多尺度视觉主干进行视觉处理,该主干通过完全在模拟中完成的预训练进行初始化。
图 | 机器人可以捡起各种各样的东西(来源:Figure AI)
虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理它们,以实现响应更快的闭环控制。来自 S2 的潜在向量被投影到 S1 的标记空间中,并沿着序列维度与来自 S1 视觉主干的视觉特征连接起来,提供任务调节。
S1 以 200hz 的频率输出完整的人形机器人上半身控制,包括所需的手腕姿势、手指屈曲和外展控制以及躯干和头部方向目标。他们在动作空间中附加了一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终止条件,从而更容易对多个学习到的行为进行排序。
通过端到端训练,Helix 能够控制机器人,直接从视觉和语言输入中推理出正确的行动,而无需手动编写具体任务指令,也不需要针对特定任务进行调整。
Helix 的训练设计支持在 Figure 机器人上高效地并行部署模型,每个机器人都配备了双低功耗嵌入式 GPU。推理管道分为 S2(高级潜在规划)和 S1(低级控制)模型,每个模型都在专用 GPU 上运行。
Figure AI 总结道:“Helix 以极少的资源实现了强大的对象泛化。我们总共使用约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的视觉-语言-动作数据集的一小部分(<5%),并且不依赖于多机器人化身收集或多个训练阶段。”
图 | Figure AI 定义的新“机器人技能获取”扩展法则(来源:Figure AI)
早在 2 月 4 号,Figure AI 就在为 Helix 的出现埋下伏笔。
当时,CEO 布雷特·艾德考克(Brett Adcock)宣布“终止与 OpenAI 的合作”,并表示将向外界展示“人形机器人上从未见过的东西”。
与此同时,据知情人士透露,Figure AI 似乎正在接洽投资者,计划以 395 亿美元的估值筹集 15 亿美元。
Figure AI 拒绝发表评论,但如果属实,新一轮融资将使这家初创公司的估值大幅提升,去年该公司的估值为 26 亿美元。Figure AI 之前的投资者包括微软、OpenAI、英伟达和杰夫·贝佐斯。
可以看出,Figure AI 对 Helix 寄予厚望。他们希望这不只是一次普通的 AI 升级,而是让机器人更接近“真正的人类助手”。它可以控制机器人听懂你的话、看懂世界、灵活行动,并且不断学习新技能,让机器人真正成为“聪明的 AI 劳动力”。
当然,演示视频再天花乱坠,实际应用中也可能频频翻车、不堪大用。这种事情我们已经目睹无数次了。
因此,Figure AI 的 Helix 是否真的像宣传的那样灵活、聪明,我们还是要保持冷静,等到它真正走向市场。
参考资料:
https://www.figure.ai/news/helix
https://www.bloomberg.com/news/articles/2025-02-14/robotics-startup-figure-ai-in-talks-for-new-funding-at-39-5-billion-valuation
https://x.com/Figure_robot/status/1892577876454801453
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
花檩镜
金牌会员
0
关注
0
粉丝
108
帖子
Ta的主页
发布
发消息
加好友
最近发表
机器人之梦:未来它们可折叠、可降解甚至可食用?
镇江一无人机“黑飞”,胡某接受调查!
机器人“赛道” 新年如何加速“跑”?
2025年智能家居深度测评:脑机协作与碳中和时代的家庭AI革命
数说“三农”丨25万架植保无人机:春耕时节的科技新军
未来五年机器人数量或超人类?巨头集体押注,世界将迎颠覆性变革
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们