门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
机器人的“数据战争”:烧钱难解数据饥渴,数据集需“排 ...
返回列表
机器人的“数据战争”:烧钱难解数据饥渴,数据集需“排毒”
[复制链接]
枕闕
前天 22:19
显示全部楼层
|
阅读模式
当马斯克正在担忧AI训练数据已经耗尽的时候,具身智能企业正在面临残酷的数据生死局:训练一个倒水动作需要一台超算运算千万亿次、第三方的数据“有毒”随时会让模型崩溃,仿真数据成本也正在攀升……
在这场决定未来机器人进化速度和方向的隐形数据大战中,有具身智能企业正通过“反直觉”的训练方法撕开突破口,让机器人在不相关的杂乱任务中领悟物理法则,试图建立数据护城河。
当AI向物理空间延伸,数据极有可能成为重塑技术权力的关键。不过,机器人想要跨越临界值,迎来具身大模型的GPT时刻,还需要解决数据质量、算法、算力等多方面的问题。毕竟,具身智能的终局不会是单点技术的胜利,而是软件、硬件与商业模式的系统战争。
克服“数据饥渴”
想要训练一个机器人的大模型,究竟需要多少数据?
“通常来讲,一台超级计算机,每秒钟可以进行千万亿次到数百亿亿次浮点运算,而光是想要模拟人晃动杯中的水这一个动作,所涉及的计算量可能就需要一台超级计算机算十分钟。”
具身大模型企业自变量机器人(X Square)的创始人兼CEO王潜向第一财经记者举了上述例子,来说明想要让机器人实现物理世界的复杂交互,需要多少多模态的真实和仿真数据支持。“更重要的是,对于一些复杂的动作,按照此前业界普遍采用的分层模型逻辑,几乎是无法实现的事情。”王潜说道。
分层模型,曾经被认为是机器人领域的黄金法则:先建模、再规划、最后执行。但在执行过程中,王潜发现,随着每一层模型的传递,模型在某一层产生的微小误差,将会在后续的环节呈现指数级的扩散。
每分出一个步骤,就有可能给模型引入噪声。“如果一开始建模的误差在1%,那随着分层模型的传导,在执行的最终结果中,很有可能会出现几十倍的误差。”王潜说道。因此,端到端的模型也逐渐成为了下一个发展方向。在端到端的模型设计里,直接连接输入与输出的“黑箱”特性,让具身大模型的自我修正成为可能。
技术路径更迭,海量的数据,始终是横亘在具身智能大模型面前的天堑。王潜告诉第一财经记者,“数据饥渴”在行业中一直存在。“它的底层逻辑是,强化学习的路径需要指数级增长的数据,而仿真数据又容易因为物理交互的复杂性难以迁移到现实。”
这种数据饥渴一直到GPT-3的出现才有所缓解。“GPT-3的出现,其实带给我们的是‘反人类直觉’的启示。”王潜解释,此前训练机器人的某一动作模型,总是喂给其相似的任务数据语料。“但GPT-3的底层逻辑是,通过多任务学习,模型被迫提炼跨任务的共性规律,从而具备少样本甚至零样本的学习能力。”
看似完全不相干的任务,能够逼迫具身大模型更快地学习物理世界的通用原理。王潜说,当模型同时学习倒水、换衣服等任务时,看似没有直接关联,但大模型能通过大量的这些任务,学习如何处理类似的摩擦,认识到“抓握”“材质”等物理世界通用的逻辑。
一旦这条逻辑得到验证,那么大语言模型少样本甚至零样本的学习能力将有机会在具身智能大模型上重现,帮助机器人跨越数据的死亡谷。
第三方数据需“排毒”
尽管GPT3的出现,给具身智能大模型带来了“解药”,但具身智能数据场中的隐形战争,仍未停止。
Jerry是一家高校的助理教授,也是国际上最早一批研究具身智能数据的学者之一,他告诉第一财经记者,相比于大语言模型上的数据资源,具身大模型的数据成本会高很多。“过去很长时间内,互联网已经完成了人类知识的沉淀,这些资源是一个新的能源,只是过去在底层,AI训练的时候被‘挖’了出来。”
他告诉记者,大模型的数据来源主要分为三块,第一块是过去由互联网完成了数字化沉淀的数据,它记录了人类对这个世界的感知;第二块是嫁接了图文、3D等多种模态的数据;第三块则是通过不同传感器获取的数据。
“在训练机器人大模型过程当中,我们实际遇到的情况是,这个行业本来就没有数据资源,所以我们需要冷启动,将数据收集起来,才能实际推动行业。”王潜说道。
过去几年,人工智能的火爆,令训练AI模型数据添加标签的Scale AI炙手火热,在机器人领域是否也会出现类似Scale AI的独角兽?
随着机器人行业的拓展,上游的数据供应商也不断涌现。2023年前后,艾欧智能等国内第三方的具身智能机器人场景数据供应商开始出现。2024年年底,智元机器人宣布开源 AgiBot World,智元称它是一个汇集百万真实机器人数据的开源数据集。2025年1月,松灵机器人推出全新通用数据采集方案,配备了200°鱼眼相机、双目深度相机等传感器确保数据感知。
不过,另一位使用过第三方提供数据的具身智能从业者告诉第一财经记者,就大模型的训练要求来说,第三方的数据使用率可能不足1%。“我们经常遇到的情况是,买了100万条数据,经过严格的质量筛选后,实际投入使用的数据量可能只有1万条甚至更少。”
上述从业者向记者解释,无用的数据,不仅仅是对模型无帮助,更可能是有毒;有毒的数据多了,模型就会崩溃。
在这场隐形的数据战争中,高质量的数据也许会成为将来具身智能企业的核心壁垒。“未来,数据集的护城河也许比算法更深。”Jerry说道。
模拟数据也要讲性价比
相比具身智能大模型,大语言模型走得更前也更快,一些数据问题已经暴露了出来。
马斯克在今年社交媒体X上的一场直播中提到,人工智能数据训练已经耗尽。他表示:“我们基本上已经用尽了人类知识的累积总和来进行AI训练,这种情况大约在去年就已经发生了。”去年12月,OpenAI 的前首席科学家 Ilya Sutskever 也在一次分享中提及,尽管现有的数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。
“对于大模型的预训练来说,我们所用到的数据的确已经接近峰值。”明月(化名)是国内头部大语言模型的数据标注师,她认为,人类生成的优质内容占比正在下降。“而且现在大语言模型训练已经走向了垂直领域,公用数据资源更少。以医疗领域来举例,合法、公开的数据是很有限的。”
因此,合成数据又成为了“救命稻草”。明月告诉第一财经记者,合成数据在大模型训练中的占比走高,这是行业中默认的规则。“但是否会生成幻觉,会生成多少幻觉,业内也还在讨论中。”
对于具身智能而言,合成数据并不一定比真实数据“划算”。王潜告诉第一财经记者,模拟不同状态物体所需要的数据量不同。“因为我们不可能用一个超算中心计算10分钟来精确模拟晃动一杯水这一几秒钟的动作。所以模拟器的精度在合成数据时,我们常常都会设置得比较低。”
因此,一般在模拟器中训练出的模型迁移到现实世界会遇到严重的障碍,也就是所谓的泛化性不高。要想训练出泛化性高到可以在现实世界中部署的模型,一种常见的做法是在模拟器中模拟出不同物理规律的世界,并将大模型放在这些环境中训练。“如果它在这些环境中都能够获得很好的效果,那么理论上,它再转移到现实世界中去就很简单了。”
王潜向记者举例,如果想要训练出一个能够操作六个自由参数量的刚体模型,那需要模拟的数量级可能在十的六次方。“但如果是一个柔性的物体,它也许有100个参数,模拟环境数量的量级可能就会大很多,成本和技术难度都太高了。”王潜说道。
“在GPU里跑模拟数据也是需要成本的,因此在稍微复杂一点的任务上,模拟器其实已经有很明显的劣势了。”王潜判断,未来机器人灵巧的手部操作,无法纯粹靠模拟器数据做出来。
具身智能发展至今,一些大模型也逐渐浮出水面。星动纪元在去年12月发布了原生端到端机器人大模型ERA-42;同一时期,灵初智能也发布了基于强化学习的端到端具身模型Psi R0;银河通用也在今年1月发布了基于仿真合成大数据的具身模型GraspVLA。
不过第一财经记者注意到,这些大模型在演示中大多都集中突出了一些简单的手部姿势,动作集中在拿放,大模型的泛化性和输出稳定性如何均未有明确展示。
(本文来自第一财经)
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
枕闕
中级会员
0
关注
0
粉丝
68
帖子
Ta的主页
发布
发消息
加好友
最近发表
记者探访|跑步、做饭……人形机器人“十八般武艺”这样炼成
伊朗革命卫队在该国西南部举行军演 多种新型无人机亮相
心理治疗机器人能否抚慰人类心灵
宇树科技新四足机器人外观曝光
智能家居:重塑未来生活
人形机器人大战,苹果和Meta都来了
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们