机器人的“数据战争”：烧钱难解数据饥渴，数据集需“排毒”

枕闕 · 前天 22:19

当马斯克正在担忧AI训练数据已经耗尽的时候，具身智能企业正在面临残酷的数据生死局：训练一个倒水动作需要一台超算运算千万亿次、第三方的数据“有毒”随时会让模型崩溃，仿真数据成本也正在攀升……

在这场决定未来机器人进化速度和方向的隐形数据大战中，有具身智能企业正通过“反直觉”的训练方法撕开突破口，让机器人在不相关的杂乱任务中领悟物理法则，试图建立数据护城河。

当AI向物理空间延伸，数据极有可能成为重塑技术权力的关键。不过，机器人想要跨越临界值，迎来具身大模型的GPT时刻，还需要解决数据质量、算法、算力等多方面的问题。毕竟，具身智能的终局不会是单点技术的胜利，而是软件、硬件与商业模式的系统战争。

克服“数据饥渴”

想要训练一个机器人的大模型，究竟需要多少数据？

“通常来讲，一台超级计算机，每秒钟可以进行千万亿次到数百亿亿次浮点运算，而光是想要模拟人晃动杯中的水这一个动作，所涉及的计算量可能就需要一台超级计算机算十分钟。”

具身大模型企业自变量机器人（X Square）的创始人兼CEO王潜向第一财经记者举了上述例子，来说明想要让机器人实现物理世界的复杂交互，需要多少多模态的真实和仿真数据支持。“更重要的是，对于一些复杂的动作，按照此前业界普遍采用的分层模型逻辑，几乎是无法实现的事情。”王潜说道。

分层模型，曾经被认为是机器人领域的黄金法则：先建模、再规划、最后执行。但在执行过程中，王潜发现，随着每一层模型的传递，模型在某一层产生的微小误差，将会在后续的环节呈现指数级的扩散。

每分出一个步骤，就有可能给模型引入噪声。“如果一开始建模的误差在1%，那随着分层模型的传导，在执行的最终结果中，很有可能会出现几十倍的误差。”王潜说道。因此，端到端的模型也逐渐成为了下一个发展方向。在端到端的模型设计里，直接连接输入与输出的“黑箱”特性，让具身大模型的自我修正成为可能。

技术路径更迭，海量的数据，始终是横亘在具身智能大模型面前的天堑。王潜告诉第一财经记者，“数据饥渴”在行业中一直存在。“它的底层逻辑是，强化学习的路径需要指数级增长的数据，而仿真数据又容易因为物理交互的复杂性难以迁移到现实。”

这种数据饥渴一直到GPT-3的出现才有所缓解。“GPT-3的出现，其实带给我们的是‘反人类直觉’的启示。”王潜解释，此前训练机器人的某一动作模型，总是喂给其相似的任务数据语料。“但GPT-3的底层逻辑是，通过多任务学习，模型被迫提炼跨任务的共性规律，从而具备少样本甚至零样本的学习能力。”

看似完全不相干的任务，能够逼迫具身大模型更快地学习物理世界的通用原理。王潜说，当模型同时学习倒水、换衣服等任务时，看似没有直接关联，但大模型能通过大量的这些任务，学习如何处理类似的摩擦，认识到“抓握”“材质”等物理世界通用的逻辑。

一旦这条逻辑得到验证，那么大语言模型少样本甚至零样本的学习能力将有机会在具身智能大模型上重现，帮助机器人跨越数据的死亡谷。

第三方数据需“排毒”

尽管GPT3的出现，给具身智能大模型带来了“解药”，但具身智能数据场中的隐形战争，仍未停止。

Jerry是一家高校的助理教授，也是国际上最早一批研究具身智能数据的学者之一，他告诉第一财经记者，相比于大语言模型上的数据资源，具身大模型的数据成本会高很多。“过去很长时间内，互联网已经完成了人类知识的沉淀，这些资源是一个新的能源，只是过去在底层，AI训练的时候被‘挖’了出来。”

他告诉记者，大模型的数据来源主要分为三块，第一块是过去由互联网完成了数字化沉淀的数据，它记录了人类对这个世界的感知；第二块是嫁接了图文、3D等多种模态的数据；第三块则是通过不同传感器获取的数据。

“在训练机器人大模型过程当中，我们实际遇到的情况是，这个行业本来就没有数据资源，所以我们需要冷启动，将数据收集起来，才能实际推动行业。”王潜说道。

过去几年，人工智能的火爆，令训练AI模型数据添加标签的Scale AI炙手火热，在机器人领域是否也会出现类似Scale AI的独角兽？

随着机器人行业的拓展，上游的数据供应商也不断涌现。2023年前后，艾欧智能等国内第三方的具身智能机器人场景数据供应商开始出现。2024年年底，智元机器人宣布开源 AgiBot World，智元称它是一个汇集百万真实机器人数据的开源数据集。2025年1月，松灵机器人推出全新通用数据采集方案，配备了200°鱼眼相机、双目深度相机等传感器确保数据感知。

不过，另一位使用过第三方提供数据的具身智能从业者告诉第一财经记者，就大模型的训练要求来说，第三方的数据使用率可能不足1%。“我们经常遇到的情况是，买了100万条数据，经过严格的质量筛选后，实际投入使用的数据量可能只有1万条甚至更少。”

上述从业者向记者解释，无用的数据，不仅仅是对模型无帮助，更可能是有毒；有毒的数据多了，模型就会崩溃。

在这场隐形的数据战争中，高质量的数据也许会成为将来具身智能企业的核心壁垒。“未来，数据集的护城河也许比算法更深。”Jerry说道。

模拟数据也要讲性价比

相比具身智能大模型，大语言模型走得更前也更快，一些数据问题已经暴露了出来。

马斯克在今年社交媒体X上的一场直播中提到，人工智能数据训练已经耗尽。他表示：“我们基本上已经用尽了人类知识的累积总和来进行AI训练，这种情况大约在去年就已经发生了。”去年12月，OpenAI 的前首席科学家 Ilya Sutskever 也在一次分享中提及，尽管现有的数据仍能推动人工智能的发展，但这个行业里称得上可用的新数据已经接近枯竭。

“对于大模型的预训练来说，我们所用到的数据的确已经接近峰值。”明月（化名）是国内头部大语言模型的数据标注师，她认为，人类生成的优质内容占比正在下降。“而且现在大语言模型训练已经走向了垂直领域，公用数据资源更少。以医疗领域来举例，合法、公开的数据是很有限的。”

因此，合成数据又成为了“救命稻草”。明月告诉第一财经记者，合成数据在大模型训练中的占比走高，这是行业中默认的规则。“但是否会生成幻觉，会生成多少幻觉，业内也还在讨论中。”

对于具身智能而言，合成数据并不一定比真实数据“划算”。王潜告诉第一财经记者，模拟不同状态物体所需要的数据量不同。“因为我们不可能用一个超算中心计算10分钟来精确模拟晃动一杯水这一几秒钟的动作。所以模拟器的精度在合成数据时，我们常常都会设置得比较低。”

因此，一般在模拟器中训练出的模型迁移到现实世界会遇到严重的障碍，也就是所谓的泛化性不高。要想训练出泛化性高到可以在现实世界中部署的模型，一种常见的做法是在模拟器中模拟出不同物理规律的世界，并将大模型放在这些环境中训练。“如果它在这些环境中都能够获得很好的效果，那么理论上，它再转移到现实世界中去就很简单了。”

王潜向记者举例，如果想要训练出一个能够操作六个自由参数量的刚体模型，那需要模拟的数量级可能在十的六次方。“但如果是一个柔性的物体，它也许有100个参数，模拟环境数量的量级可能就会大很多，成本和技术难度都太高了。”王潜说道。

“在GPU里跑模拟数据也是需要成本的，因此在稍微复杂一点的任务上，模拟器其实已经有很明显的劣势了。”王潜判断，未来机器人灵巧的手部操作，无法纯粹靠模拟器数据做出来。

具身智能发展至今，一些大模型也逐渐浮出水面。星动纪元在去年12月发布了原生端到端机器人大模型ERA-42；同一时期，灵初智能也发布了基于强化学习的端到端具身模型Psi R0；银河通用也在今年1月发布了基于仿真合成大数据的具身模型GraspVLA。

不过第一财经记者注意到，这些大模型在演示中大多都集中突出了一些简单的手部姿势，动作集中在拿放，大模型的泛化性和输出稳定性如何均未有明确展示。

(本文来自第一财经)

		自动登录	找回密码
密码			立即注册

机器人的“数据战争”：烧钱难解数据饥渴，数据集需“排毒”

本帖子中包含更多资源

最近发表

公社版块

关注我们