门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能产品
›
机器人
›
国内首次!机器人无缝衔接人类操作数据 ...
返回列表
国内首次!机器人无缝衔接人类操作数据
[复制链接]
承景胜
4 小时前
显示全部楼层
|
阅读模式
机器人前瞻2月18日报道,最近,逐际动力发布了
基于视频生成大模型的具身操作算法
(VideoGenMotion)——
LimX VGM,实现了国内首次将人类操作数据直接应用于机器人操作。
一直以来,具身智能都面临着诸多数据难题:人类操作视频无法直接应用于机器人操作;大模型虽然能够根据这些视频生成行为轨迹和操作数据,但往往存在精度不足、偏离物理规律、存在幻觉等缺陷,即使数据准确,仍然无法直接应用于机器人操作。
LimX VGM通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示Prompts,即可实现
任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程
,全过程零真机样本数据,并且可实现多平台泛化。
具体来说,LimX VGM的工作流程包括以下三个关键步骤:
训练阶段:
采集若干真实人类操作的视频,对现有的视频生成大模型进行后训练。
推理阶段:
以初始场景结合任务操作指令作为提示Prompts,利用经过后训练的视频生成大模型生成
带深度信息的人类操作视频
,
进而根据人类操作视频,生成机器人操作的行为。
执行阶段:
算法输出符合机器人操作逻辑的行为解算,由机器人执行相应的操作轨迹。
LimX VGM
的工作流程背后,还有三大具身技术核心创新点:
1、人类操作视频到机器人操作策略及行为的桥接
LimX VGM不做视频生成大模型,而是
利用当前已有的大模型框架,
通过有效训练从中提取对执行操作任务有用的关键信息,转化为机器人操作策略及行为。
之后,LimX VGM只需
额外采集少量的人类操作视频数据,
即可用于机器人操作,全程零真机数据,让数据采集工作变得简单、成本低,且效率高。随着大模型不断升级,LimX VGM将具备更加丰富、全面的操作知识,生成更有效的操作策略,进一步提升算法的泛化性。
▲LimX VGM 只需额外采集少量的人类操作视频数据
2、引入空间智能,突破2D生成视频局限
通过引入空间智能Spatial Intelligence模块,LimX VGM对视频生成大模型进行后训练时,
引入深度信息,
让生成的操作视频直接包含三维空间数据,这是让机器人能够进行物理空间操作的关键。LimX VGM深度信息的采集过程简单、易得且高效,仅需通过深度相机捕捉人手真实操作过程即可。
▲LimX VGM 引入深度信息,让生成的操作视频直接包含三维空间数据
3、算法与机器人本体的解耦,可跨平台部署
LimX VGM的整个训练过程仅依靠人类操作视频,不涉及任何机器人本体。算法的真机部署仅需进行简单适配,便可实现跨硬件平台的直接操作执行。即使机器人硬件不断推陈出新,也
无需再对算法进行大幅调整及数据重新采集,
实现操作能力在设备上的泛化性。
演示中,研究人员使用了三种在构型、参数、能力等方面的差异巨大的机械臂,但算法依旧可以实现一致的操作效果。
▲同一个算法在三个机械臂上都能简单快速部署
另外,逐际动力还提出了
“数据-性能ROI”
这一数据效率评估方法,聚焦于数据成本到操作性能转化率的提升。
据了解,逐际动力后续计划推动这一算法适配Cosmos等更多视频大模型,优化算法推理效率,逐步实现实时视频生成,并优化空间智能的模块性能,提升操作执行的精准性。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
承景胜
注册会员
0
关注
0
粉丝
19
帖子
Ta的主页
发布
发消息
加好友
最近发表
DeepSeek硬控智能家居!四大电视巨头抢跑
宇树科技人形机器人已从京东下架
“天工”人形机器人再升级!能登百级台阶、雪地高速奔跑、无惧大
无人驾驶的“真相”:不过是辅助驾驶的“高级版”,别被忽悠了!
捷捷微电:公司产品可应用于智能穿戴、物联网及机器人领域
广东促服务消费新规支持智能家居跨界发展,培育整装龙头企业
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们