门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
199倍!清华大学发布全新人工智能系统LangSplat ...
返回列表
199倍!清华大学发布全新人工智能系统LangSplat
[复制链接]
lisahurong
2024-1-14 20:01:04
显示全部楼层
|
阅读模式
清华大学与美国哈佛大学合作,推出了一套全新的人工智能系统 LangSplat,它可以在3D空间中高效而精确地搜索开放式词汇表。
LangSplat (LangSplat)是第一个以三维 GS为基础的三维语音学方法。在开放词表三维物体定位与语义分割方面, LangSplat表现出优于现有算法的优越性能,其运算速度是 LERF的199倍。
在2023年三月,伯克利加州大学的研究小组演示了一种把一种被称为 LERF的语言嵌入到 NeRF中的方法。
利用已有的模型(如 CLIP),能够在不经过任何训练的情况下,精确地对目标进行识别。
虽然 LERF已有较好的3D目标识别能力,但仍存在实时性不足、搜索精度不高等问题。
为解决上述问题, LangSplat课题组利用3D Gaussians构造3D语音区,避免了对 NeRFs所需的复杂绘制流程。所以, LangSplat的速度是 LERF的199倍,它的分辨率为1440x1080。
在此基础上,本研究小组也进行了演示。举个例子,他们拿出一杯茶, LERF把它分成两杯,而LangSplat可以准确地指出杯中的水。
在另外一种情况下,LangSplat甚至可以在一碗汤面上标注出一种配料。通过以上实例,我们可以看出 LangSplat在特定应用方面优于 LERF的优点。
LangSplat利用 Meta提出的" Segment Anything Model"(SAM)方法,对多幅情景图像进行层次语义理解,从而构建三维语言场。
在实际操作中,将图片分割为不同的对象,具有明确的边界。这些遮蔽进一步细分,把每一个对象分解成各个层面,如整体,局部和部分。这种运算能让LangSplat对影像有更深刻、更精确地理解。
在此基础上,利用 CLIP技术对所学的掩码进行处理,并将其嵌入到自编码器中,并将其应用于 LangSplat的3D Gaussian Splatting中。
团队利用 LERF及3D OVS资料检验了 LangSplat。实验结果表明,在两个数据集上,LangSplat的识别准确率可达84.3%、93.4%。
而 LERF算法的准确率仅为73.6%和86.8%。这表明 LangSplat算法比 LERF算法更准确。
#chat GPT# #ai# #机器人# #算法的想象力#
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
lisahurong
等待验证会员
0
关注
0
粉丝
10
帖子
Ta的主页
发布
加好友
最近发表
重量仅4.21克!我国科研团队研发出太阳能动力微型无人机:在纯自
从几百到几亿美元,各类无人机已遍布战场,中国该如何应对?
航拍无人机怎么选?大疆无人机盘点推荐
比“顺丰双尾蝎”还强!国产11吨级无人机开建,又是全球第一?
大疆今天发布的无人机,让我觉得上天也没那么难
“彩虹”VS“翼龙”,中国军用无人机两大王牌,都各有哪些精品?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们