找回密码
 立即注册
搜索

199倍!清华大学发布全新人工智能系统LangSplat

清华大学与美国哈佛大学合作,推出了一套全新的人工智能系统 LangSplat,它可以在3D空间中高效而精确地搜索开放式词汇表。

LangSplat (LangSplat)是第一个以三维 GS为基础的三维语音学方法。在开放词表三维物体定位与语义分割方面, LangSplat表现出优于现有算法的优越性能,其运算速度是 LERF的199倍。

在2023年三月,伯克利加州大学的研究小组演示了一种把一种被称为 LERF的语言嵌入到 NeRF中的方法。

利用已有的模型(如 CLIP),能够在不经过任何训练的情况下,精确地对目标进行识别。

虽然 LERF已有较好的3D目标识别能力,但仍存在实时性不足、搜索精度不高等问题。

为解决上述问题, LangSplat课题组利用3D Gaussians构造3D语音区,避免了对 NeRFs所需的复杂绘制流程。所以, LangSplat的速度是 LERF的199倍,它的分辨率为1440x1080。

在此基础上,本研究小组也进行了演示。举个例子,他们拿出一杯茶, LERF把它分成两杯,而LangSplat可以准确地指出杯中的水。

在另外一种情况下,LangSplat甚至可以在一碗汤面上标注出一种配料。通过以上实例,我们可以看出 LangSplat在特定应用方面优于 LERF的优点。

LangSplat利用 Meta提出的" Segment Anything Model"(SAM)方法,对多幅情景图像进行层次语义理解,从而构建三维语言场。

在实际操作中,将图片分割为不同的对象,具有明确的边界。这些遮蔽进一步细分,把每一个对象分解成各个层面,如整体,局部和部分。这种运算能让LangSplat对影像有更深刻、更精确地理解。

在此基础上,利用 CLIP技术对所学的掩码进行处理,并将其嵌入到自编码器中,并将其应用于 LangSplat的3D Gaussian Splatting中。

团队利用 LERF及3D OVS资料检验了 LangSplat。实验结果表明,在两个数据集上,LangSplat的识别准确率可达84.3%、93.4%。

而 LERF算法的准确率仅为73.6%和86.8%。这表明 LangSplat算法比 LERF算法更准确。

#chat GPT# #ai# #机器人# #算法的想象力#




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册