NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理

news/2025/2/22 16:03:05

  • 作者:An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu

  • 单位:加州大学圣地亚哥分校,NVIDIA

  • 标题:SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models

  • 原文链接:https://www.anjiecheng.me/assets/SpatialRGPT/Spatial_RGPT.pdf

  • 项目主页:https://www.anjiecheng.me/SpatialRGPT

  • 代码链接:https://github.com/AnjieCheng/SpatialRGPT

主要贡献

  • 提出 SpatialRGPT 框架:通过 区域表示模块深度信息插件,增强 VLM 对局部区域(如物体、位置)和三维几何的推理能力,实现深度信息的灵活融合而无需完全重构模型。

  • 构建OSD数据集:从单张图像生成带 3D 场景图 的大规模数据集,包含物体检测、深度估计和空间关系标注,支持训练区域感知的 VLM。

  • 推出 SpatialRGPT-Bench 基准:首个多环境(室内外、虚拟场景)的三维空间认知评测基准,提供细粒度标注和量化指标,促进公平性评估。

  • 推动下游应用机器人密集奖励标注:通过区域边界框指导模型预测动作结果。独立复杂推理:无需 LLM 协助,直接回答多跳空间问题。

研究背景

研究问题

论文主要解决的问题是视觉语言模型(VLMs)在空间推理方面的能力有限问题,尤其是在理解和推理复杂的空间关系方面。

研究难点

该问题的研究难点包括:

  • 区分简单的空间概念(如“左”和“右”、“上”和“下”)以及更复杂的关系(如“后面”和“前面”、“里面”和“外面”、“近”和“远”);

  • 仅依赖RGB像素数据无法准确感知空间关系,需要融入深度信息。

相关工作

该问题的研究相关工作包括:

  • 最近的一些工作通过引入全面的数据生成流程高VLMs的空间推理能力,但这些方法依赖于大规模的训练数据和复杂的场景构建过程。

  • 现有的VLMs在处理区域信息和深度信息方面存在局限性。

方法概述

从单张二维图像构建三维场景图

  • 图像过滤

    • 移除不合适的图像(如模糊、低质量图像),具体标准见附录F.1。

  • 开放词汇检测与分割:生成高精度掩码以构建精确三维边界框。

    • 使用开放词汇图像标注模型(如GroundingDino)识别图像中所有对象的类别标签。

    • 通过二维检测器(GroundingDino)生成对象边界框。

    • 应用分割模型将边界框细化为像素级掩码,避免依赖多边形或压缩掩码标注。

  • 深度估计:从单张图像恢复 metric 深度图,解决尺度模糊问题。

    • 采用 Metric3Dv2,其通过联合优化深度和表面法线预测,减少对特定数据集(如KITTI、NYU)的过拟合。

    • 结合 WildCamera校准相机内参(焦距、光心),提升对真实场景的鲁棒性。

  • 相机标定与点云处理

    • 内参估计:使用 WildCamera 估计相机焦距和光心参数。

    • 坐标转换:通过 PerspectiveFields 将点云从相机坐标系转换为地理坐标系(俯仰角、滚动角),无需依赖特定平面分割(如地面或桌面)。

  • 三维场景图构建

    • 节点定义:每个节点包含对象类别、宽度和高度。

    • 边界框生成:从深度图反投影点云,经规范化和去噪后生成轴对齐边界框(AABB)。

    • 空间关系计算: 基于点云质心和边界框计算相对关系(左/右、宽/窄等)和度量关系(距离、方位角)。 边类型包括相对位置(如“Region A在Region B左侧”)和几何属性(如“Region C高度为50cm”)。

从三维场景图学习空间感知VLM

  • 数据生成策略

    • 基于模板的问答:提取场景图属性(如节点尺寸、空间关系),生成结构化问答对。

      • 定性模板(例:“Region[X]是什么颜色的?”)和定量模板(例:“Region[X]的高度是多少米?”)。

      • 提供“地区[X]”实体标识符以关联区域掩码。

    • 基于LLM的复杂推理问答:增强模型的多跳空间推理能力。

      • 使用 Llama3-70B生成复杂问题,输入为场景图属性的自然语言描述(如“Region[X]右侧有一个红色物体,它与Region[Y]的距离是多少?”)。

      • Prompt格式:将场景图属性转换为上下文描述,结合“地区[X]”标签引导LLM生成问答。

  • 数据集特性

    • 规模:100万张图像、500万个开放词汇区域、800万模板问答 + 70万LLM生成问答。

    • 多样性:覆盖室内外、虚拟场景(如Hypersim),支持多模态查询(文本+区域掩码)。

SpatialRGPT视觉语言模型架构

  • 核心模块

    • 区域表示模块

      • 输入:区域掩码/边界框;输出:区域特征嵌入。

      • 使用预训练 GroundingDino 检测掩码,并通过 ROI Align 提取局部特征。

    • 深度插件模块:将单目深度图融入现有二维VLM。

      • 共享视觉编码器处理RGB和深度图,生成深度特征图。

      • 通过线性投影将深度特征映射到语言域,权重从RGB连接器初始化并仅在空间任务微调。

      • 无需修改原有模型结构,兼容无深度输入场景。

    • 视觉编码器扩展 :双分支架构:

      • 全局分支:继承全局语义特征。

      • 区域分支:融合区域特征与深度信息,通过交叉注意力机制增强空间推理。

  • Tokenization 与Prompt格式

    • 多模态输入:通过占位符(<图片>、<区域>、<深度>)混合图像、区域、深度特征编码。

    • Prompt模板:以“<图片>\n”为前缀,动态替换为图像级嵌入;区域掩码通过<区域>标记替换。

训练与推理范式

  • 训练阶段

    • 连接器特征对齐:预训练RGB连接器(CC3M图片-字幕对),优化图像-文本匹配损失。

    • 视觉语言预训练 :联合优化大型语言模型(LLaMA2-7B)和RGB连接器,使用MMC4和COYO语料库。

    • 指令微调:冻结LLM和RGB参数,仅微调深度连接器,使用OSD数据集进行视觉指令适配。

  • 推理阶段

    • 输入支持:兼容区域掩码或边界框,缺失掩码时调用SAM动态生成。

    • 多模态交互:通过占位符实现图像、区域、深度特征的交错编码,适配复杂空间查询。

实验与分析

三维空间推理基准测试

  • SpatialRGPT-Bench

    • 数据来源:开发了一个新的空间推理 VQA 基准测试,使用来自城市(nuScenes、KITTI)、室内(SUNRGBD、ARKitScenes)和模拟场景(Hypersim)的数据,涵盖多种物体类型,增强基准测试的全面性。

    • 物体表示:使用 Omni3D 提供的预处理三维长方体表示每个物体,所有长方体位于统一的三维相机坐标系统内,并按物体类别分类。

    • 基准测试内容:基准测试包括 657 个定性和 749 个定量 VQA 对,涵盖 88 个不同的类别。

  • 基线模型

    • 仅依赖语言的Blind LLM:仅依靠问题内容生成答案,选择 GPT-4 作为基线。

    • 带语言引用的视觉语言模型(VLMs):增加对视觉内容的访问权限,采用 GPT-4V 和 LLaVA-v1.6-34B 作为基线。

    • 具有区域意识的 VLMs:探索与 SpatialRGPT 类似区域级别能力的模型,包括 GPT-4V + SoM、LLaVA-v1.6-34B + SoM、KOSMOS-2 和 RegionVILA-7B。

  • 结果

    • 定性问答:SpatialRGPT 在定性问答的成功率方面显著优于基线模型。

    • 定量问答:SpatialRGPT 在定量问答的误差率上保持最低。

    • 变体表现:特别是 SpatialRGPT-7B 变体在表现上超越了 SpatialRGPT-7B(rgb) 变体,尤其是在可以使用相对深度信息来解决歧义的场景中。

公开视觉-语言基准测试

  • 一般基准测试

    • 评估目的:评估整合空间视觉问答数据与深度信息是否会影响其他视觉问答任务的性能。

    • 结果:SpatialRGPT 的变体在 VQA-v2 和 MM Vet 数据集上的表现略好于基线模型 VILA-1.5-3B,并且表现相似。

  • 区域和空间基准测试

    • 对象分类结果:在 COCO-2017 验证集上,SpatialRGPT 超越了基线,展示了其强大的区域认知能力。

    • 相对深度基准测试:在 BLINK 的相对深度基准测试上,SpatialRGPT 显著超越现有技术,与 GPT-4V-Turbo 相比实现了超过 20% 的准确率提升,展示了其在没有明确训练的情况下泛化到新任务的能力。

真实场景应用

  • 复杂空间推理
    • 能力展示:SpatialRGPT 能够独立作为一个复杂的空间推理器,展示了基于其自身空间知识解决复杂空间问题的能力。

    • 知识泛化:表明其已经发展出对空间学习的稳健表征,并且这种知识有效地泛化以增强其内在的语言推理能力。

  • 多跳推理
    • SpatialRGPT 能够处理多跳推理任务,展示了其对空间关系的强大理解。

  • 区域感知的密集奖励标注
    • 实验设置:在真实机器人的实验中,SpatialRGPT 被用作区域感知的密集奖励标注,随着指尖向目标移动,估计的距离单调递减。

    • 有效性证明:证明了其作为区域感知的密集奖励标注的有效性,提供了比仅使用语言的方法更为精确高效的替代方案。

总结

  • 论文提出了SpatialRGPT,一种增强视觉语言模型(VLMs)空间推理能力的框架。

  • 通过集成区域表示模块和灵活的深度信息插件,SpatialRGPT使VLMs能够在局部和全局范围内有效感知空间排列。

  • 数据管道促进了从场景图中学习3D空间知识,SpatialRGPT-Bench提供了一个评估空间认知的综合基准。

  • 结果表明,SpatialRGPT在空间推理任务中显著提高了性能,并展示了其在复杂空间关系推理和机器人任务中的区域感知密集奖励标注能力。


http://www.niftyadmin.cn/n/5862499.html

相关文章

5G-A的尔滨故事,冰雪下的科技春潮

刚刚结束的第九届亚冬会中&#xff0c;黑科技5G-A达成了刷屏级的效果。这也是5G-A首次大规模服务于国际大型体育赛事。 一场冰雪盛会之后&#xff0c;5G-A向何处去&#xff1f;这个黑科技的能力&#xff0c;将如何投放给大众消费者和企业&#xff1f;这是值得我们进一步思考的话…

GlusterFS卷管理实战指南:从扩展卷到自我修复,全面掌握高效运维技巧

#作者&#xff1a;闫乾苓 文章目录 1 扩展卷2 收缩卷3 更换故障brick3.1 更换纯分布式中的brick3.2 更换复制/分布式复制卷中的brick 4 重新平衡卷4.1 重新平衡卷以修复布局变化4.2 重新平衡卷以修复布局并迁移现有数据4.3 显示重新平衡操作的状态4.4 停止正在进行的重新平衡操…

Ae:导入 3D 模型

在 After Effects 24.1 及更高版本中&#xff0c;可以直接将 3D 模型 3D Model导入到项目&#xff0c;并将其与其他 2D 和 3D 图层一起放入合成中。 3D 模型文件主要是通过描述几何结构、材质和纹理、动画、光源与摄像机、场景结构、物理属性&#xff08;某些文件格式&#xff…

LangChain:AI大模型开发与分布式系统设计

文章目录 第一部分&#xff1a;大模型与 LangChain 基础1.1 大语言模型概述1.2 LangChain 基础 第二部分&#xff1a;模型初始化与调用2.1 自定义大模型架构 第三部分&#xff1a;高级模型设计与优化3.1 提示工程与模型调优3.2 高效处理大规模数据 第四部分&#xff1a;分布式系…

Docker-技术架构演进之路

目录 一、概述 常见概念 二、架构演进 1.单机架构 2.应用数据分离架构 3.应用服务集群架构 4.读写分离 / 主从分离架构 5.引入缓存 —— 冷热分离架构 6.垂直分库 7.业务拆分 —— 微服务 8.容器化引入——容器编排架构 三、尾声 一、概述 在进行技术学习过程中&am…

蓝桥杯 Java B 组之背包问题、最长递增子序列(LIS)

Day 4&#xff1a;背包问题、最长递增子序列&#xff08;LIS&#xff09; &#x1f4d6; 一、动态规划&#xff08;Dynamic Programming&#xff09;简介 动态规划是一种通过将复杂问题分解成更小的子问题来解决问题的算法设计思想。它主要用于解决具有最优子结构和重叠子问题…

自动驾驶之BEV概述

1、为什么需要BEV&#xff1f; 自动驾驶需要目标在3D空间的位置信息&#xff0c;传统检测为2D图像上检测目标然后IPM投影到3D。所以无论如何3D结果才是我们最终想要的。 对于单个传感器&#xff1a;通过单目3D、深度估计等手段好像能解决这个问题&#xff0c;但是往往精度不高…