NeurIPS-2024 | 具身智能如何理解空间关系？SpatialRGPT：视觉语言模型中的具象空间推理

作者：An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu
单位：加州大学圣地亚哥分校，NVIDIA
标题：SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models
原文链接：https://www.anjiecheng.me/assets/SpatialRGPT/Spatial_RGPT.pdf
项目主页：https://www.anjiecheng.me/SpatialRGPT
代码链接：https://github.com/AnjieCheng/SpatialRGPT

主要贡献

提出 SpatialRGPT 框架：通过 区域表示模块 和 深度信息插件，增强 VLM 对局部区域（如物体、位置）和三维几何的推理能力，实现深度信息的灵活融合而无需完全重构模型。
构建OSD数据集：从单张图像生成带 3D 场景图 的大规模数据集，包含物体检测、深度估计和空间关系标注，支持训练区域感知的 VLM。
推出 SpatialRGPT-Bench 基准：首个多环境（室内外、虚拟场景）的三维空间认知评测基准，提供细粒度标注和量化指标，促进公平性评估。
推动下游应用：机器人密集奖励标注：通过区域边界框指导模型预测动作结果。独立复杂推理：无需 LLM 协助，直接回答多跳空间问题。

研究背景

研究问题

论文主要解决的问题是视觉语言模型（VLMs）在空间推理方面的能力有限问题，尤其是在理解和推理复杂的空间关系方面。

研究难点

该问题的研究难点包括：

区分简单的空间概念（如“左”和“右”、“上”和“下”）以及更复杂的关系（如“后面”和“前面”、“里面”和“外面”、“近”和“远”）；
仅依赖RGB像素数据无法准确感知空间关系，需要融入深度信息。

方法概述

从单张二维图像构建三维场景图

图像过滤
- 移除不合适的图像（如模糊、低质量图像），具体标准见附录F.1。
开放词汇检测与分割：生成高精度掩码以构建精确三维边界框。
- 使用开放词汇图像标注模型（如GroundingDino）识别图像中所有对象的类别标签。
- 通过二维检测器（GroundingDino）生成对象边界框。
- 应用分割模型将边界框细化为像素级掩码，避免依赖多边形或压缩掩码标注。
深度估计：从单张图像恢复 metric 深度图，解决尺度模糊问题。
- 采用 Metric3Dv2，其通过联合优化深度和表面法线预测，减少对特定数据集（如KITTI、NYU）的过拟合。
- 结合 WildCamera校准相机内参（焦距、光心），提升对真实场景的鲁棒性。
相机标定与点云处理
- 内参估计：使用 WildCamera 估计相机焦距和光心参数。
- 坐标转换：通过 PerspectiveFields 将点云从相机坐标系转换为地理坐标系（俯仰角、滚动角），无需依赖特定平面分割（如地面或桌面）。
三维场景图构建
- 节点定义：每个节点包含对象类别、宽度和高度。
- 边界框生成：从深度图反投影点云，经规范化和去噪后生成轴对齐边界框（AABB）。
- 空间关系计算：基于点云质心和边界框计算相对关系（左/右、宽/窄等）和度量关系（距离、方位角）。边类型包括相对位置（如“Region A在Region B左侧”）和几何属性（如“Region C高度为50cm”）。

从三维场景图学习空间感知VLM

数据生成策略
- 基于模板的问答：提取场景图属性（如节点尺寸、空间关系），生成结构化问答对。
  - 定性模板（例：“Region[X]是什么颜色的？”）和定量模板（例：“Region[X]的高度是多少米？”）。
  - 提供“地区[X]”实体标识符以关联区域掩码。
- 基于LLM的复杂推理问答：增强模型的多跳空间推理能力。
  - 使用 Llama3-70B生成复杂问题，输入为场景图属性的自然语言描述（如“Region[X]右侧有一个红色物体，它与Region[Y]的距离是多少？”）。
  - Prompt格式：将场景图属性转换为上下文描述，结合“地区[X]”标签引导LLM生成问答。
数据集特性
- 规模：100万张图像、500万个开放词汇区域、800万模板问答 + 70万LLM生成问答。
- 多样性：覆盖室内外、虚拟场景（如Hypersim），支持多模态查询（文本+区域掩码）。

SpatialRGPT视觉语言模型架构

核心模块
- 区域表示模块
  - 输入：区域掩码/边界框；输出：区域特征嵌入。
  - 使用预训练 GroundingDino 检测掩码，并通过 ROI Align 提取局部特征。
- 深度插件模块：将单目深度图融入现有二维VLM。
  - 共享视觉编码器处理RGB和深度图，生成深度特征图。
  - 通过线性投影将深度特征映射到语言域，权重从RGB连接器初始化并仅在空间任务微调。
  - 无需修改原有模型结构，兼容无深度输入场景。
- 视觉编码器扩展 ：双分支架构：
  - 全局分支：继承全局语义特征。
  - 区域分支：融合区域特征与深度信息，通过交叉注意力机制增强空间推理。
Tokenization 与Prompt格式
- 多模态输入：通过占位符（<图片>、<区域>、<深度>）混合图像、区域、深度特征编码。
- Prompt模板：以“<图片>\n”为前缀，动态替换为图像级嵌入；区域掩码通过<区域>标记替换。

训练与推理范式

训练阶段
- 连接器特征对齐：预训练RGB连接器（CC3M图片-字幕对），优化图像-文本匹配损失。
- 视觉语言预训练 ：联合优化大型语言模型（LLaMA2-7B）和RGB连接器，使用MMC4和COYO语料库。
- 指令微调：冻结LLM和RGB参数，仅微调深度连接器，使用OSD数据集进行视觉指令适配。
推理阶段
- 输入支持：兼容区域掩码或边界框，缺失掩码时调用SAM动态生成。
- 多模态交互：通过占位符实现图像、区域、深度特征的交错编码，适配复杂空间查询。

实验与分析

三维空间推理基准测试

SpatialRGPT-Bench
- 数据来源：开发了一个新的空间推理 VQA 基准测试，使用来自城市（nuScenes、KITTI）、室内（SUNRGBD、ARKitScenes）和模拟场景（Hypersim）的数据，涵盖多种物体类型，增强基准测试的全面性。
- 物体表示：使用 Omni3D 提供的预处理三维长方体表示每个物体，所有长方体位于统一的三维相机坐标系统内，并按物体类别分类。
- 基准测试内容：基准测试包括 657 个定性和 749 个定量 VQA 对，涵盖 88 个不同的类别。
基线模型：
- 仅依赖语言的Blind LLM：仅依靠问题内容生成答案，选择 GPT-4 作为基线。
- 带语言引用的视觉语言模型（VLMs）：增加对视觉内容的访问权限，采用 GPT-4V 和 LLaVA-v1.6-34B 作为基线。
- 具有区域意识的 VLMs：探索与 SpatialRGPT 类似区域级别能力的模型，包括 GPT-4V + SoM、LLaVA-v1.6-34B + SoM、KOSMOS-2 和 RegionVILA-7B。
结果：
- 定性问答：SpatialRGPT 在定性问答的成功率方面显著优于基线模型。
- 定量问答：SpatialRGPT 在定量问答的误差率上保持最低。
- 变体表现：特别是 SpatialRGPT-7B 变体在表现上超越了 SpatialRGPT-7B(rgb) 变体，尤其是在可以使用相对深度信息来解决歧义的场景中。

公开视觉-语言基准测试

一般基准测试：
- 评估目的：评估整合空间视觉问答数据与深度信息是否会影响其他视觉问答任务的性能。
- 结果：SpatialRGPT 的变体在 VQA-v2 和 MM Vet 数据集上的表现略好于基线模型 VILA-1.5-3B，并且表现相似。
区域和空间基准测试：
- 对象分类结果：在 COCO-2017 验证集上，SpatialRGPT 超越了基线，展示了其强大的区域认知能力。
- 相对深度基准测试：在 BLINK 的相对深度基准测试上，SpatialRGPT 显著超越现有技术，与 GPT-4V-Turbo 相比实现了超过 20% 的准确率提升，展示了其在没有明确训练的情况下泛化到新任务的能力。