OpenIN学习笔记 | LIU Xiao的读博日志

type

Post

status

Published

date

Nov 17, 2025

slug

openin

summary

StOpenIN: Open-Vocabulary Instance-Oriented Navigation in Dynamic Domestic Environments

Intro

挑战：

在日常家庭环境中，像杯子这样经常使用的物体通常位置不固定，并且在同一类别中往往存在多个实例，同时承载它们的载体也会频繁变化。

当前的目标导航方法主要关注语义层面，缺乏动态更新场景表示的能力。

解决方法：

本文捕捉了经常使用的物体及其静态载体之间的关系，构建了一种开放词汇的“载体-关系场景图”（Carrier-Relationship Scene Graph, CRSG），并在机器人导航过程中更新其承载状态，以反映场景的动态变化。

基于 CRSG，我们进一步提出了一种实例导航策略，将导航过程建模为一个马尔可夫决策过程（MDP）。在每一步中，决策依据来自大语言模型的常识知识以及视觉-语言特征相似度。

目标导航算法的要求：

开放词汇识别与指令理解，

精确的实例区分能力，

对物体状态的记忆与更新能力，

有效的导航策略。

需要关注的点

载体-关系场景图（ CRSG）如何设计

导航策略如何设计

实验怎么做的？

Method

场景图构建与更新

在日常环境中，当机器人接收到导航指令时，一个直观的策略是：机器人查询离线地图以确定目标位置并导航至该处。如果目标是一个被携带的日常物品（例如杯子），机器人会根据当前观测评估该物品是否仍位于原始位置；若不在，机器人则启动一个有策略的探索过程。我们将这一挑战定义为日常环境中的被移动实例探索任务。整体框架见图2。

离线载体-关系场景图（CRSG）

注意一点，这里的地图是预先构建的。

4) 其他对象关系（Other Object Relationships）

由于 CRSG 基于几何感知的实例点云，我们利用 GPT-4o 自动生成函数，以对象的几何属性为输入推断常见空间关系，从而为 CRSG 增添更多语义边。

导航过程中的在线 CRSG 更新

1）载体层对象的匹配与更新

输入的 RGB 图像会依次通过 CropFormer [31]、Tokenize Anything [28] 以及 SBERT [29] 进行处理，分别获得实例分割掩膜、描述性字幕以及 SBERT 特征。

2）被承载物体的添加与移除

面向实例对象的导航策略

在导航开始之前，我们假设已按照第 III-A 节所述的方法构建了初始的 CRSG，并将其作为规划器的初始化状态。输入的目标导航指令可以是文本、图像，或者二者的组合。若仅输入图像，则首先将其输入 GPT-4o 生成目标物体的文本描述（为简便起见，也将其记为 text）。随后，使用 SBERT 模型对该文本进行编码，并与 CRSG 中各对象的 SBERT 特征进行余弦相似度计算（类似公式(1)）。相似度最高的对象被选作候选目标 OctO_{ct}Oct。

我们将实例对象的探索过程建模为一个固定策略的马尔可夫决策过程（MDP），定义如下。

OK。论文写的比较复杂，导航部分实际上是在做这样的一件事：当某个物体（比如杯子）被移动了之后，机器人到底是先去哪儿找、再去哪儿找、什么时候停下来的一套“找东西策略”。

作者如何建模导航问题

用马尔可夫决策过程（MDP）。

状态（State）：你现在在哪？还剩哪些地方没找？有没有找到杯子？

动作（Action）：你下一步要去哪里？看桌子？看柜子？还是放弃？

策略（Policy）：你怎么决定“下一步去哪儿”？

停止条件（Stop）：什么时候算找到？什么时候算失败？

机器人手上有什么“信息”？（状态）

每一时刻，机器人记录 4 个东西：

自己现在的位置 L

哪些载体东西还没看过（载体 = 桌子、柜子、床、台面这些可能放东西的地方）

哪里有“疑似是目标”的东西（比如发现了一个蓝色的杯子形状）

有没有已经找到目标了（0=没找到，1=找到了）

机器人可以干什么事？（动作）

只有 3 种动作：

Explore(桌子/柜子等)

→ 到某个“可能有东西的地方”去看看

Goto(某个疑似目标)

→ 去一个“看起来很像目标”的物体那里

Stop（停止）

→ 要么找到了，要么全找完也没找到

机器人是怎么决定「下一步去哪儿」的？

当看到几个疑似目标（比如三个蓝色物体）时，它会计算每一个的“优先级”：

考虑的因素有：

像不像目标？（文本相似度，比如“蓝色杯子”）

离我远不远？（越近越优先）

摄像头看它合不合理？（太近可能看不全）

是不是在同一个房间？（同房间加分）

最后算出一个分数，去分数高的地方

机器人什么时候“认定找到了”？

作者用的是三个相似度结合：

文字相似度（SBERT）：这个物体的描述像不像“蓝色杯子”

图片相似度（GPT-4o）：图片看起来是不是同一个东西

颜色分布（RGB 直方图）：颜色是不是很相近

只有当它们的综合分数足够高，判断为找到。

实验

通过开展大量仿真与真实世界实验，我们重点研究了以下几个关键问题：

“被承载关系”和文本描述特征是否能够提升实例查询的准确性？（见第 V-A 节）

CRSG 的动态更新是否有助于实现更高效的实例导航？（见第 V-B 节）

基于 CRSG 的导航策略在面向已被移动的实例物体时是否有效？（见第 V-C 节）

评估指标（Metrics）：

本文报告了两项指标：成功率（Success Rate, SR）和按路径长度逆加权的成功率（Success weighted by inverse Path Length, SPL）。

SPL 用于衡量机器人路径的效率，其方式是将机器人实际行走路径长度与从起点到目标物体的最短路径长度进行对比。如果机器人未能到达目标，则 SPL 记为 0；否则，SPL 表示为最短路径长度与实际路径长度的比值，数值越高，表示导航性能越好。

Multi-Type Query on the Offline Map

VLMap和 ConceptGraph都构建了嵌入视觉-语言特征的离线地图，用于目标查询和机器人导航。我们将其作为基线方法，与本文方法在多类型查询准确性方面进行对比。

我们在Gibson中的 5 个场景内共进行了 85 条查询指令，涵盖不同类型的导航指令，包括：

语义型（semantic）

实例型（instance）

需求驱动型（demand-driven）

三类指令分别占总数的 17.65%、49.41% 和 32.94%。实验结果如表 I 所示，其中本文方法（Ours）的平均查询成功率为 82.4%，在所有五个场景中均为最高。

在诸如“桌子上的杯子（a cup on the table）”这样的实例查询中，我们的方法通过 CRSG 记录了杯子与桌子之间的承载关系，因而能够精确定位目标实例。相比之下，VLMap [23] 和 ConceptGraph [22] 则更容易将桌子本身误识别为目标。

此外，本文方法在 CRSG 中引入了每个实例的文本描述特征，使其能够更好地区分相似物体（如黑色杯子和白色杯子），并在查询具有特定颜色的实例时表现出更优的性能。

当查询指令中不涉及任何关系描述时，我们的方法仅基于 SBERT 特征相似度来检索目标物体。而 VLMap 则将 CLIP 特征从三维空间投影到二维网格中，这一过程可能会导致小物体的 CLIP 特征丢失。同时，其可查询的语义类别较少，从而限制了整体性能。

我们在图 4 中展示了部分查询结果，可以看到，本文方法在区分同一类别中的不同物体以及准确查询特定被承载实例方面具有明显优势。

Long-Horizon Navigation for Everyday Instances

我们在 Gibson 数据集 [32] 中的 4 个日常环境里，使用 Habitat 仿真器 [33] 进行了长时程导航实验。每个任务都包含 连续的 5 个实例目标，要求智能体按顺序依次到达。每一个目标要么是一个相对于初始 CRSG 位置发生改变的物体，要么是一个在初始 CRSG 中不存在的新物体。在每个场景中，我们设计了 5 个这样的长时程任务，因此在全部四个场景中一共形成 20 个任务。

具体来说，在每个场景中，我们放置了一些常用物品（例如黑色杯子、蓝色时钟），同时还放置了同一类别的干扰物体（如黑色杯子、白色杯子），用于测试机器人对特定实例的准确导航能力，并据此构建离线 CRSG。导航实验开始前，这些物体的位置都会被随机改变，以反映其在真实环境中的位置变化。随后，机器人被指令按照顺序导航到这些实例物体。

对比方法（Baselines）

我们选择了最新的在线探索型开放词汇导航方法 Vlfm [13] 和 Ofm [25] 作为对比基线方法。

对于 Ofm [25]，系统在导航过程中会检测物体的语义信息，当检测置信度高于某一阈值时，便会将这些信息记录在二维网格地图中。由于该阈值会对导航结果产生明显影响，我们使用了三个不同的阈值进行实验：

0.4（记作 Ofm-0.4）

0.55（官方实现，记作 Ofm-0.55）

0.7（记作 Ofm-0.7）

此外，我们还设计了一个变体方法 Ours-w/o-u，该方法在每次物体导航任务中仅依赖初始 CRSG，而不进行在线更新，并将其与 Ours 在所有场景中的 SPL 指标进行了对比。

实验结果分析

各场景的导航结果如表 II（SC(i) 和 Tasks_SR(i)）以及图 5（SPL）所示。其中：

SR(i) 表示对第 i 个目标物体的平均导航成功率；

Tasks_SR(i) 表示在长时程任务中，机器人在不中断的情况下成功依次到达前 i 个子目标的任务比例。

根据表 II 所示结果，Ours 在 SR 和 Tasks_SR(i) 两个指标上均取得了最高表现。这是由于我们的方法能够识别实例级的目标物体。通过支持图像输入，并结合文本特征、RGB 特征以及基于 MLLM（GPT-4o）的判别机制，机器人可以更精确地导航至目标实例。

相比之下，Vlfm 和 Ofm 两种方法仅支持文本输入。具体而言，Vlfm 仅能导航到一般语义类别（例如“瓶子”），而无法定位诸如“黄色瓶子”这样的具体实例，从而导致其在正确导航到指定实例时性能较差。

在图 5 中可以看到，随着目标序号的增加，Ours 的 SPL 呈稳步上升趋势，这是因为机器人在长时程任务过程中不断捕捉环境变化并更新 CRSG。因此，在后续的导航过程中，机器人往往无需再次进行大量探索，即可高效完成任务，这突出了 CRSG 动态更新的重要性，也体现了我们方法的场景维护能力（scene maintenance）。

相比之下，Ours-w/o-u 在每一次单独的物体导航都仅基于初始 CRSG，因此需要重新探索目标位置，而不是进行高效的点对点导航，导致其 SPL 始终较低。Vlfm 缺乏场景维护机制，因此随着长时程任务的推进，其 SPL 并不会提升。虽然 Ofm 具有场景记忆能力，但由于其成功率较低，其 SPL 通常仍低于 Ours。

值得注意的是，在场景 5 中，Ours 的 SPL 先上升后下降，主要原因是存在观测盲区以及目标在视觉上的模糊性，导致机器人难以区分这些视觉上相似的目标，从而使成功率降低，并进一步拉低了 SPL 的数值。其他方法在该场景中也表现出类似趋势。

Ablation Study

1）不同目标判定标准的影响

我们在场景 4 的长时程导航任务上进行了消融实验，以评估在确认是否成功导航到正确目标时，使用 GPT-4o、文本特征以及 RGB 直方图特征 的必要性。结果如表 III 所示，本文方法（Ours）始终取得最高的成功率。当去除其中任一组件（不使用 GPT-4o、不使用文本特征或不使用 RGB 特征）时，性能均有所下降，这表明这三种组件对于实现精准的目标导航都是至关重要的。

2）不同导航策略的影响

我们还在三个场景中进行了单个日常实例物体的导航实验，以评估我们所提出的导航策略中不同模块对导航效率的影响。

only-carriers_Random：随机选择一个载体对象进行探索，不考虑候选目标对象；

only-carriers_LLM：在此基础上，利用多模态大语言模型（MLLM）推荐下一个要探索的载体对象。

如表 IV 所示，Ours 在 SPL 指标上获得了最高成绩，其次是 only-carriers_LLM。这说明：

✅ 直接导航至候选目标对象，

✅ 结合 MLLM 的常识知识选择合适的载体对象，

能够显著提升导航效率。

Real-World Experiments

我们在两个涉及不同承载表面和目标实例的真实场景中开展了实验，如图 6 所示。为贴近真实条件，我们将日常物品放置在桌面上进行实验。实验使用了一台 Autolabor 机器人，其配备了 Livox Mid-360 激光雷达用于基于 SLAM 的全局位姿估计，以及 Azure Kinect DK 用于采集 RGB-D 数据。路径规划与避障则通过 ROS 的 move_base 软件包 实现。

在真实世界实验中，我们识别出了三种主要的失败模式：