【读论文002】Learning Quadrupedal Locomotion over Challenging Terrain

type

Post

status

Published

date

Jun 7, 2026

slug

summary

0. 总结

这篇论文研究如何让四足机器人在泥地、雪地、碎石、植被、水流等复杂自然地形中稳定行走。作者没有依赖摄像头或激光雷达，而是让机器人只使用本体感觉信息，并通过仿真中的强化学习、特权学习和自适应地形课程训练出鲁棒控制器。核心价值在于证明：即使仿真环境远比真实世界简单，也可以训练出能在真实复杂地形中零样本迁移的腿式机器人控制策略。

1. 研究问题（Research Problem）

这篇论文要解决的问题是：如何训练一个四足机器人控制器，使其在没有视觉地形感知的情况下，也能在真实、复杂、不可预测的自然地形中稳定移动。

这个问题重要在于，轮式和履带式机器人在泥地、碎石、雪地、台阶、植被、溪流等环境中很容易失稳，而四足机器人理论上可以像动物一样通过选择落脚点和快速调整身体姿态穿越这些区域。论文强调，以往公开工作还没有充分展示在如此多样、复杂自然环境中的动态四足行走能力，而这些场景恰好对应救援、地下空间探索、野外巡检等真实应用。

2. 研究背景（Background / Motivation）

以前的主流方法主要有两类。

第一类是传统模型控制方法：通过状态机、运动原语、反射控制器、接触检测、打滑检测等模块来控制腿部运动。这类方法的问题是系统越来越复杂，需要大量人工调参，而且接触、打滑、地形状态的显式估计在泥、雪、植被、水流等环境中很脆弱。

第二类是强化学习方法：在仿真中训练控制器，再迁移到真实机器人。此前强化学习在四足机器人上已经能实现一些动态运动，但多数集中在平地、实验室地面或相对温和的地形上，离真实自然环境还有距离。作者认为，仅靠已有的 sim-to-real 技巧，比如动力学随机化和较真实的执行器建模，还不足以让机器人在复杂粗糙地形上可靠行走。（其一是对物理系统进行逼真建模，包括执行器 [12]；其二是对仿真与现实差异的物理参数进行随机化，使控制器在物理部署中能够适应多种情况，而无需事先精确建模 [21]。我们也采用了这些方法，但发现其仍不足以在粗糙地形上实现鲁棒运动。）

3. 核心方法（Method Overview）

作者提出的是一个只依赖本体感觉的四足机器人运动控制器。输入主要来自关节编码器、IMU、机器人自身速度和姿态估计等，而不是摄像头、深度相机或 LiDAR。控制器输出的是腿部运动相关的调制信号，最终通过足端轨迹生成器、逆运动学和关节 PD 控制器转换成关节目标。

整体训练流程有三步核心思想：

第一步：训练“老师策略”

在仿真中训练一个 teacher policy。这个老师能看到真实机器人部署时看不到的信息，比如地形高度、接触状态、接触力、摩擦系数和外部扰动等。因为老师有“作弊信息”，所以它更容易学会在复杂地形上移动。

第二步：训练“学生策略”

学生策略不能看地形真值，只能看一段时间内的本体感觉历史。作者使用 TCN，也就是 temporal convolutional network，让学生从过去一段时间的关节、姿态和运动状态中推断“脚是不是卡住了”“地面是不是滑”“前面是不是有台阶”等隐含信息。学生通过模仿老师的动作和老师内部的 latent representation 来学习。

第三步：自适应地形课程学习

训练地形不是固定随机生成的，而是根据当前策略能力动态调整。太简单的地形没有训练价值，太难的地形会让机器人频繁摔倒而学不到东西；所以作者用粒子滤波维护一批“中等难度”的地形参数，比如 hills、steps、stairs，让训练难度随策略能力逐步提升。

图 4 是最值得看的方法图：左边是 teacher-student 训练流程，中间是自适应地形课程，右边是控制架构，显示神经网络如何调制足端轨迹、再通过逆运动学和 PD 控制驱动机器人。

4. 关键创新（Key Contributions）

这篇论文真正的新意不只是“用强化学习训练四足机器人”，而是把几个关键组件组合成了一个能真实落地的系统。

第一，作者用 TCN 处理本体感觉历史，而不是只看当前时刻状态的 MLP。这样控制器可以从过去几百毫秒到几秒的身体反馈中推断地形和接触情况，例如脚被卡住、脚打滑、受到外力等。

第二，作者使用 privileged learning / teacher-student learning。老师在仿真中看得到地形和接触真值，学生在真实部署时只使用本体感觉，但通过模仿老师学到了类似的隐式环境理解能力。（我们发现直接用 RL 训练粗糙地形策略效果不佳：监督信号稀疏，网络无法在合理时间内学会行走。因此，我们将训练过程分为两阶段：首先训练一个 teacher 策略，它可以访问特权信息，即地形真值和机器人接触状态；特权信息使策略快速获得高性能。然后用这个 teacher 指导仅使用机器人可用传感器的纯本体感觉 student 控制器的学习。这个特权学习协议依赖仿真，但训练得到的 student 策略可直接部署在真实机器上。）

第三，作者提出 adaptive terrain curriculum。训练地形会根据当前策略能力自动调难度，避免一开始就把机器人扔到过难地形导致学习失败，也避免一直训练太简单的地形。（根据控制器在训练不同阶段的表现生成训练地形。简而言之，地形生成策略让控制器能够遍历，同时逐步增强鲁棒性。我们评估参数化地形的可通行性，并用粒子滤波维护中等难度地形的分布 [24, 25]，随神经网络学习动态调整。训练条件逐渐变得更具挑战性，从而产生一个全向控制器，兼具敏捷性与前所未有的鲁棒性。）

第四，这篇论文的重要贡献是真实世界验证非常强。机器人在泥、雪、碎石、湿苔藓、植被、水流、地下挑战赛楼梯等环境中进行了零样本部署，而且同一代机器人在不同环境中使用同一个控制器，不需要针对场景调参。

5. 实验设计（Experiments）

这篇论文没有传统意义上的图像或语言“数据集”。它的训练数据来自仿真中的机器人交互轨迹，地形由程序生成，主要包括 hills、steps、stairs 等参数化刚性地形；真实测试则包括自然地形、室内碎片地形、台阶、负载、打滑地面和 DARPA Subterranean Challenge Urban Circuit。

对比方法主要是一个已有的 state-of-the-art ANYmal 控制器，也就是基于传统模型控制和运动优化的 baseline；此外，作者还做了消融实验，比较不同记忆长度的 TCN、是否使用 privileged learning、是否使用 adaptive terrain curriculum。

结果上，真实自然环境中，（这些环境具有策略在训练中未经历的特性：地形可变形和塌陷，表面材质存在显著差异，机器人的腿部经常受到植被、碎石和黏性泥土的扰动。）作者方法在湿苔藓上的平均速度是 0.452 m/s，baseline 是 0.199 m/s，约为 2.27 倍；在泥地上是 0.338 m/s 对 0.197 m/s，约为 1.72 倍。机械 COT 方面，湿苔藓上从 baseline 的 0.625 降到 0.423，泥地上从 0.931 降到 0.692，说明速度更快且能耗效率更好；在植被环境中 baseline 没有稳定结果，而作者方法仍能达到 0.248 m/s。

我们计算了无量纲运输成本（COT）以比较不同速度下控制器的能效。机械 COT 定义为：。其中为关节力矩，为关节速度，mg为机器人总重量，v为运动速度。该指标表示单位重量和单位速度下执行器施加的正机械功 [28]。

在 DARPA Subterranean Challenge Urban Circuit 中，这个控制器驱动两台 ANYmal-B 完成四次 60 分钟任务，并且论文报告了零失败率。

室内实验中，机器人能在松动木板和碎片上行走，还能表现出“脚被卡住后抬高脚跨过去”的自发反射行为；例如在 16.8 cm 台阶实验中，控制器能仅凭本体感觉识别 foot-trapping，并提高足端高度越过障碍。

消融实验也很关键：TCN-100，也就是约 2 秒历史的模型，比只看 20 ms 历史的 TCN-1 在外力扰动下方向偏差低 35.5%；不使用 privileged training 的 TCN-20 基本学不会稳定行走；不使用 adaptive curriculum 的 teacher 收敛奖励和测试成功率也明显更低。

6. 优点与局限（Strengths & Limitations）

优点很明显：第一，真实世界验证强，不只是仿真结果；第二，只用本体感觉，不依赖容易失效的视觉或 LiDAR，因此在雪、水、植被等视觉困难场景中更可靠；第三，teacher-student 设计很好地利用了仿真中的 privileged information，同时保证真实部署时不需要这些信息；第四，TCN 历史建模让策略能形成某种“隐式地形记忆”。

这篇论文还有一个很有价值的分析：作者训练 decoder 从 TCN 的中间表示中重建地形、接触和外力等 privileged information，说明学生策略并不是简单反射式控制，而是在本体感觉历史中编码了环境信息。图 6 展示了脚碰到台阶后，策略对过去 foot-trapping 时刻的关节信息保持高敏感度。

局限也存在。第一，论文中的控制器主要表现为 trot gait，步态多样性有限；第二，完全盲走意味着机器人无法提前知道悬崖、深坑等致命地形，只能“碰到后再反应”；第三，虽然零样本迁移很强，但训练仍依赖精心设计的仿真、执行器模型、课程学习和机器人平台经验；第四，方法没有解决高层路径规划和视觉地形理解问题，更多是在解决底层鲁棒运动控制。

作者自己也指出，未来方向应该是结合本体感觉与外部感知：即使视觉失效，机器人也能盲走；当视觉可用时，又能提前规划更快、更安全、更节能的运动。

7. 科研启发（Research Insights）

这篇论文给人的最大启发是：真实世界复杂性不一定要被完整仿真出来。仿真中没有泥、雪、植被、水流这些复杂物理现象，但只要训练策略学会从本体感觉历史中恢复关键隐变量，它仍然可能迁移到真实复杂环境。

第二个启发是，teacher-student learning 非常适合机器人学习。仿真里可以给 teacher 很多“真实世界拿不到的信息”，例如接触力、摩擦、地形高度；真实机器人只部署 student，从而兼顾训练效率和部署可行性。

第三个启发是，curriculum learning 在机器人强化学习中不是锦上添花，而可能是成功训练的必要条件。直接随机采样复杂地形会产生大量失败轨迹，学习信号很差；自适应课程能让策略一直处在“刚好有挑战但还能学到东西”的区域。

后续研究可以从几个方向改进：加入视觉或触觉外感知，形成 proprioception + exteroception 的混合策略；学习多种 gait，而不只局限于 trot；让控制器根据任务目标自适应选择速度、能耗和安全性；把这种 teacher-student + curriculum 框架推广到双足机器人、机械臂接触操作或空地复杂移动机器人。

8.方法详情

Overview

所提出控制器的主要目标是根据指令在粗糙地形上移动。指令可以由人工操作者或高层导航控制器给出。在我们的设计中，与许多现有工作 [12, 14, 16] 不同，它们侧重于追踪基座目标速度（IBBvT），我们只向控制器提供方向信息（IBBvˆT）。原因在于，在复杂地形上目标速度的可行范围通常不明确，例如，机器人下坡行走可能比上坡更快。

指令向量定义为：〈(IBBvˆT)xy, (ωˆ T)z〉。第一部分是基座坐标系下的目标水平方向：

其中ψT为基座坐标系中指令方向的偏航角。停止命令定义为〈0.0, 0.0〉。第二部分是旋转方向：其中 1 表示沿基座 z 轴逆时针旋转。

图 4 给出了方法概览。我们使用了一种 特权学习策略，灵感来自“通过作弊学习” [23]（图 4A）。首先训练一个 teacher 策略，它可以访问地形的特权信息。然后将该 teacher 策略蒸馏为仅依赖本体感觉的 student 策略，不使用特权信息。teacher 策略仅限于仿真，但 student 策略可直接部署在真实机器上。与 Chen 等人 [23] 的方法不同，我们不依赖专家示范来训练 teacher，而是通过强化学习训练 teacher 策略。

特权 teacher 模型基于多层感知器（MLP），输入包含机器人当前状态、地形属性以及机器人与地形的接触信息。模型计算一个潜在嵌入向量表示当前状态，并输出动作。训练目标是奖励机器人沿指定方向移动。

在 teacher 策略训练完成后，它被用来监督本体感觉 student 策略。student 模型为时序卷积网络（TCN）[22]，输入为长度为 N 的本体感觉观测序列。student 策略通过模仿学习进行训练，teacher 计算的和用作监督信号（见图 4A）。

训练在仿真中生成的程序化地形上进行。地形根据策略当前技能水平自适应生成，以促进学习。我们定义了地形可通行性指标，并开发了基于采样的方法，在训练过程中选择难度适中的地形。利用粒子滤波保持合适的地形参数分布（图 4B）。地形课程在 teacher 和 student 的训练中均适用。

控制架构如图 4C 所示。我们采用 Policies Modulating Trajectory Generators (PMTG) 架构 [34] 提供运动生成先验。神经网络策略通过合成残差位置指令来调制腿部相位和运动原语。

仿真中使用了学习到的机器人关节 PD 控制器动力学模型 [12]，这有助于策略从仿真迁移到现实。仿真训练完成后，本体感觉控制器可直接部署在真实腿式机器人上，无需额外微调。

运动生成

我们进一步介绍图 4C 中的控制架构，它分为运动生成和轨迹跟踪两部分。控制器的输入包括指令向量和一系列本体感觉测量，如基座速度、姿态和关节状态。控制器不使用任何外部感知输入（例如触觉传感器、摄像头或深度传感器），输入也不包含任何手工特征，如脚接触状态或估计地形几何。控制器输出为关节位置目标。

我们的运动生成策略基于周期性腿部相位。以往工作通常使用预定义的脚接触计划 [2, 26, 35]。我们为每条腿定义一个周期性相位变量当时表示接触相位，\phi 时表示摆动相位。每个时间步t，相位更新为：

其中为初始相位，为基础频率，为第i条腿的频率偏移。当时，腿部表现为周期性运动，并在接触相位触地。我们将设置为 1.25 Hz，即之前 trot 步态的传统控制器所使用的频率 [26]。

运动生成模块输出的目标脚位置定义在水平参考系 Hi（i ∈ {1,2,3,4}）中 [35]。Hi 为第 i 条腿髋关节下方的参考框架，其距离为腿的名义可达长度。Hi 的 z 轴与重力方向平行，x 轴为基座 x 轴在水平面的投影，即 Hi 与机器人偏航角一致。Hi 的横滚和俯仰角与基座解耦，此运动学技巧可减小基座姿态对脚部运动的影响 [35]，从而稳定训练。在 Hi 中定义输出可以减少策略训练初期因基座运动不稳定而导致的提前终止，同时可以在策略训练中将随机策略的动作分布沿水平与垂直方向分解。在水平方向施加较大噪声以促进地面探索。

我们采用 PMTG 架构 [34] 将神经网络整合到控制器中。实现中包含四个相同的脚部轨迹生成器（FTG）和一个神经网络策略。FTG 为函数，输出每条腿的脚部位置目标。当时，FTG 驱动垂直踏步运动。F(φ) 定义详见补充 S3。策略输出和脚部位置残差，i 条腿目标脚位置为：

轨迹跟踪使用解析逆运动学（IK）和关节位置控制。首先将 Hi 中定义的脚位置目标转换到机器人基座坐标系，再通过解析 IK 计算关节位置目标，最后由关节 PD 控制器跟踪。使用解析 IK 的主要目的是最大化计算效率，并复用现有关节位置控制执行器模型 [6, 15]，便于仿真到现实迁移。

Teacher Policy（教师策略）

我们将控制问题建模为马尔可夫决策过程（MDP）。MDP 是一种数学框架，用于建模离散时间控制过程，其中状态演化和结果部分随机。MDP 由状态空间 S、动作空间 A、奖励函数 R(st, st+1) 及转移概率 P(st+1|st, at) 定义。学习代理根据策略选择动作并获得环境奖励。RL 框架的目标是找到最优策略，使折扣奖励总和最大化。

假设环境对 teacher 完全可观测，我们将腿式运动控制建模为 MDP，并使用现成RL方法 [36] 求解。本节给出teacher的MDP定义：状态空间、动作空间、转移概率和奖励函数组成的四元组。

状态定义为，其中为机器人可测量向量，为通常在真实世界不可获得的特权信息。包含指令、姿态、基座速度（twist）、关节位置与速度、腿相位、腿频和前次脚位置目标。还包含-0.01 s 和 -0.02 s 的关节位置误差与速度，与关节PD控制器学习模型输入一致，便于策略利用执行器动力学 [12]。腿相位用编码，以提供平滑且唯一表示。前次脚位置目标也反馈给策略，用于计算平滑性奖励。student 部署时，替换为本体感觉传感器读数，基座速度和姿态由状态估计器提供 [37]。包含来自物理引擎的无噪信息，主要包括脚-地交互信息，如地形轮廓、接触状态和力、摩擦系数及训练中施加的外部扰动力。地形轮廓通过每个脚周围 9 个扫描点的高度表示，扫描点沿半径 10 cm 圆形对称分布（见图 4）。

动作为 16 维向量，包括腿频和脚位置残差。奖励函数设计为 RL 代理越快接近目标，获得奖励越高，详细定义见补充 S4。

策略网络由两个MLP模块构成（图 4A）。MLP 编码器将嵌入潜在向量，由于指令和机器人状态未包含在中，仅包含地形和接触特征。我们假设驱动自适应行为，如根据地形调整脚离地高度。然后与一起输入后续 MLP 层计算动作。训练采用 Trust Region Policy Optimization（TRPO）[36]，超参数见表 S7。

Student Policy（学生策略）

本体感觉 student 策略仅能访问。关键假设是潜在特征可从本体感觉观测序列部分恢复，定义为：

学生策略使用时序卷积网络（TCN）[22] 编码器，输入为 H = {h_{t-1}, …, h_{t-N-1}}，其中 N 为历史长度。编码器为全卷积结构，由三层扩张因果卷积层交错步幅卷积层组成以降低维度，具体架构见表 S5 和 S6。TCN 架构便于控制输入历史长度，可处理长历史，并对超参数设置鲁棒 [22]。与循环网络的对比见补充 S8。

学生策略通过监督学习训练。损失函数定义为：

带-符号的量为 teacher 生成的目标值。训练使用数据聚合策略（DAgger）[38]：由学生策略展开轨迹生成训练数据，对每个访问状态，teacher 计算其嵌入和动作向量（̄·），作为监督信号。超参数见表 S8。

自适应地形课程（Adaptive Terrain Curriculum）

我们的方法受到强化学习智能体自动课程学习（Automatic Curriculum Learning, ACL）方法 [25,39] 的启发。Paired Open-Ended Trailblazer（POET）方法 [25] 为二维双足机器人生成多样化的参数化地形。该方法采用最小准则（Minimal Criteria, MC）[24,40]，其目标是选择对智能体来说既不过于困难也不过于简单的环境参数：具体通过选择能够产生中等水平奖励的任务参数来实现。Florensa 等人 [39] 也采用类似思想，为强化学习智能体选择可实现但具有挑战性的目标。

我们的方法同样构建了一种训练课程，通过逐步调整环境参数的分布，使策略能够持续提升运动能力并泛化到新的环境。与 POET 不同的是，POET 旨在对问题空间进行开放式搜索，并演化出一组专门化智能体；而我们的目标是获得一个通用型智能体。

图 4B 展示了训练环境中使用的地形类型。每种地形都由参数向量生成。地形的详细定义见补充材料S5。我们的 ACL 方法利用粒子滤波器来近似表示理想地形参数的分布。

我们首先介绍如何在仿真中评估给定的。不同于直接使用奖励函数评估学习进展 [25,41–43]，我们通过生成地形的可通行性（traversability）来评估，其定义为机器人成功穿越该地形的概率。我们发现，可通行性比奖励函数更加直观，因为奖励函数通常包含多个目标且往往无界。

我们首先定义标记函数：

其中状态从转移到。表示在时刻t+1时机器人基座速度与指令方向的内积。如果策略能够沿指令方向以高于 0.2 m/s 的速度移动，则认为该方向上的地形是可通行的。该阈值是一个超参数；0.2 m/s 大约是机器人最大速度的三分之一。

可通行性定义为：

其中表示由策略π生成的轨迹。这与先前工作 [44] 中经验可通行性的定义一致。

我们地形生成方法的目标是寻找具有中等可通行性的：

其思想是生成既不太容易也不太困难的地形。

我们定义地形可取性（terrain desirability）如下：

其中 0.5 和 0.9 分别为最小和最大可通行性的固定阈值。

训练过程中，我们利用粒子滤波器跟踪高可取性的分布。具体来说，我们构建了一个粒子滤波问题，用有限个采样点来近似满足的地形参数分布。

我们的算法基于 Sequential Importance Resampling（SIR）粒子滤波器，并建立在以下假设之上：

具有相似的地形参数，在参数空间中的欧氏距离也相近。

在参数空间某一区域对应地形上训练得到的策略，能够插值泛化到邻近参数。

构成一个马尔可夫过程，其中在第j次迭代时：

第一个假设来源于这样一个观察：地形参数是可以插值的。例如，随着台阶高度增加，楼梯难度也会逐渐增加。

第二个假设说明，可以使用参数空间中的离散样本来训练能够泛化到该区域的策略。

第三个假设则是建立粒子滤波模型所必需的。

对于每个，定义重要性权重。所有二元组共同近似目标分布（即满足的地形参数）。

定义观测变量：

当且仅当

此时，前面定义的地形可取性可表示为观测概率：

在实际实现中，观测概率通过训练过程中采集样本的经验期望来估计：

其中表示使用生成的轨迹数量。

这些轨迹同时也用于策略训练。因此，我们的方法不需要额外评估步骤来推进地形课程学习。

重采样时，第k个样本被选中的概率为归一化的重要性权重：

状态转移模型是在参数空间C上的随机游走（random walk）。每个采样点的参数以固定概率被移动到其邻近取值。由于每个参数的演化仅依赖当前值和随机噪声，因此满足第三个假设（马尔可夫过程）。

为了提高探索效率，我们对参数空间C进行了边界限制和离散化，从而缩小搜索空间。初始样本。要么从C中均匀采样，要么集中分布在近似平坦的地形附近。

实现细节以及训练流程概览见补充材料 S2 和补充算法 S1。

💡

作者设计了一个“自动出题系统”，它会不断寻找机器人当前水平最适合练习的地形（成功率约50%-90%），随着机器人变强自动提高难度，从而比随机生成地形训练得更快、更稳、更鲁棒。论文里不直接用复杂的 reward，而是用“机器人能否成功走过去”这个可通行率来衡量地形难度，更直观也更稳定。

9. 方法验证

我们进行了消融实验以验证方法中各个组件的重要性：（1）学生策略采用序列模型；（2）特权训练（Privileged Training）；（3）自适应地形课程（Adaptive Terrain Curriculum）。

本体感觉控制中的记忆

我们通过 TCN 架构 [22] 评估在控制器中引入本体感觉记忆的重要性。TCN-N 表示具有 N 个时间步感受域的 TCN 网络。网络架构详见表 S5。我们在专门设计的诊断场景中测试控制器能力，包括：斜坡上的全向运动、离散台阶的通行以及对外部扰动的鲁棒性（图 5A）。

图 5B-D 总结了记忆长度 N 的重要性。在实验中，N 从 1（对应 20 ms 记忆）变化到 100（2 s 本体感觉记忆），后者为部署控制器的默认设置。

图 5B 显示，在均匀斜坡场景中，记忆长度对性能影响不大。

记忆长度对通过台阶的能力有显著影响（图 5B-C）。记忆较长的控制器能够通过更高的台阶。图 5C 显示，当后腿遇到台阶时，短记忆控制器的失败率特别高。长记忆控制器还能自适应调整后腿轨迹以确保更高的脚离地高度。

图 5D 显示，记忆较长的控制器对外部扰动更鲁棒。我们在直行时对基座施加 50 N 横向外力，持续 5 s，评估对期望运动方向的偏离。TCN-100 控制器的偏离比 TCN-1 低 35.5%。

特权训练（Privileged Training）

我们评估特权训练的重要性。作为对照，我们直接训练 TCN-20 策略，不采用两阶段特权训练。该策略通过 TRPO [36] 使用与教师训练相同的奖励和超参数训练。与使用特权学习的 TCN-20 相比（同一架构），对照策略表现如下：

图 5E：对照策略在诊断测试中失败，无法在斜坡上行走或通过台阶。

图 5F：对照策略训练过程中奖励远低于使用教师 MLP 架构或通过特权学习训练的 TCN-20。

图 5G：训练期间的平均回合长度表明，对照策略无法学会平衡与行走。

自适应地形课程（Adaptive Terrain Curriculum）

我们评估自适应地形课程对教师训练的效果。训练中使用的地形包括丘陵、台阶和楼梯（图 4B）。作为对照，我们使用从 C 均匀随机采样生成的地形训练教师。结果显示（图 5H），不使用自适应课程训练的教师在测试地形上的成功率显著下降。图 5I 显示，不使用自适应课程的教师奖励水平较低且训练停滞。训练过程中，不使用自适应课程的模型平均回合长度更短（图 5J），因为均匀采样更可能生成无法成功通行的地形，使策略早期失败并获得较少训练信号。自适应课程通过调节采样地形难度，最大化每次训练回合的学习价值。更多自适应课程评估见补充材料 S6。

新兴行为的进一步分析

我们进一步分析本体感觉策略如何适应不同情况。

为了研究策略如何感知环境，我们训练了一个解码器网络，从训练好的 TCN 中间层输出重建特权信息 xt∈X。xt 包含学生策略无法直接观测的信息，如接触状态、地形形状和外部扰动。

对接触状态分类使用交叉熵损失；其他状态回归预测均值 mi 和标准差 σi，使用负高斯对数似然量化 TCN 表征的不确定性 [45]：

并加入权重衰减。gt 表示仿真生成的真值。策略网络参数在解码器训练期间保持固定，因此解码器不参与策略训练，仅用于分析 TCN 学到的信息。

图 6A 展示了脚被卡反射动作，图 6B 展示重建的地形和接触状态。当左前脚碰到台阶时，前方地形估计高度上升且不确定性增加（i+ii），在脚被卡反射过程中，估计高度和法向量随台阶调整（iii+iv），成功踏上台阶后，不确定性仍保持较高（v），表示对整体粗糙地形的预测。解码器还能检测水平和垂直面的脚接触，并识别正面碰撞（i+iii）。