ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

10878点击 2026-04-02 16:22

近年来，Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型，智能体能够在内部模拟未来，从而进行规划与决策。但当系统从单机器人扩展到多机器人时，问题开始变得棘手。

在多机器人系统中，世界的变化不再由单独个体决定，而是由多个个体共同作用。于是，一个关键问题是：如何让世界模型能够理解多机器人系统的联合动力学？

为了解决这一挑战，中科院自动化所深度强化学习团队提出 SeqWM，对多机器人联合动力学进行顺序式的因果条件化分解，使机器人能够在意图共享的基础上进行协同规划。该成果已被 ICLR 2026 接收，并在评审中获得 8 / 8 / 8 / 2 的评分。

论文标题：Empowering Multi-Robot Cooperation via Sequential World Models
代码地址：https://github.com/zhaozijie2022/seqwm

为什么多机器人协作如此困难？

当多个机器人同时参与决策时，系统的动力学会迅速变得复杂：每个机器人的动作都会影响环境，也会影响其他机器人接下来的决策。这使得多机器人协作成为强化学习和机器人领域长期以来的核心难题。核心原因在于：世界不再由单一策略驱动，而是由多个智能体共同决定。这带来了两个关键挑战：

因果结构复杂化：多个机器人同时作用于环境，导致动力学模型需要同时处理多个「因果源」，学习难度显著增加。强行共享策略易产生梯度冲突。
决策 - 世界闭环被打破：在单机器人场景中，动作 → 环境变化之间形成稳定闭环；而在多机器人系统中，每个机器人都受到其他机器人的影响，预测误差会迅速累积。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

图 1：多智能体世界建模困境：在多个 robot 的作用下，足球去向哪里？

SeqWM：多机器人世界模型的顺序式因果分解

现有方法通常把多机器人系统看作一个整体：所有机器人的状态和动作会同时输入到一个统一模型中，进而预测未来环境变化。然而，随着机器人数量增加，这种联合动力学建模的复杂度会迅速增长，使得模型难以稳定学习和泛化，也增大了部署的难度。

SeqWM 从一个全新的视角重新思考了这个问题。研究团队提出一个关键观察：

多机器人世界的变化，其实可以被建模为多个机器人依次作用于环境的过程。

基于这一观察，SeqWM 不再试图学习一个复杂的整体动力学函数，而是将联合动力学分解为一系列顺序条件化的状态转移过程。每个机器人只需要学习：在已知前序机器人动作的条件下，自己对世界状态演化所产生的边际因果贡献。形式上，原本的联合动力学被重写为顺序条件化的分解形式：

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

这种顺序式分解将复杂的多机器人动力学转化为一系列条件预测问题，从而显著降低了建模难度。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

图 2：R1 先规划并共享未来轨迹，R2 据此调整路径，实现对房间的协同探索

在轨迹预测阶段，

每个机器人维护一个独立的世界模型
每个模型只建模自身对环境的边际贡献
后续机器人在预测时条件化前序机器人的预测结果

这种结构使得复杂的联合动力学被拆解为多个简单且可扩展的局部预测过程。

在动作规划阶段，SeqWM 使用 MPPI（Model Predictive Path Integral）进行动作规划。机器人按照顺序进行规划，并共享预测轨迹。这意味着：后续机器人在规划时，可以提前知道前序机器人的未来计划。这种机制形成了一种显式的意图共享，显著增强协作能力。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

图 3：MPPI-based planner 示意图

仿真实验对比

研究团队在两个具有挑战性的多机器人环境中评估了 SeqWM：

Bi-DexHands：双灵巧手协作操作任务
Multi-Quadruped：多四足机器人协作任务

实验结果表明：SeqWM 在所有任务中均显著超过现有方法，在性能与样本效率方面均取得领先。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

图4：仿真实验可视化

协作行为如何自然产生？

SeqWM 不仅提升了任务成功率，还产生了多种自然协作行为。例如：

预测适应（Predictive Adaptation）：机器人能够根据伙伴预测的未来动作提前调整动作。例如在接抛球任务中，接球机器人会提前移动到预测落点附近，从而稳定完成抓取。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

角色分工（Role Division）：在推箱子任务中：一只机器人负责主要推进力，另一只机器人负责方向调整。这种分工并非人工设计，而是在训练中自然产生。

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

Sim-to-Real 真实机器人实验

为了验证算法在真实环境中的效果，研究团队还将 SeqWM 部署到了 Unitree Go2-W 机器人平台。实验包括：推箱子、通过窄门、引导目标机器人：

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

实验结果表明，真实机器人系统中的协作行为与仿真结果高度一致，验证了 SeqWM 的实际应用潜力。

总结

SeqWM 提出了一种新的多机器人世界建模方式：通过顺序因果结构分解多机器人动力学。这一设计使得复杂的多机器人协作问题变得更加可建模、可规划，也为真实机器人系统提供了一种可扩展的解决方案。随着世界模型与强化学习技术的发展，未来的机器人系统或许能够像人类团队一样，通过共享意图与协同行动完成更加复杂的任务。

文章来自于"机器之心"，作者 "赵子杰"。

关键词: AI , 模型训练 , SeqWM , 具身智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md