AI 如何走向三维世界:生成、行动与表征学习

为什么 3D / World Model 成为新焦点

近年来,“空间智能”与”世界模型”成为 AI 领域的热点话题。从 World Labs 的 RTFM 到 Google DeepMind 的 SIMA,再到 Yann LeCun 提出的 JEPA 与能量模型(EBM),这些工作分别对应着 AI 走向三维世界的不同层面:

生成可探索的世界  →  在世界中执行任务  →  学习世界表征  →  评估预测合理性
    (RTFM)              (SIMA)           (JEPA)           (EBM)

需要注意的是,这四者不是同一层级的概念:RTFM 和 SIMA 是具体的系统,JEPA 是一种表征学习架构,而 EBM 是更抽象的建模范式。本文尝试梳理这四条技术线索,展示 AI 如何从 2D 生成走向 3D 空间智能。


1. 生成世界:World Labs 的 RTFM

它生成的是什么

RTFM(Real-Time Frame Model)是由人工智能先驱李飞飞(Fei-Fei Li)创立的 World Labs 推出的实时生成式世界模型。它是一个基于自回归扩散 Transformer 的高效模型,能够在用户交互时实时生成视频,用于探索生成的 3D 世界和真实世界场景。([World Labs][1])

RTFM 不走传统 mesh、Gaussian splatting 等显式 3D 表示路线,而是从一张或多张 2D 图像出发,实时生成同一场景的新视角画面,并通过带位姿的帧记忆维持空间一致性和持久性。([World Labs][1])

更准确地说:

RTFM 生成的是一个具有 3D 一致性和持久性的可交互世界体验;其内部并不显式输出传统 3D 几何,而是通过 posed frames 与注意力机制形成隐式空间记忆。

它不是传统 3D 建模

传统的 3D 建模(如游戏场景搭建)需要耗费大量人力和时间。RTFM 打破了这一限制,它能够在不需要传统显式 3D 建模的情况下,仅凭借一张或少量 2D 图片,就能实时生成同一场景的新视角画面

核心:Learned Renderer + Posed-Frame Spatial Memory

学习视觉规律,而非完整物理规律

通过端到端的海量视频数据训练,RTFM 展示了从视频数据中学习视角变换、光照、反射、阴影等渲染相关规律的能力。它模糊了”从已有视角插值重建”和”从少量视角外推生成”的边界,更准确地说,这是一种 learned renderer。([World Labs][1])

持久性的来源:带位姿的帧记忆

RTFM 的”持久性”不来自完整 3D 重建,而来自带位姿的帧记忆:模型把历史帧组织在三维欧氏空间中,生成新视角时检索附近 posed frames 作为上下文。每一帧带有 3D 位姿,生成新帧时根据目标 pose 查询空间记忆,并通过 context juggling 检索附近帧作为上下文,从而避免上下文无限增长。([World Labs][1])

极低的实时算力门槛

RTFM 解决的另一大痛点是”效率”。它能够在单张 NVIDIA H100 GPU 上以交互式帧率实时运行。这为未来的跨媒体创作、游戏、虚拟现实以及需要”空间智能”的机器人技术提供了强大的实时环境生成底座。


2. 在世界中行动:Google DeepMind 的 SIMA / SIMA 2

SIMA:从语言指令到 3D 行动

SIMA(Scalable Instructable Multiworld Agent,可扩展的、可听从指令的多世界智能体)是由 Google DeepMind 于 2024 年 3 月发布的通用具身 AI 智能体。([Google DeepMind][2])

输入/输出是什么

  • 输入:屏幕画面 + 人类语言指令
  • 输出:键盘鼠标动作

训练方式

SIMA 不依赖游戏内部 API 或硬编码逻辑,完全像人类一样通过”屏幕视觉输入 + 键盘/鼠标控制”进行交互。它使用视觉-语言多模态模型,结合视觉编码器(解析游戏画面像素)与大语言模型(理解自然语言指令),将两者嵌入到共享表征空间。训练数据来自人类玩家的游戏录像与对应的自然语言指令配对,通过动作令牌化(Action Tokenization)将连续控制转化为离散动作序列,学习跨环境的通用指令遵循能力。([Google DeepMind][2])

测试环境

在 9 款差异较大的 3D 虚拟环境中进行测试,包括:

  • 《无人深空》(No Man’s Sky)
  • 《英灵神殿》(Valheim)
  • 《Teardown》
  • 《模拟山羊 3》(Goat Simulator 3)
  • 《Wobbly Life》
  • 《人类一败涂地》(Human: Fall Flat)
  • 以及 3 个定制化的 Unity 研究环境

结果表明 SIMA 能够遵循超过 1000 种基本空间与语义指令,并在未训练过的新游戏中展现出零样本泛化能力。([Google DeepMind][2])

目标定位

SIMA 的目标不是最大化某个单一游戏分数,而是把自然语言指令转化为跨环境的动作序列。以往的游戏 AI(如 AlphaGo)都是在特定游戏中追求最高胜率,而 SIMA 关注的是理解人类意图并执行任务。([Google DeepMind][2])

SIMA 2:从指令跟随到推理型游戏伙伴

SIMA 2 是 DeepMind 于 2025 年发布的后续版本,核心变化是引入 Gemini 作为推理引擎。([Google DeepMind][3])

能力增强

  • 理解复杂目标:从简单指令跟随发展到目标推理
  • 解释行为:能够解释自己的游戏行为并与用户对话
  • 跨游戏迁移:在未见过的游戏环境中展现更强泛化能力
  • 自我改进:通过与用户交互学习

意义

SIMA 2 把 embodied AI 从”技能执行器”推向”目标驱动的交互智能体”。DeepMind 将其视为迈向更通用具身智能的一步,但它距离现实机器人和开放物理世界仍有明显距离。([Google DeepMind][3])


3. 学习世界表征:JEPA

为什么不预测像素

JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)是由 Yann LeCun 提出的一种学习架构,旨在解决传统生成式模型无法真正理解物理世界的局限性。([OpenReview][5])

I-JEPA(JEPA 在图像领域的变体)通过从图像的其他区域预测特定图像区域的”表征”(representations)来进行学习。它不需要人类进行显式的数据标注,就能发展出对视觉场景的抽象理解。([arXiv][4])

与传统生成模型(如预测下一个词或生成下一个像素)不同,JEPA 避免直接预测像素级细节,而是在表征空间中预测目标区域的 latent representation,从而让模型更关注可预测的抽象结构。([arXiv][4])

为什么预测 latent representation

像素空间充满噪音和不可预测的细节(如纹理变化、光照扰动)。JEPA 的关键不在于生成逼真像素,而在于学习可预测的抽象表征。它试图让模型关注场景中稳定、可推断的结构,而不是被低层像素噪声牵引。([arXiv][4])

与生成模型的区别

I-JEPA 论文明确将其定义为 non-generative self-supervised learning 方法:从图像的 context block 预测 target block 的 representation,而不是重建像素。([arXiv][4])

需要强调的是,I-JEPA 本身主要是视觉表征学习方法。LeCun 的 2022 立场文确实提出通过 world model、joint embedding architecture、自监督学习来构建 autonomous machine intelligence,但这仍是研究路线,不是已有结果。([OpenReview][5])

这一路线的目标是让模型在 latent space 中进行预测和规划,而不是必须在像素空间中生成完整未来。


4. 用能量评估合理性:EBM

能量函数是什么

能量模型(EBM, Energy-Based Model)是 Yann LeCun 长期推崇的一个统一机器学习的理论框架。它的核心思想是借用物理学中的”能量”概念,将人工智能的学习和推理过程,转化为寻找”最低能量状态”的过程。([cis.temple.edu][6])

在 EBM 中,模型的作用是计算一个标量能量函数 ,用来衡量输入 和输出 之间的兼容度:

  • 如果它们是正确、合理的组合,模型就会给出低能量值
  • 如果是荒谬、不合理的组合,则给出高能量值

为什么适合世界模型

传统的概率模型必须计算所有可能结果的概率,并强迫它们加起来等于 1(即归一化)。在处理复杂的连续物理世界或高维视频时,计算所有可能性的概率几乎是不可能的。

EBM 的优势不是一定更快,而是它绕开了显式概率归一化,把学习问题转化为兼容性排序或能量差异建模。这极大地提升了模型的灵活性,使其更适合描述复杂的物理世界。([cis.temple.edu][6])

难点是什么

在推理阶段,如何高效搜索低能量状态仍然是核心难点。因为模型需要在所有可能的输出选项中找到能量最低的那个,这本身可能是一个昂贵的优化过程。


5. JEPA 与 EBM 的关系

从 EBM 视角看,JEPA 可以被理解为在表征空间定义能量:预测表征与目标表征越接近,能量越低。它把世界建模从像素生成转向 latent-space prediction,但具体实现不一定表现为显式的能量最小化搜索。

可以用以下公式理解这种关系:

其中 是距离函数, 分别是输入和输出的表征编码器。当预测表征和目标表征距离小时,能量低;距离大时,能量高。

因此,JEPA 的训练可以被视为一种 energy-based formulation:通过最小化”预测的未来表征”与”真实的未来表征”之间的能量(误差距离)来进行学习。但这更多体现在训练阶段,推理时不一定进行显式的能量搜索。


6. 四条路线的关系

路线代表输入输出核心问题主要局限
生成式世界模型RTFM图像 / 历史帧 / 位姿新视角视频帧如何实时生成持久、3D 一致的世界体验3D 几何多为隐式,物理交互仍有限
具身智能体SIMA / SIMA 2屏幕画面 + 语言指令键盘鼠标动作如何把语言目标转化为 3D 行动主要在虚拟游戏环境,现实迁移仍困难
表征预测JEPA / I-JEPA局部观测表征目标区域表征如何学习抽象、可预测的世界结构不直接生成可视内容,评估较间接
能量建模EBM条件 与候选 能量 如何评估预测与现实是否兼容低能量搜索和训练稳定性仍是难点

7. 总结:从 2D 生成到 3D 空间智能

RTFM、SIMA、JEPA 和 EBM 代表的不是同一种技术,而是 AI 走向三维世界的四个不同层面。

  • RTFM 关注如何生成一个可以被持续探索的视觉世界
  • SIMA 关注如何让智能体在三维虚拟环境中根据语言目标执行动作
  • JEPA 关注如何在表征空间中学习可预测的世界结构
  • EBM 则提供一种用能量函数评估状态与预测是否兼容的建模框架

因此,当前”世界模型”的发展并不只是让 AI 生成更长的视频,也不只是让 AI 玩游戏,而是在尝试把视觉生成、空间记忆、动作控制、表征学习和规划推理连接起来。

  • RTFM 更接近”生成式渲染器”
  • SIMA 更接近”语言条件下的具身智能体”
  • JEPA 更接近”抽象表征预测器”
  • EBM 更接近”合理性评估框架”

这四条路线共同指向一个更大的目标:让 AI 不只处理文本或图像,而是能够在具有空间结构和时间连续性的世界中预测、行动和交互。


参考资源