世界模型的工作机制
顺着它的“数据输入 -> 内部学习与建模 -> 最终输出”这一链路来进行详细拆解。根据资料,世界模型的工作机制如下:
1. 训练数据与基本单元:从”动态现实”中汲取养分
世界模型并不是从静态的文字库中学习,而是直接面向物理世界的底层要素:
- 基本单元: 与大语言模型使用词库(字母或单词)不同,世界模型使用的基本单元是像素(Pixel)或者体素(Voxel)。这意味着它是从视觉和三维空间的颗粒度开始构建认知的。
- 训练数据: 它主要依赖动态的、时序性的数据,包括海量的视觉与动作数据、摄像头看到的连续画面、多模态传感器的输入、机器人的传感器反馈,以及环境随时间发生的变化。
2. 学习方式:在内部世界的”梦境”中进行试错推演
世界模型是通过交互和推演来直接理解世界的。根据学者 David Ha 和 Jürgen Schmidhuber 提出的经典框架,这种学习方式被拆解为三个核心模块(V-M-C)构成的认知过程:
- 视觉模块(Vision,观察世界): 当 AI 接收到海量复杂的视觉信息时,它不会死记硬背每一个像素,而是自动提取对决策真正重要的特征,将成百上千的像素画面压缩成精炼的潜在编码。
- 记忆模块(Memory,预测世界): 接收到编码后,记忆模块就像 AI 内心的一个“物理引擎”,它开始进行内部模拟,去推演“如果我这样做,接下来会发生什么”。
- 控制模块(Controller,学习行动): AI 主要在这个由记忆模块创造的“内部世界(或者说梦境)”中进行千百次的试错和训练,寻找最佳策略,然后再将找到的最优解拿到现实世界中去执行。这种“想象、规划、行动”的过程正是人类智能的核心特征。
3. 建模能力:构建一个缩小的”平行宇宙”
基于上述的学习方式,世界模型展现出了三种极其核心的建模特质:
- 表示世界(Representation): 能够精准理解环境里有什么、物体在哪里、以及事物之间的相互关系和空间几何结构。
- 预测未来(Prediction): 能够对事件进行模拟和生成,理解物理规律随时间演化的过程(例如推一下杯子、打开一扇门,世界会发生什么改变)。以图灵奖得主 Yann LeCun 提出的 JEPA 架构为例,他认为建模的本质不应该只是耗费算力去“画”出下一帧画面的细节,而是要把真实世界压缩成高维的潜在表示,去重点学习世界未来的抽象因果结构(比如关心球往哪里滚、速度怎么变,而不是关心球的材质反射)。
- 规划和行动(Planning & Control): 在能够预测未来之后,计算出自身应该如何采取行动来达成目标。
通过这套建模能力,世界模型相当于在潜在空间里构建了一个对真实世界的模拟器,就像是一个缩小的平行宇宙,让 AI 拥有了自己的“世界观”。
进展
2026 年被业界认为是世界模型全面爆发的一年。不过,目前关于世界模型并没有一个完全被统一的定义,甚至出现了“万物皆可世界模型”(做视频、3 D、自动驾驶、游戏等都被冠以同一名称)的乱象。
要清晰地理解目前世界模型究竟进展到了什么程度,可以借助行业内总结的“三层结构”框架来看:目前绝大部分的显著进展和热闹探讨,都集中在中间的“表现层(世界生成)”,而在最终的“目的层(智能体行动)”以及纯粹的底层抽象路线上,还处于探索阶段。
具体来说,目前世界模型的发展主要分化为以下几个核心流派和进展:
1. 进展最直观的路线:视频生成(让世界“动起来”)
这是目前最成熟、最被大众熟悉的路线,代表产品包括 OpenAI 的 Sora 以及谷歌的 Genie 系列等。
- 从“生成画面”到“物理模拟”: 以 Sora 为代表,它不仅仅是拼凑静态图像,而是已经展现出了对物理规律(如光影变化、受力移动)的“隐式”理解,被定义为“世界模拟器”。
- 从“单向播放”到“实时交互”: 谷歌的 Genie 3 则进一步让视频生成具备了“实时交互性”和“长上下文一致性”。用户或智能体可以在生成的虚拟环境中进行长达数分钟的实时互动,这让视频生成从“电影式生成”走向了类似游戏的“世界引擎”。
- 瓶颈与局限: 这条路线虽然能快速在影视、广告等领域商业落地,但它对世界的理解依然是“隐式”的。它只学到了像素组合的规律,但脑子里并没有真正的 3 D 结构(例如它画得出一辆逼真的车,却不知道被挡住的轮胎在哪、长宽高是多少),因此很难直接指导机器人去物理世界执行任务。
2. 结构最严谨的路线:3 D 空间生成(把世界“建出来”)
为了弥补视频生成的局限,以李飞飞的 World Labs 为代表的团队选择了 3 D 生成路线。
- 从 2 D 像素到 3 D 空间: 最新的 Marble 模型不再追求画面的“电影级逼真”,而是注重空间的几何结构。只要给它一张图片或指令,它就能重建出完整的 3 D 场景,输出带有准确长宽高数据的 3 D 网格文件。
- 突破与难点: 这种“显式结构”更容易被接入传统的物理引擎,成为指导机器人和自动驾驶的“可操作底座”。不过,这条路线目前受制于高质量 3 D 训练数据的严重稀缺、几何结构构建的极高难度(如防止穿模、模拟流体等),以及庞大的算力需求,进展成本远高于视频生成。
3. 面向行动的目的层:智能体训练与纯抽象推演
当世界被生成出来后,最终目的是让 AI 在其中“做事”。目前这部分也有两条截然不同的进展:
- 在虚拟世界里“练级”: 比如谷歌的 SIMA 2,它被直接放进大量游戏环境(包括 Genie 3 生成的环境)中训练。目前它已经展现出了强大的泛化能力,能在从未见过的环境中自主思考、规划并解决复杂的抽象任务。
- Yann LeCun 的抽象推演路线(JEPA): 这派学者认为,花费算力去“画”出细节是走错了方向。JEPA 架构完全不生成像素,而是把世界压缩成抽象的高维表示,只预测与决策相关的因果结构(例如只管球怎么滚,不管球的反光)。不过,因为这种能力隐藏在潜空间中“看不见”,目前缺乏统一的评估标准,距离成熟落地还有较长一段距离,更像是一个“原型”。
总结来说: 目前世界模型正处于从”表层智能(看世界、画世界)”向”深层智能(理解世界、推演行动)”过渡的早期阶段。
正因为还无法判断哪一条路线会最终胜出、具体的商业形态是什么,像 Meta 这样的科技巨头目前采取的是“全覆盖”的押注策略——既做纯视频生成(面向内容),也做 3 D 重建(面向数字模拟),同时还在做底层抽象模型(面向泛化推演)。当这些技术彻底跑通并融合时,将为机器人、自动驾驶甚至穿戴设备带来范式级的颠覆。
世界模型这个领域里都有哪些重量级玩家 ?
在这个领域中,虽然“世界模型”这个概念火爆,但各大重量级玩家切入的角度和技术路线却各不相同。目前的顶级玩家主要涵盖了科技巨头、顶尖学术大佬以及明星初创公司,他们可以按照不同的技术路线分为以下几大阵营:
1. 视频生成与交互引擎的引领者
这一阵营试图通过海量视频数据,让 AI 通过生成连续画面来“隐式”理解世界运行规律。
- OpenAI: 凭借Sora模型震撼业界,OpenAI 将其明确定义为“世界模拟器”。Sora 并非简单的静态图像拼接,而是展现出了对光线变化、物体受力等物理规律的直觉理解,能让世界随时间连续演化。
- 谷歌 (Google): 不仅拥有 Veo 等视频模型,其真正的撒手锏是Genie 系列模型(如 Genie 3 和 Project Genie)。谷歌突破了单向的视频播放,实现了“实时交互性”。用户或智能体可以在生成的虚拟世界中按上下左右键进行长达数分钟的探索和交互,这让谷歌的模型更接近一个可以运行的“世界引擎”。
- 除了这两大巨头,Seedance、Kling等模型也在视频生成赛道上激烈角逐。
2. 押注 3 D 空间与物理“显式结构”的先锋
相比于 2 D 视频,这一阵营认为理解世界的关键在于三维空间结构。
- World Labs(李飞飞创立): 著名 AI 学者李飞飞认为“真实世界不是 2 D 的,而是 3 D 的”,因此她创立的 World Labs 走的是 3 D 生成路线。该团队最新发布的Marble 模型能够通过图片或指令,利用高斯泼溅等技术重建出完整的 3 D 场景结构,并精准输出物体的长宽高和 3 D 网格文件。凭借这条极具潜力的路线,World Labs 在短短一年半内估值飙升 5 倍,达到 50 亿美元。
3. 坚持底层抽象结构的“孤勇者”
- 图灵奖得主 Yann LeCun: 作为深度学习的先驱,LeCun 极度反感用大语言模型去“预测下一个词”或者用视频模型去“画细节”,认为这是在错误的路线上堆算力。他提出了JEPA 理论架构(并在 Meta 期间主导发布了 I-JEPA 和 V-JEPA 模型),主张不生成任何像素,而是把世界压缩成抽象的高维潜在表示,让 AI 重点预测与决策相关的因果结构。资料指出,离开工作了 12 年的 Meta 后,他创立了 Advanced Machine Intelligence 公司,以推行这种不依赖海量数据自主学习的路线。
4. 训练智能体在世界中“行动”的推手
- Google DeepMind: 作为智能体(Agent)训练的顶级机构,DeepMind 打造了SIMA 系列模型。它不负责“生成世界”,而是直接把 AI 丢进类似 Genie 3 生成的各种游戏环境中去“练级”。最新的 SIMA 2 展现了强大的泛化能力,能够跨越陌生的游戏环境执行复杂的抽象任务,为未来的具身智能(如机器人)迁移奠定基础。
5. 真实物理世界的终极应用:自动驾驶巨头
- Waymo: 正在将自动驾驶系统的核心构建为一个学习“世界如何运转”的Foundation model(基础模型)。系统要求输出道路结构和物体的语义属性,并在内部推演交通参与者的可能行为,从中筛选出最安全的决策路径,让系统具备预判能力。
- 特斯拉 (Tesla): 则更强调通过大规模的真实道路数据,以端到端的方式不断逼近人类的驾驶直觉。
6. 多管齐下的“全栈”科技巨头
- Meta: 面对尚未定型的世界模型路线,Meta 采取了“全覆盖”布局战略。他们在几乎所有路线上同时发力:面向游戏和元宇宙开发了 AI 游戏引擎 Meta Horizon Studio,面向内容制作部署了纯视频生成路线,为了数字重建也引入了高斯泼溅等 3 D 重建技术。
总体来看,目前无论是微软、Meta 等大厂,还是Yann LeCun、李飞飞等顶尖学者,都在争夺下一代 AI 技术——世界模型的话语权,试图借此拿到通向通用人工智能(AGI)的终极密码。