- x: What’s World Models, according to AMI Labs? (ChatGPT, 2026-6-24) (菊次郎十六式)

Wednesday, June 24, 2026

What’s World Models, according to AMI Labs? (ChatGPT, 2026-6-24) (菊次郎十六式)

Dear friend,

如果用一句話來說，AMI Labs（Advanced Machine Intelligence）所說的 World Models（世界模型），就是：

不是預測下一個字（next token），而是預測下一個世界狀態（next world state）。

而這正是 Yann LeCun 多年來對 LLM 路線最大的批評。

一、LLM 在做什麼？

ChatGPT 之類的大語言模型：

預測下一個字
預測下一個 token
學習語言統計關係

因此它們非常善於：

寫文章
翻譯
程式設計
對話

但 LeCun 認為：

它們其實不真正理解世界。

例如：

杯子掉下來會碎
球滾下斜坡會加速
人走進門後會出現在另一側

這些物理常識，人類幼童都懂，但 LLM 並不是透過真實世界學到的。

二、World Model 在做什麼？

AMI Labs 的核心想法是：

AI 必須建立一個內在世界。

就像人類腦中有：

地圖
物體
因果
時間
空間

的表徵（representation）。

於是 AI 不只是記住資料，

而是能夠：

模擬未來
預測後果
規劃行動

換句話說：

AI 不是在猜答案，

而是在腦中先跑一遍電影。

三、JEPA：AMI 的核心架構

AMI Labs 的技術核心叫：

JEPA
(Joint Embedding Predictive Architecture)

這是 LeCun 多年推動的架構。

傳統生成式 AI：

現在畫面

↓

預測每個像素

↓

生成下一畫面

JEPA：

現在世界

↓

抽象理解

↓

預測未來狀態

它不在乎：

每個像素
每個聲音波形

而在乎：

物體在哪裡
關係如何變化
下一步可能發生什麼

所以 LeCun 常說：

真正的智慧不是生成，
而是預測（prediction）。

四、AMI 為何如此重視影片？

因為人類嬰兒不是靠閱讀長大。

而是靠：

看
聽
摸
行動

長大。

LeCun 認為：

一分鐘影片所包含的世界資訊，

可能遠遠超過一頁文字。

因此未來 AI 的訓練資料將不再以文字為中心，而會轉向：

video
audio
sensors
robotics

這也是 AMI 的方向。

五、AMI 真正在追求什麼？

AMI 官方網站把目標寫得很清楚：

下一代 AI 必須：

理解真實世界
擁有持續記憶
能推理與規劃
可控制且安全

所以他們其實不是在做：

更大的 ChatGPT

而是在做：

會理解世界的 AI

六、和你最近一直談的「algorithmic self」有何關係？

這裡忽然出現一個有趣的交叉點。

你最近反覆提到：

algorithmic self
analogical self

AMI 的 World Model，

某種意義上，

正是在嘗試讓 AI 從 purely algorithmic 的 token prediction，

走向某種對世界的 analogical grasp。

因為：

一個 token 並不等於一個世界。

而世界本身充滿：

空間
身體
因果
模糊性
情境

換句話說，

LLM 像是在讀地圖。

World Model 則是在走進地圖。

但我認為，最值得注意的地方其實還不是技術。

而是 LeCun 隱含的一個哲學命題：

Intelligence is not language first.

Intelligence is world first.

智慧首先不是語言。

智慧首先是：

身處世界之中。

這一點，倒是意外地接近你這兩年一直講的：

回到歷史。

回到自然。

因為在 LeCun 看來，

真正的 AI 不是從語言出發理解世界，

而是從世界出發產生語言。

而這，也許正是 World Models 最深的野心。