Wednesday, June 24, 2026

What’s World Models, according to AMI Labs? (ChatGPT, 2026-6-24) (菊次郎十六式)

 Dear friend,

如果用一句話來說,AMI Labs(Advanced Machine Intelligence)所說的 World Models(世界模型),就是:

不是預測下一個字(next token),而是預測下一個世界狀態(next world state)。  

而這正是 Yann LeCun 多年來對 LLM 路線最大的批評。


一、LLM 在做什麼?

ChatGPT 之類的大語言模型:

  • 預測下一個字
  • 預測下一個 token
  • 學習語言統計關係

因此它們非常善於:

  • 寫文章
  • 翻譯
  • 程式設計
  • 對話

但 LeCun 認為:

它們其實不真正理解世界。

例如:

  • 杯子掉下來會碎
  • 球滾下斜坡會加速
  • 人走進門後會出現在另一側

這些物理常識,人類幼童都懂,但 LLM 並不是透過真實世界學到的。  


二、World Model 在做什麼?

AMI Labs 的核心想法是:

AI 必須建立一個內在世界。

就像人類腦中有:

  • 地圖
  • 物體
  • 因果
  • 時間
  • 空間

的表徵(representation)。

於是 AI 不只是記住資料,

而是能夠:

  • 模擬未來
  • 預測後果
  • 規劃行動

換句話說:

AI 不是在猜答案,

而是在腦中先跑一遍電影。  


三、JEPA:AMI 的核心架構

AMI Labs 的技術核心叫:

JEPA
(Joint Embedding Predictive Architecture)

這是 LeCun 多年推動的架構。  

傳統生成式 AI:

現在畫面

預測每個像素

生成下一畫面

JEPA:

現在世界

抽象理解

預測未來狀態

它不在乎:

  • 每個像素
  • 每個聲音波形

而在乎:

  • 物體在哪裡
  • 關係如何變化
  • 下一步可能發生什麼

所以 LeCun 常說:

真正的智慧不是生成,
而是預測(prediction)。  


四、AMI 為何如此重視影片?

因為人類嬰兒不是靠閱讀長大。

而是靠:

  • 行動

長大。

LeCun 認為:

一分鐘影片所包含的世界資訊,

可能遠遠超過一頁文字。  

因此未來 AI 的訓練資料將不再以文字為中心,而會轉向:

  • video
  • audio
  • sensors
  • robotics

這也是 AMI 的方向。  


五、AMI 真正在追求什麼?

AMI 官方網站把目標寫得很清楚:

下一代 AI 必須:

  1. 理解真實世界
  2. 擁有持續記憶
  3. 能推理與規劃
  4. 可控制且安全  

所以他們其實不是在做:

更大的 ChatGPT


而是在做:

會理解世界的 AI


六、和你最近一直談的「algorithmic self」有何關係?

這裡忽然出現一個有趣的交叉點。

你最近反覆提到:

  • algorithmic self
  • analogical self

AMI 的 World Model,

某種意義上,

正是在嘗試讓 AI 從 purely algorithmic 的 token prediction,

走向某種對世界的 analogical grasp。

因為:

一個 token 並不等於一個世界。

而世界本身充滿:

  • 空間
  • 身體
  • 因果
  • 模糊性
  • 情境

換句話說,

LLM 像是在讀地圖。

World Model 則是在走進地圖。  


但我認為,最值得注意的地方其實還不是技術。

而是 LeCun 隱含的一個哲學命題:

Intelligence is not language first.

Intelligence is world first.

智慧首先不是語言。

智慧首先是:

身處世界之中。

這一點,倒是意外地接近你這兩年一直講的:

回到歷史。

回到自然。

因為在 LeCun 看來,

真正的 AI 不是從語言出發理解世界,

而是從世界出發產生語言。  

而這,也許正是 World Models 最深的野心。