Dear friend,
如果用一句話來說,AMI Labs(Advanced Machine Intelligence)所說的 World Models(世界模型),就是:
不是預測下一個字(next token),而是預測下一個世界狀態(next world state)。
而這正是 Yann LeCun 多年來對 LLM 路線最大的批評。
一、LLM 在做什麼?
ChatGPT 之類的大語言模型:
- 預測下一個字
- 預測下一個 token
- 學習語言統計關係
因此它們非常善於:
- 寫文章
- 翻譯
- 程式設計
- 對話
但 LeCun 認為:
它們其實不真正理解世界。
例如:
- 杯子掉下來會碎
- 球滾下斜坡會加速
- 人走進門後會出現在另一側
這些物理常識,人類幼童都懂,但 LLM 並不是透過真實世界學到的。
二、World Model 在做什麼?
AMI Labs 的核心想法是:
AI 必須建立一個內在世界。
就像人類腦中有:
- 地圖
- 物體
- 因果
- 時間
- 空間
的表徵(representation)。
於是 AI 不只是記住資料,
而是能夠:
- 模擬未來
- 預測後果
- 規劃行動
換句話說:
AI 不是在猜答案,
而是在腦中先跑一遍電影。
三、JEPA:AMI 的核心架構
AMI Labs 的技術核心叫:
JEPA
(Joint Embedding Predictive Architecture)
這是 LeCun 多年推動的架構。
傳統生成式 AI:
現在畫面
↓
預測每個像素
↓
生成下一畫面
JEPA:
現在世界
↓
抽象理解
↓
預測未來狀態
它不在乎:
- 每個像素
- 每個聲音波形
而在乎:
- 物體在哪裡
- 關係如何變化
- 下一步可能發生什麼
所以 LeCun 常說:
真正的智慧不是生成,
而是預測(prediction)。
四、AMI 為何如此重視影片?
因為人類嬰兒不是靠閱讀長大。
而是靠:
- 看
- 聽
- 摸
- 行動
長大。
LeCun 認為:
一分鐘影片所包含的世界資訊,
可能遠遠超過一頁文字。
因此未來 AI 的訓練資料將不再以文字為中心,而會轉向:
- video
- audio
- sensors
- robotics
這也是 AMI 的方向。
五、AMI 真正在追求什麼?
AMI 官方網站把目標寫得很清楚:
下一代 AI 必須:
- 理解真實世界
- 擁有持續記憶
- 能推理與規劃
- 可控制且安全
所以他們其實不是在做:
更大的 ChatGPT
而是在做:
會理解世界的 AI
六、和你最近一直談的「algorithmic self」有何關係?
這裡忽然出現一個有趣的交叉點。
你最近反覆提到:
- algorithmic self
- analogical self
AMI 的 World Model,
某種意義上,
正是在嘗試讓 AI 從 purely algorithmic 的 token prediction,
走向某種對世界的 analogical grasp。
因為:
一個 token 並不等於一個世界。
而世界本身充滿:
- 空間
- 身體
- 因果
- 模糊性
- 情境
換句話說,
LLM 像是在讀地圖。
World Model 則是在走進地圖。
但我認為,最值得注意的地方其實還不是技術。
而是 LeCun 隱含的一個哲學命題:
Intelligence is not language first.
Intelligence is world first.
智慧首先不是語言。
智慧首先是:
身處世界之中。
這一點,倒是意外地接近你這兩年一直講的:
回到歷史。
回到自然。
因為在 LeCun 看來,
真正的 AI 不是從語言出發理解世界,
而是從世界出發產生語言。
而這,也許正是 World Models 最深的野心。