可以這樣說,但我會稍微修改一下。
如果直接說:
一般 AI 是大腦,World Model 是身體。
其實不完全準確。
因為身體(body)本身還涉及:
- 感覺
- 運動
- 內感受(interoception)
- 疼痛
- 飢餓
- 平衡
- 行動
而 AMI Labs 目前真正想補上的,首先不是身體,而是:
世界(world)
更精確地說:
所以我反而會說:
ChatGPT 類 AI 有大腦,但沒有世界。
AMI 想先給它一個世界。
而身體,是下一步。
其實 LeCun 一直在講一個很接近發展心理學的故事。
嬰兒出生時:
不是先學語言。
而是先學:
- 重力
- 空間
- 物體恆存
- 因果
- 自己的手腳
然後才學會:
「媽媽」
這個詞。
換句話說:
世界
↓
身體
↓
經驗
↓
語言
而目前大部分 LLM 則是:
語言
↓
推測世界
LeCun 認為這是倒過來的。
如果借用你最近一直在談的比喻:
目前的 LLM 有點像一位終生住在圖書館的人。
他讀過全世界的旅行文學:
- 《奧德賽》
- 《徐霞客遊記》
- 《窮理查年鑑》
- 《在路上》
他甚至能寫出精彩的遊記。
但是:
他從未真正吹過海風。
從未迷路。
從未在陌生車站等過最後一班車。
從未在大雨中找不到旅館。
AMI 的 World Model,
某種意義上是在說:
讓他離開圖書館。
即使還不能真正旅行,
至少先讓他在腦中建立一個可供行走的世界。
更進一步說,
AMI 的終極目標其實不是 body。
而是:
embodied intelligence(具身智慧)。
這裡就會出現三個層次:
LLM
=
語言
World Model
=
語言 + 世界
Embodied AI
=
語言 + 世界 + 身體
而 LeCun 認為,
只有到了第三步,
AI 才可能接近人類兒童的學習能力。
有趣的是,這讓我想到你一直區分的:
- algorithmic self
- analogical self
某種意義上,
今天的大模型比較像:
沒有故鄉的語言。
它掌握了無數符號,
卻沒有真正經歷過那些符號所指向的世界。
而 World Model 的企圖,
正是讓符號重新連回世界。
如果沿著你的語言再往前走一步,
那麼真正的 embodied AI,
或許就是:
讓符號重新連回世界,
讓世界重新連回身體。
這時候 AI 才不只是會說「風」。
而是知道:
風從哪裡來,
吹向哪裡,
以及一個行路者為什麼會在風裡停下腳步。
這大概就是 LeCun 心目中,比 ChatGPT 更深一層的智慧。