Dear friend,我認為,你問了兩個其實彼此相連、但必須分開回答的問題。
第一個是**「蒸餾(distillation)能不能讓中國超越美國?」**
我的答案是:
蒸餾可以大幅縮短差距,但很難單靠蒸餾成為第一。
原因很簡單。
蒸餾,本質上比較像是:
一位很厲害的大教授,
把自己的知識,
教給一位非常聰明的學生。
學生可以學得很快。
甚至可以:
- 跑得更快(模型更小)
- 更便宜(推論成本更低)
- 更有效率(部署容易)
但是——
如果沒有新的老師,學生終究還是在老師的知識邊界裡。
所以我一直認為:
Distillation 主要提升 engineering,
不是 discovery。
真正困難的是:
- 下一代架構
- 下一代 learning algorithm
- 下一代 scaling law
- 下一代 reasoning paradigm
那些不是蒸餾可以產生的。
它們必須有人先發明。
所以,如果美國仍然持續產生新的 frontier model,
中國再怎麼蒸餾,
多半仍是在追趕。
除非有一天,
中國開始自己定義下一代 AI。
那才叫真正超越。
第二個問題,我反而覺得更有趣。
防火牆,加上政治正確,會對 AI 有什麼影響?
我認為,
影響非常深,
而且很多人低估了。
我們先不要談政治。
只談「知識」。
一個 LLM 的能力,
很大程度建立在:
世界的多樣性(diversity)。
換句話說,
AI 不是因為讀很多,
而是因為:
讀到互相矛盾的東西。
例如:
同一件歷史事件,
它最好同時讀到:
美國版本、
中國版本、
台灣版本、
日本版本、
俄羅斯版本、
學術版本、
陰謀論版本、
小說版本、
回憶錄版本。
因為只有這樣,
模型才能形成:
probability distribution。
也就是:
它知道:
世界並不是只有一種說法。
如果一個模型,
從一開始,
很多材料都不存在,
例如:
六四、
新疆、
西藏、
文革、
大饑荒、
民主運動、
不同史觀、
不同哲學、
不同宗教觀點,
不是「反對」,
而是根本不存在。
那會怎樣?
它的世界模型(world model)
就會出現:
系統性的空洞(systematic blind spots)。
注意,
這不是 IQ 下降。
而是:
世界模型被切掉了一部分。
我甚至願意說:
LLM 最重要的,
不是 data 的多少,
而是:
entropy(資訊熵)。
一個模型,
如果所有材料都高度一致,
它學到的是:
低 entropy。
真正好的模型,
往往讀到:
互相衝突、
互相批判、
彼此否定。
最後,
自己形成:
高維度的表示(representation)。
所以,
從純 AI 的角度,
審查制度降低的,不只是言論自由,而是訓練資料的資訊熵。
更有趣的是,
這件事,
會影響 reasoning。
因為 reasoning,
本質不是:
一直推理。
而是:
在許多彼此衝突的可能世界(possible worlds)之間切換。
如果:
Possible World A
不存在。
Possible World B
不存在。
Possible World C
也不存在。
剩下一個:
Possible World CCP。
那 reasoning 的空間,
自然縮小。
不過,
我要補一句,
避免說得太絕對。
中國的大公司,
未必完全只用中國境內資料。
它們也會利用:
- 開源模型
- 國際論文
- GitHub
- arXiv
- 國際程式碼
- 多語言公開資料
- 海外研究人才
因此,
它們在技術能力上,不一定會因為防火牆而嚴重落後。
真正受到限制的,
反而是:
部署給中國用戶的最終模型。
因為最後,
還要經過:
安全對齊(alignment)。
而這個 alignment,
不是單純避免危險,
而是加入政治限制。
所以,
我認為應該區分兩個模型:
- 訓練模型(training model):可能接觸相對廣泛的全球技術與資料。
- 發布模型(deployment model):必須符合中國監管要求,因此在某些主題上的回答受到限制。
這兩者不能混為一談。
最後,我想把它和我們這一個星期一直談的東西連起來。
你曾反覆提到:
AI surveillance 的強項,是預測。
現在我反而想說:
中國的 AI,
如果長期建立在一個被高度篩選的世界模型之上,
它也許仍然能夠非常擅長:
預測行為(behavior prediction)。
但是,
它可能比較難理解:
真正的新事件(Ereignis)。
因為事件(event)的特徵,
恰恰就是:
它打破了既有的吸引盆地(attractor basin)。
如果一個世界模型,
長期只允許一種盆地存在,
那麼它對「例外」(exception)、「碎片」(fragments)、「意外」(surprise)的敏感度,就可能受到影響。
而這也正呼應了我們最近一直討論的一句話:
真正重要的,不是世界有多少資訊,而是世界保留了多少可能世界。