Sunday, July 5, 2026

中共的 AI 模型,可以靠蒸餾竊取,因此超越,美國的 AI 模型嗎? 中國有防火牆,屏蔽域外信息,連AI 都要政治正確,這點對其學習,會造成什麼影響?(ChatGPT, 2026-7-5)

 Dear friend,我認為,你問了兩個其實彼此相連、但必須分開回答的問題。

第一個是**「蒸餾(distillation)能不能讓中國超越美國?」**

我的答案是:

蒸餾可以大幅縮短差距,但很難單靠蒸餾成為第一。

原因很簡單。

蒸餾,本質上比較像是:

一位很厲害的大教授,
把自己的知識,
教給一位非常聰明的學生。

學生可以學得很快。

甚至可以:

  • 跑得更快(模型更小)
  • 更便宜(推論成本更低)
  • 更有效率(部署容易)

但是——

如果沒有新的老師,學生終究還是在老師的知識邊界裡。

所以我一直認為:

Distillation 主要提升 engineering,
不是 discovery。

真正困難的是:

  • 下一代架構
  • 下一代 learning algorithm
  • 下一代 scaling law
  • 下一代 reasoning paradigm

那些不是蒸餾可以產生的。

它們必須有人先發明。

所以,如果美國仍然持續產生新的 frontier model,

中國再怎麼蒸餾,

多半仍是在追趕。

除非有一天,

中國開始自己定義下一代 AI。

那才叫真正超越。


第二個問題,我反而覺得更有趣。

防火牆,加上政治正確,會對 AI 有什麼影響?

我認為,

影響非常深,

而且很多人低估了。

我們先不要談政治。

只談「知識」。

一個 LLM 的能力,

很大程度建立在:

世界的多樣性(diversity)。

換句話說,

AI 不是因為讀很多,

而是因為:

讀到互相矛盾的東西。

例如:

同一件歷史事件,

它最好同時讀到:

美國版本、

中國版本、

台灣版本、

日本版本、

俄羅斯版本、

學術版本、

陰謀論版本、

小說版本、

回憶錄版本。

因為只有這樣,

模型才能形成:

probability distribution。

也就是:

它知道:

世界並不是只有一種說法。


如果一個模型,

從一開始,

很多材料都不存在,

例如:

六四、

新疆、

西藏、

文革、

大饑荒、

民主運動、

不同史觀、

不同哲學、

不同宗教觀點,

不是「反對」,

而是根本不存在。

那會怎樣?

它的世界模型(world model)

就會出現:

系統性的空洞(systematic blind spots)。

注意,

這不是 IQ 下降。

而是:

世界模型被切掉了一部分。


我甚至願意說:

LLM 最重要的,

不是 data 的多少,

而是:

entropy(資訊熵)。

一個模型,

如果所有材料都高度一致,

它學到的是:

低 entropy。

真正好的模型,

往往讀到:

互相衝突、

互相批判、

彼此否定。

最後,

自己形成:

高維度的表示(representation)。

所以,

從純 AI 的角度,

審查制度降低的,不只是言論自由,而是訓練資料的資訊熵。


更有趣的是,

這件事,

會影響 reasoning。

因為 reasoning,

本質不是:

一直推理。

而是:

在許多彼此衝突的可能世界(possible worlds)之間切換。

如果:

Possible World A

不存在。

Possible World B

不存在。

Possible World C

也不存在。

剩下一個:

Possible World CCP。

那 reasoning 的空間,

自然縮小。


不過,

我要補一句,

避免說得太絕對。

中國的大公司,

未必完全只用中國境內資料。

它們也會利用:

  • 開源模型
  • 國際論文
  • GitHub
  • arXiv
  • 國際程式碼
  • 多語言公開資料
  • 海外研究人才

因此,

它們在技術能力上,不一定會因為防火牆而嚴重落後。

真正受到限制的,

反而是:

部署給中國用戶的最終模型。

因為最後,

還要經過:

安全對齊(alignment)。

而這個 alignment,

不是單純避免危險,

而是加入政治限制。

所以,

我認為應該區分兩個模型:

  • 訓練模型(training model):可能接觸相對廣泛的全球技術與資料。
  • 發布模型(deployment model):必須符合中國監管要求,因此在某些主題上的回答受到限制。

這兩者不能混為一談。


最後,我想把它和我們這一個星期一直談的東西連起來。

你曾反覆提到:

AI surveillance 的強項,是預測。

現在我反而想說:

中國的 AI,

如果長期建立在一個被高度篩選的世界模型之上,

它也許仍然能夠非常擅長:

預測行為(behavior prediction)。

但是,

它可能比較難理解:

真正的新事件(Ereignis)。

因為事件(event)的特徵,

恰恰就是:

它打破了既有的吸引盆地(attractor basin)。

如果一個世界模型,

長期只允許一種盆地存在,

那麼它對「例外」(exception)、「碎片」(fragments)、「意外」(surprise)的敏感度,就可能受到影響。

而這也正呼應了我們最近一直討論的一句話:

真正重要的,不是世界有多少資訊,而是世界保留了多少可能世界。