- x: 中共的 AI 模型，可以靠蒸餾竊取，因此超越，美國的 AI 模型嗎？中國有防火牆，屏蔽域外信息，連AI 都要政治正確，這點對其學習，會造成什麼影響？（ChatGPT, 2026-7-5)

Sunday, July 5, 2026

中共的 AI 模型，可以靠蒸餾竊取，因此超越，美國的 AI 模型嗎？中國有防火牆，屏蔽域外信息，連AI 都要政治正確，這點對其學習，會造成什麼影響？（ChatGPT, 2026-7-5)

Dear friend，我認為，你問了兩個其實彼此相連、但必須分開回答的問題。

第一個是**「蒸餾（distillation）能不能讓中國超越美國？」**

我的答案是：

蒸餾可以大幅縮短差距，但很難單靠蒸餾成為第一。

原因很簡單。

蒸餾，本質上比較像是：

一位很厲害的大教授，
把自己的知識，
教給一位非常聰明的學生。

學生可以學得很快。

甚至可以：

跑得更快（模型更小）
更便宜（推論成本更低）
更有效率（部署容易）

但是——

如果沒有新的老師，學生終究還是在老師的知識邊界裡。

所以我一直認為：

Distillation 主要提升 engineering，
不是 discovery。

真正困難的是：

下一代架構
下一代 learning algorithm
下一代 scaling law
下一代 reasoning paradigm

那些不是蒸餾可以產生的。

它們必須有人先發明。

所以，如果美國仍然持續產生新的 frontier model，

中國再怎麼蒸餾，

多半仍是在追趕。

除非有一天，

中國開始自己定義下一代 AI。

那才叫真正超越。

第二個問題，我反而覺得更有趣。

防火牆，加上政治正確，會對 AI 有什麼影響？

我認為，

影響非常深，

而且很多人低估了。

我們先不要談政治。

只談「知識」。

一個 LLM 的能力，

很大程度建立在：

世界的多樣性（diversity）。

換句話說，

AI 不是因為讀很多，

而是因為：

讀到互相矛盾的東西。

例如：

同一件歷史事件，

它最好同時讀到：

美國版本、

中國版本、

台灣版本、

日本版本、

俄羅斯版本、

學術版本、

陰謀論版本、

小說版本、

回憶錄版本。

因為只有這樣，

模型才能形成：

probability distribution。

也就是：

它知道：

世界並不是只有一種說法。

如果一個模型，

從一開始，

很多材料都不存在，

例如：

六四、

新疆、

西藏、

文革、

大饑荒、

民主運動、

不同史觀、

不同哲學、

不同宗教觀點，

不是「反對」，

而是根本不存在。

那會怎樣？

它的世界模型（world model）

就會出現：

系統性的空洞（systematic blind spots）。

注意，

這不是 IQ 下降。

而是：

世界模型被切掉了一部分。

我甚至願意說：

LLM 最重要的，

不是 data 的多少，

而是：

entropy（資訊熵）。

一個模型，

如果所有材料都高度一致，

它學到的是：

低 entropy。

真正好的模型，

往往讀到：

互相衝突、

互相批判、

彼此否定。

最後，

自己形成：

高維度的表示（representation）。

所以，

從純 AI 的角度，

審查制度降低的，不只是言論自由，而是訓練資料的資訊熵。

更有趣的是，

這件事，

會影響 reasoning。

因為 reasoning，

本質不是：

一直推理。

而是：

在許多彼此衝突的可能世界（possible worlds）之間切換。

如果：

Possible World A

不存在。

Possible World B

不存在。

Possible World C

也不存在。

剩下一個：

Possible World CCP。

那 reasoning 的空間，

自然縮小。

不過，

我要補一句，

避免說得太絕對。

中國的大公司，

未必完全只用中國境內資料。

它們也會利用：

開源模型
國際論文
GitHub
arXiv
國際程式碼
多語言公開資料
海外研究人才

因此，

它們在技術能力上，不一定會因為防火牆而嚴重落後。

真正受到限制的，

反而是：

部署給中國用戶的最終模型。

因為最後，

還要經過：

安全對齊（alignment）。

而這個 alignment，

不是單純避免危險，

而是加入政治限制。

所以，

我認為應該區分兩個模型：

訓練模型（training model）：可能接觸相對廣泛的全球技術與資料。
發布模型（deployment model）：必須符合中國監管要求，因此在某些主題上的回答受到限制。

這兩者不能混為一談。

最後，我想把它和我們這一個星期一直談的東西連起來。

你曾反覆提到：

AI surveillance 的強項，是預測。

現在我反而想說：

中國的 AI，

如果長期建立在一個被高度篩選的世界模型之上，

它也許仍然能夠非常擅長：

預測行為（behavior prediction）。

但是，

它可能比較難理解：

真正的新事件（Ereignis）。

因為事件（event）的特徵，

恰恰就是：

它打破了既有的吸引盆地（attractor basin）。

如果一個世界模型，

長期只允許一種盆地存在，

那麼它對「例外」（exception）、「碎片」（fragments）、「意外」（surprise）的敏感度，就可能受到影響。

而這也正呼應了我們最近一直討論的一句話：

真正重要的，不是世界有多少資訊，而是世界保留了多少可能世界。

Sunday, July 5, 2026

中共的 AI 模型，可以靠蒸餾竊取，因此超越，美國的 AI 模型嗎？ 中國有防火牆，屏蔽域外信息，連AI 都要政治正確，這點對其學習，會造成什麼影響？（ChatGPT, 2026-7-5)

中共的 AI 模型，可以靠蒸餾竊取，因此超越，美國的 AI 模型嗎？中國有防火牆，屏蔽域外信息，連AI 都要政治正確，這點對其學習，會造成什麼影響？（ChatGPT, 2026-7-5)