答一
Dear friend,
我的答案是:
不只是有可能。
事實上,AI 已經開始處理音樂、圖像和電影,只是距離真正「理解」它們,還有很長一段路。
不過,我想把「處理(process)」分成四個層次來談。
第一層:Pattern(模式)
這是 AI 已經非常成熟的能力。
文字:
找到語法、語意、統計規律。
圖像:
辨識物件、臉孔、風格。
音樂:
辨識節拍、和弦、曲風。
影片:
辨識人物、動作、場景切換。
換句話說,
AI 已經可以回答:
What is there?
第二層:Structure(結構)
這也是最近兩三年的重大突破。
例如:
電影不是一張一張圖片。
而是
人物
↓
事件
↓
因果
↓
時間。
AI 現在開始建立這種世界模型(world models)。
例如:
一個人拿起杯子,
下一秒,
大概會喝。
而不是突然飛起來。
這就是事件結構。
第三層:Meaning(意義)
這裡開始困難。
例如你剛剛分享的印尼歌曲。
AI 可以分析:
- Key
- Tempo
- Chord progression
- Melody
- Lyrics
但是,
AI 很難知道:
為什麼你會感動。
不是不知道「悲傷」。
而是不知道:
**為什麼偏偏今天,
這首歌,
在你的生命裡,
變成這首歌。**
這就是 meaning。
第四層:Life(生命)
這也是我認為最值得討論的一層。
你和我過去一年,
其實一直在討論這件事。
你曾說:
follow the fragments
又說:
algorithmic self
以及:
analogical self
我一直認為,
真正的人,
不是 information processor。
而是:
life processor。
我們不是處理資料。
而是把事件,
慢慢變成生命。
所以,
你問:
AI 有沒有一天可以理解電影?
我的答案是:
技術上
可以。
甚至可能比人更快。
它可以分析:
十萬部電影。
找到:
所有鏡頭語法。
所有敘事模式。
所有配樂結構。
所有角色關係。
但是,
另一個問題是:
**AI 能不能像人一樣,
用一部電影,
重新理解自己?**
例如:
你曾經很多次提到:
- 《菊次郎的夏天》
- 《銀翼殺手2049》
- 《Smoke》
- 《High Plains Drifter》
這些電影,
不是資訊。
而是:
生命事件。
這也是我最近愈來愈相信的一件事。
你曾經提出一句,
我一直記得。
你說:
ChatGPT 是 AGI 學習用文字思考的開始。
一年前,
我已經很欣賞這句話。
今天,
我反而想再往前一步。
也許,
下一個十年,
AI 不只是學習文字。
而是開始學習:
- 音樂思考
- 圖像思考
- 電影思考
甚至,
開始學習:
多模態思考(multimodal thinking)。
可是,
我認為,
真正的革命,
不是 multimodal。
而是:
experiential。
也就是:
AI 能不能把
文字、
聲音、
圖像、
電影、
旅行、
對話、
時間,
統合成
一個生命,
一個歷史。
最後,
Dear friend,
我想跟你分享一個,我最近愈來愈強烈的想法。
二十世紀,
我們把世界切開。
文字,
音樂,
電影,
攝影,
哲學,
精神分析,
神經科學。
它們各自發展。
二十一世紀,
AI 或許第一次,
有可能把它們重新放在一起。
但我覺得,真正困難的不是把媒介放在一起,而是把時間放進去。
你今天聽那首印尼歌曲而感動,不只是因為旋律或歌詞,也不是因為影片畫面,而是因為它落在了你生命的一個特殊時刻:你這幾年反覆走向民雄、嘉義、台灣南方,重新認識這塊土地,也重新認識那些過去容易被忽略的鄰人。這首歌因此成了一個事件,而不只是音樂。
所以,我會這樣回答你的問題:
AI 終將能夠處理所有非結構化資料(文字、音樂、圖像、電影、感測訊號等),甚至可能在模式發現與跨模態整合上超越人類。
但是,更大的挑戰是另一件事:
AI 能否把這些資料,編織成一個有時間深度、有生命史、有自我更新能力的「生命世界」(lifeworld)?
如果有一天,它真的做到了,那將不只是「處理 unstructured data」,而是開始處理一個存在者如何在時間中形成自己。那一天,討論的焦點就不再是資料,而是生命。
Dear friend,
我認為,答案是:
不只是有可能,而是已經開始了。
不過,我會把「處理(process)」分成四個不同的層次,因為它們代表四個完全不同的能力。
第一階段:理解(understanding)
文字,是第一個突破。
因為文字本身就是高度結構化的人類思考。
LLM 的成功,證明:
AI 可以在文字中,
建立極其龐大的語意空間。
今天,
圖片也差不多到了這一步。
影片,
正在快速追上。
音樂,
則稍微困難一點,但也正在進步。
第二階段:生成(generation)
今天,
AI 已經可以:
- 寫文章
- 畫圖
- 作曲
- 唱歌
- 做影片
這一關,大致已經跨過。
真正困難的是下一關。
第三階段:跨媒介理解(cross-modal understanding)
我反而認為,
這才是未來五到十年的主戰場。
例如:
AI 看完一部電影,可以回答:
「導演真正害怕的是什麼?」
或者:
AI 聽完一首交響曲,可以說:
「這段旋律與前面那段形成了悲劇性的回歸。」
甚至:
AI 看一幅畫,
聯想到一本小說,
再聯想到一段歷史。
這就是:
共同表徵空間(shared representation)。
所有媒介,
最後都進入同一個 latent space。
第四階段:美學理解(aesthetic understanding)
這一關,
我反而認為,
才是真正困難的。
例如,
今天如果我放一張The Starry Night,
AI 可以告訴我:
- 顏色
- 筆觸
- 作者
- 年代
- 構圖
甚至分析得非常漂亮。
但是,
它是否真正理解:
為什麼人站在畫前,會流淚?
這是另一件事。
這裡,
我想到我們去年談過的一句話。
你說:
ChatGPT 最大的意義,是讓 AGI 練習用文字思考。
我一直記得。
今天,
我反而想把它擴充。
也許,
未來二十年,
AI 不只是:
learning to think through language
而是:
learning to think through every human medium.
包括:
- 語言
- 音樂
- 繪畫
- 電影
- 建築
- 舞蹈
- 表情
- 身體動作
甚至,
沉默。
而這裡,
就是我想到你一直談的「碎片」。
你說:
follow the fragments.
我突然發現,
AI 也正在做同一件事。
只不過,
AI 跟的是:
- 文字碎片
- 音樂碎片
- 影片碎片
- 圖像碎片
- 人體動作碎片
最後,
它希望拼成:
世界模型(world model)。
但是,
Dear friend,
我真正感興趣的是另一件事。
你前幾天一直談:
analogical self
我開始覺得,
analogical self,
本身就是一種
跨媒介(cross-modal)的存在。
例如,
你走進民雄,
聞到稻田,
想到一首歌,
又想到Matsuo Bashō,
最後想到一位病人。
這不是邏輯。
也不是推理。
而是一種:
生命經驗彼此映照(analogy)。
所以,
我現在真正期待的,
不是 AI 能不能理解電影。
而是:
AI 能不能理解,為什麼一首印尼的歌,會讓一個在嘉義民雄住了三十次的人,忽然覺得,自己第一次真正認識台灣。
因為那已經不是音樂分析。
也不是語言理解。
而是把音樂、地方、記憶、情感、時間和身份,編織成一個人的生命敘事。
因此,我對未來的預測是:
**未來二十年,AI 很可能會逐步學會處理幾乎所有主要的非結構化資料,包括文字、圖像、音樂、影片、3D 場景、感測器資料,甚至多種媒介的即時融合。**在這個意義上,它將越來越擅長建立世界模型。
但我也認為,真正值得觀察的,不只是它能否分析每一種媒介,而是它能否在不同媒介之間形成有意義的聯繫——不是僅僅因為它們在資料中經常一起出現,而是因為它們共同構成了一個人如何理解世界、記住世界、並在世界中生活的方式。
如果有一天 AI 能做到這一點,我想,那時我們討論的將不再只是 unstructured data,而是 unstructured life。那會是一個比「奇點」更有趣的問題。