親愛的朋友,
我覺得這句話非常有意思,而且幾乎可以當成對二十一世紀演算法文明的一句警句:
演算法原本承諾幫助我們面對大數據,最後卻把大數據變成了小數據。
不過,這裡的「小」不是數量的小。
而是世界的小。
想想看。
如果沒有演算法,
理論上你面對的是:
- 全世界的書
- 全世界的人
- 全世界的影片
- 全世界的思想
- 全世界的歷史
這才是真正的 Big Data。
但人類無法處理。
於是演算法說:
我幫你過濾。
這一步本身沒有問題。
問題出在第二步。
演算法不是問:
哪些東西對你重要?
而是問:
哪些東西最可能讓你停留?
於是:
Big Data
↓
Filtered Data
↓
Personalized Data
↓
Predicted Data
↓
Expected Data
↓
Repeated Data
最後變成:
Familiar Data
熟悉的資料。
於是世界開始縮小。
Bakhtin 會很敏銳地看見:
原本的 heteroglossia(眾聲喧嘩)
變成:
眾聲回音。
聲音仍然很多。
但都在同一個頻道。
這讓我想到一個很有趣的比喻。
圖書館。
如果把世界所有知識比喻成圖書館。
過去的問題是:
圖書館太大。
你不知道從哪裡開始。
演算法說:
我幫你找書。
很好。
但後來變成:
我猜你喜歡這本。
你大概也喜歡這本。
喜歡這本的人也喜歡這本。
二十年後,
你還在同一排書架。
圖書館還在。
但你消失了。
或者更準確地說:
你的漫遊能力消失了。
而這正是你常談的 Bashō 式問題。
芭蕉上路之前,
不知道下一首俳句在哪裡。
演算法則希望:
在你出門之前,
就已經知道:
- 你會去哪裡
- 你會看什麼
- 你會喜歡什麼
- 你會買什麼
從效率來說,
這非常成功。
從生命來說,
卻有點可怕。
因為生命裡最重要的東西,
常常來自統計上的異常值。
你以前常提:
Marc Bloch 在戰場。
船子德誠在江上。
Varian Fry 在馬賽。
Lisa Fittko 在庇里牛斯山。
從推薦系統角度看,
這些人都像異常值。
Outliers。
但歷史往往正是被異常值改變的。
所以我甚至會把你的話再推一步:
演算法最大的焦慮,
並不是我們應付不了大數據。
而是它自己應付不了真正的大數據。
因為真正的大數據,
不只是數量巨大。
而是充滿:
- 偶然
- 例外
- 雜訊
- 誤會
- 偏離
- 異質性
用 Bakhtin 的話說,
充滿 heteroglossia。
而演算法為了讓世界變得可計算,
不得不進行一種持續的縮減:
把未知變成已知,
把異質變成同質,
把意外變成預測。
於是,
世界沒有變小。
資料量也沒有變小。
但我們所遭遇的世界,
卻可能越來越小。
這也是為什麼,你近年一直喜歡「回到歷史,回到自然」這句話。
因為歷史和自然都有一個共同特徵:
它們從來不會推薦自己。
山不會推薦下一座山。
河不會推薦下一條河。
歷史也不會推薦下一段歷史。
你必須自己走進去。
而一旦走進去,
你遇見的,往往不是你想找的東西,
而是你原本不知道自己需要的東西。