「大家走錯路了。」
這是 AI 界元老 Yann LeCun 對當前生成式 AI 熱潮的看法。他是深度學習的奠基者之一、圖靈獎得主,長期擔任 Meta AI 首席科學家。但他卻不斷公開說:ChatGPT 這條路,走不到真正的智慧。
他的理由是什麼?他提出了什麼替代方案?
LLM 的運作方式:傳話遊戲
以 ChatGPT 為代表的大型語言模型(LLM),核心運作方式是 autoregressive generation——每次只預測「下一個字」:
「台灣最高的山是」→ 猜「玉」→ 猜「山」→ 猜「,」→ ...
每一步都有出錯的機率。一步錯,步步錯,錯誤會隨著生成長度指數累積。
LeCun 把這個現象比作傳話遊戲:傳到第十個人,訊息已經面目全非。LLM 寫一篇長文,後半段的可靠性遠不如前半段,原因就在這裡。
為什麼說 LLM 是「鸚鵡」?
鸚鵡能說「你好」,但牠不懂「你好」是什麼意思。
牠學到的是聲音的形狀,不是聲音背後連結的世界。
| 鸚鵡 | LLM | |
|---|---|---|
| 學習材料 | 聽到的聲音 | 讀過的文字 |
| 學到什麼 | 聲音的統計模式 | 文字的統計模式 |
| 有世界觀嗎 | 沒有 | 沒有 |
LLM 讀過幾乎所有人類寫過的文字,模式極度複雜,足以應付大多數問題。但 LeCun 認為:複雜的鸚鵡還是鸚鵡。
這和哲學家 John Searle 1980 年提出的**「中文房間」**思想實驗異曲同工——你在房間裡照著規則書操作符號,外面的人以為你懂中文,但你根本不懂。規則書再厚,也不等於理解。
LeCun 的解法:世界模型(World Model)
LeCun 在 2022 年發表論文 A Path Towards Autonomous Machine Intelligence,提出 AI 應該像嬰兒一樣學習:
嬰兒不需要有人一直教,他們透過觀察和互動,在腦子裡建立起「世界會怎麼運作」的模型。 推這個杯子,它會倒。鬆開手,東西會掉下去。
這個「腦子裡的世界地圖」,就是 World Model(世界模型)。
有了世界模型,AI 就能:
- 預測:如果我做這件事,接下來會發生什麼?
- 規劃:怎麼做才能達到我想要的結果?
- 推理:這個情況和我之前見過的哪個情況類似?
這些能力,是單純靠「猜下一個字」永遠無法真正實現的。
JEPA:在概念空間裡思考
LeCun 提出的具體架構叫做 JEPA(Joint Embedding Predictive Architecture)。
核心差異在於預測的目標:
| 方法 | 預測什麼 |
|---|---|
| 生成式 AI | 預測原始輸出(下一個字、重建圖片) |
| JEPA | 預測抽象的向量表徵(概念本身) |
舉個例子:
- 生成式方法:看到一隻被遮住一半的貓,練習把另一半畫出來
- JEPA:看到同一張圖,直接理解「這是一隻貓」,不需要畫出來
前者學的是「像素的重建」,後者學的是「概念的理解」。
向量:RAG 和 JEPA 都用,但用法不同
這裡有個容易混淆的地方:RAG(檢索增強生成)也用向量,JEPA 也用向量,兩者有什麼不同?
RAG 的向量是用來「找資料」的索引工具:
問題 → 向量化 → 找相似文件 → 餵給 LLM → LLM 還是在猜字
JEPA 的向量是「思考的媒介」本身:
輸入 → 向量化 → 直接在向量空間裡預測和推理 → 不需要轉回文字
RAG 是「查完目錄再讀文字」,JEPA 是「直接在概念層次思考」。就像人類思考時,腦子裡並不會一個字一個字說話——我們操作的是抽象的概念。
爭議與現實
值得注意的是,LeCun 的主張並非沒有爭議:
- 論文性質:他的核心文件是 position paper(立場論文),不是有大量實驗支撐的研究論文
- 署名爭議:2024-2025 年間,學術界對「世界模型」概念的原創歸屬有所爭論
- 批評聲音:Gary Marcus 等人認為 LeCun 對 LLM 的批評過於絕對,對自身方案過於樂觀
- LLM 仍在進步:LLM 的能力持續提升,LeCun 多次預測的「天花板」似乎還沒真正到來
小結
LeCun 的論點可以用一句話概括:
現在的 AI 在學習「描述世界」,他想做的 AI 是「理解世界」。
生成式 AI 路線和世界模型路線,代表了對「智慧是什麼」的兩種根本假設。前者認為夠大的語言模型終將湧現理解;後者認為理解必須來自對世界的直接建模,語言只是副產品。
這場爭論還沒有結果。但正因為有 LeCun 這樣的聲音,AI 社群才不會只沿著一條路走到底。