生成式 AI 是聰明的鸚鵡嗎？從 Yann LeCun 的批評看世界模型理論

「大家走錯路了。」

這是 AI 界元老 Yann LeCun 對當前生成式 AI 熱潮的看法。他是深度學習的奠基者之一、圖靈獎得主，長期擔任 Meta AI 首席科學家。但他卻不斷公開說：ChatGPT 這條路，走不到真正的智慧。

他的理由是什麼？他提出了什麼替代方案？

LLM 的運作方式：傳話遊戲

以 ChatGPT 為代表的大型語言模型（LLM），核心運作方式是 autoregressive generation——每次只預測「下一個字」：

「台灣最高的山是」→ 猜「玉」→ 猜「山」→ 猜「，」→ ...

每一步都有出錯的機率。一步錯，步步錯，錯誤會隨著生成長度指數累積。

LeCun 把這個現象比作傳話遊戲：傳到第十個人，訊息已經面目全非。LLM 寫一篇長文，後半段的可靠性遠不如前半段，原因就在這裡。

為什麼說 LLM 是「鸚鵡」？

鸚鵡能說「你好」，但牠不懂「你好」是什麼意思。

牠學到的是聲音的形狀，不是聲音背後連結的世界。

	鸚鵡	LLM
學習材料	聽到的聲音	讀過的文字
學到什麼	聲音的統計模式	文字的統計模式
有世界觀嗎	沒有	沒有

LLM 讀過幾乎所有人類寫過的文字，模式極度複雜，足以應付大多數問題。但 LeCun 認為：複雜的鸚鵡還是鸚鵡。

這和哲學家 John Searle 1980 年提出的**「中文房間」**思想實驗異曲同工——你在房間裡照著規則書操作符號，外面的人以為你懂中文，但你根本不懂。規則書再厚，也不等於理解。

LeCun 的解法：世界模型（World Model）

LeCun 在 2022 年發表論文 A Path Towards Autonomous Machine Intelligence，提出 AI 應該像嬰兒一樣學習：

嬰兒不需要有人一直教，他們透過觀察和互動，在腦子裡建立起「世界會怎麼運作」的模型。推這個杯子，它會倒。鬆開手，東西會掉下去。

這個「腦子裡的世界地圖」，就是 World Model（世界模型）。

有了世界模型，AI 就能：

預測：如果我做這件事，接下來會發生什麼？
規劃：怎麼做才能達到我想要的結果？
推理：這個情況和我之前見過的哪個情況類似？

這些能力，是單純靠「猜下一個字」永遠無法真正實現的。

JEPA：在概念空間裡思考

LeCun 提出的具體架構叫做 JEPA（Joint Embedding Predictive Architecture）。

核心差異在於預測的目標：

方法	預測什麼
生成式 AI	預測原始輸出（下一個字、重建圖片）
JEPA	預測抽象的向量表徵（概念本身）

舉個例子：

生成式方法：看到一隻被遮住一半的貓，練習把另一半畫出來
JEPA：看到同一張圖，直接理解「這是一隻貓」，不需要畫出來

前者學的是「像素的重建」，後者學的是「概念的理解」。

向量：RAG 和 JEPA 都用，但用法不同

這裡有個容易混淆的地方：RAG（檢索增強生成）也用向量，JEPA 也用向量，兩者有什麼不同？

RAG 的向量是用來「找資料」的索引工具：

問題 → 向量化 → 找相似文件 → 餵給 LLM → LLM 還是在猜字

JEPA 的向量是「思考的媒介」本身：

輸入 → 向量化 → 直接在向量空間裡預測和推理 → 不需要轉回文字

RAG 是「查完目錄再讀文字」，JEPA 是「直接在概念層次思考」。就像人類思考時，腦子裡並不會一個字一個字說話——我們操作的是抽象的概念。

爭議與現實

值得注意的是，LeCun 的主張並非沒有爭議：

論文性質：他的核心文件是 position paper（立場論文），不是有大量實驗支撐的研究論文
署名爭議：2024-2025 年間，學術界對「世界模型」概念的原創歸屬有所爭論
批評聲音：Gary Marcus 等人認為 LeCun 對 LLM 的批評過於絕對，對自身方案過於樂觀
LLM 仍在進步：LLM 的能力持續提升，LeCun 多次預測的「天花板」似乎還沒真正到來

小結

LeCun 的論點可以用一句話概括：

現在的 AI 在學習「描述世界」，他想做的 AI 是「理解世界」。

生成式 AI 路線和世界模型路線，代表了對「智慧是什麼」的兩種根本假設。前者認為夠大的語言模型終將湧現理解；後者認為理解必須來自對世界的直接建模，語言只是副產品。

這場爭論還沒有結果。但正因為有 LeCun 這樣的聲音，AI 社群才不會只沿著一條路走到底。