EsoLang-Bench：透過奇僻程式語言評估大型語言模型的真實推理能力

Hacker News·17 天前

這項研究引入了 EsoLang-Bench，揭示尖端模型在主流語言上的優異表現源於記憶而非真實推理，因為當面對奇僻程式語言時，其準確度會崩跌至接近零的水平。

esolang-bench.vercel.app

背景

EsoLang-Bench 是一項針對大型語言模型（LLM）程式推理能力的最新評測研究。研究團隊發現，儘管當前頂尖模型在 Python 等主流語言的測試中能達到九成以上的準確率，但面對訓練數據極度稀缺的「奇特程式語言」（Esoteric Languages，如 Brainfuck、Whitespace 等）時，表現卻斷崖式下跌至 3.8% 左右。這項結果挑戰了目前 AI 具備「通用程式推理能力」的說法，暗示其高分表現可能更多源於對海量訓練數據的記憶與模仿。

社群觀點

Hacker News 的討論圍繞著「推理」與「記憶」的界線展開。部分評論者對此結果並不感到意外，認為這恰好揭露了當前模型本質上是「隨機鸚鵡」的現狀。一位開發者分享他在使用 Elixir 語言時的觀察，指出模型雖然能寫出看似正確的代碼，卻完全無法理解 OTP 或 Actor 模型等併發機制，經常引入邏輯錯誤或競態條件，這與模型在奇特語言測試中的失敗如出一轍，證明了模型只是在模仿代碼的平均分佈，而非理解底層邏輯。

然而，也有不少觀點對這項測試的公平性提出質疑。有網友認為，要求模型在缺乏訓練數據的情況下撰寫奇特語言，就像是要求人類在不熟悉語法的情況下進行開發，即便具備推理能力也難以發揮。如果人類在這些語言上的表現同樣糟糕，那麼這項測試可能只是證明了奇特語言本身就難以被人類或機器理解，而非證明模型缺乏推理能力。對此，有反駁意見指出，人類具備透過閱讀文件學習新語言的能力，而模型在擁有大量語料庫的前提下，連最基礎的邏輯問題（如 Brainfuck 的簡單循環）都無法處理，確實反映了其推理能力的硬傷。

關於技術層面的討論則聚焦於「標記化」（Tokenization）的影響。許多奇特語言依賴重複的符號或不可見字元（如 Whitespace），這對現有的 Token 處理機制極其不利，可能導致模型在處理這些語法時就像是戴著模糊的眼鏡在看世界。此外，有網友建議，若要更精準地衡量推理能力，應該設計一種全新的、完全不在訓練集中的程式語言，並提供完整的語言規範讓模型進行「情境學習」（In-Context Learning），觀察其是否能即時掌握新規則，而非僅僅依賴過往的記憶。

最後，社群也探討了「代理系統」（Agentic Systems）的潛力。數據顯示，具備執行反饋迴圈的系統表現優於單純的提示詞工程。有評論者提出，如果讓模型先撰寫一個從 Python 到 Brainfuck 的轉譯器，再藉此解決問題，或許能大幅提升準確率。這種「工具輔助」的思路被認為是未來提升 AI 解決複雜邏輯問題的關鍵路徑，但也再次引發了關於這是否算作「原生推理」的哲學爭論。

延伸閱讀

在討論過程中，網友提到了 InterSystems 開發的 ObjectScript（由 MUMPS 演變而來），認為這類雖然冷門但在特定產業仍有應用的語言，比純粹惡搞的奇特語言更適合作為測試模型「稀缺數據處理能力」的指標。此外，也有人提及 Claude Code 等具備執行反饋能力的代理工具，在處理這類極端任務時展現出的相對優勢。

https://esolang-bench.vercel.app/