大型語言模型時代下的學術工作量證明

Lesswrong·4 天前

本文探討學術界如何將高投入的任務視為品質的工作量證明，並警告大型語言模型正透過讓這些原本昂貴的信號變得廉價且易於偽造，進而瓦解這套篩選機制。

這篇文章是作為 Inkhaven Residency 的一部分快速撰寫而成。

學術界一個廣為人知的秘密是，許多形式上的程序在很大程度上充當了工作量證明（Proof of Work）。也就是說，昂貴程序之所以存在，是因為必須存在某種篩選方式，而投入的努力程度通常可以作為衡量工作質量的良好指標。具體而言，研究領域浩如煙海，優秀的研究往往難以辨別。甚至僅僅是深入研究到足以理解其質量的程度，成本可能都很高。因此，人們會尋找顯而易見且昂貴的努力跡象，以決定是否要接觸這項研究。

為什麼人們堅持只閱讀發表在排版精美、寫作優良的論文中的研究，而不是去看隨機的部落格文章？部分答案是良好的寫作和排版使研究更容易消化，另一部分原因是投入時間正確地撰寫結果通常會促使結果本身得到改善。但部分答案在於工作量證明：當然，如果你的研究足夠好，你肯定願意投入 30 到 40 個小時來完成所需的實驗，並將其漂亮地排版成論文吧？

同樣地，為什麼各個領域往往堅持要求超出科學價值之外的實驗？例如，為什麼機器學習領域經常堅持要求人們進行昂貴的實證實驗，即使是理論論文也是如此。當然，部分答案是產生與現實毫無關聯的理論結果非常容易。但另一部分答案是，進行實證實驗充當了所需的工作量證明；即使是在中等規模的開源大語言模型（LLM）上實現任何東西都很困難，但如果你對自己的想法足夠有信心，你肯定會投入這份努力吧？（這有助於解釋一個顯然令人困惑的觀察：理論論文中的許多實證結果，與理論結果的正確性甚至適用性幾乎沒有關係。）

機器學習學術界的其他方面——精美磨練的圖表^([1])、堅持引用相關論文以展示對該領域的了解等等——其存在的部分原因也是為了作為質量的「工作量證明」過濾器。

從某種意義上說，這是學術界偉大的原因之一。在缺乏工作量證明系統的情況下，預設情況會更接近於權益證明（Proof of Stake）：即某種基於已知、先前已驗證成就的聲譽系統。雖然工作量證明過濾器可能造成浪費，但它們仍然允許新的、無名的研究人員進入該領域並做出貢獻（假設他們投入了必要的努力）。

整個架構的一個明顯問題是 LLM 的存在，過去昂貴的東西現在變得廉價。以前良好的寫作是昂貴的，但 LLM 讓任何人都能產出看似連貫、論證嚴密的英文文本。以前編寫機器學習代碼相當昂貴，但現在的 LLM 能快速產出看似正確的實驗代碼。學術界過去依賴的大多數工作量證明標誌也是如此：任何尖端 LLM 都能在 matplotlib 中生成排版精美的圖表、引用相關工作（或至少是令人信服的幻覺引用），並產出長篇的數學論證。

我自己在實際的機器學習會議場景中觀察到了這一點。過去，偽科學論文相對容易識別。但在過去一年中，我看到至少有一篇偽科學論文通過密集的數學術語和為了產生預期結果而硬編碼（hardcoded）的龐大代碼庫，成功騙過了其他同行評審。具體來說，雖然評審員知道自己沒有完全理解數學結果，但他們假設這是由於自己知識不足，而不是結果本身有誤。由於代碼庫通過了其他評審員的草率審查，他們沒有深入調查到足以發現硬編碼的程度。^([2])

從某種意義上說，這與 AI 在其他情境下引入的問題並無二致，我不確定除了退回到以前類似權益證明的聲譽系統之外，是否還有更好的解決方案。^([3]) 至少，我發現很難在不抱持高度懷疑的情況下，去接觸來自無名研究人員的、看似令人興奮的新結果。

這讓我感到悲哀，但我不確定這裡是否有真正的解決方案。

^(^) 特別是大量精美的「圖一」（figure one），它們將論文的核心思想和結果濃縮在單張圖表中。
^(^) 事實上，我花了了大約一個小時才斷定這篇論文的結果純粹是錯誤的，而不僅僅是令人困惑。幸運的是，在這種情況下，論文的問題足夠明顯，我可以向其他評審員指出例如特定的硬編碼結果（該論文未被錄用），但不能保證情況總是如此。
^(^) 當然，不那麼悲觀的人無疑會指出其他可能性：例如，可能會轉向抗 LLM 的工作量證明設置，或者我們可以依靠 LLM 來進行過濾。但只要 LLM 擅長複製所有認知淺層的人類努力，我就無法想像隨著 LLM 的進步，會有任何工作量證明設置能繼續發揮作用。而我個人對於將我所有的輸入工作委託給 Claude 感到相當悲哀。

參與討論

https://lesswrong.com/posts/Tfixo2RhNXgHzLwZx/academic-proof-of-work-in-the-age-of-llms