專訪 Steven Byrnes：探討其主流 AI 起飛情境預測

Lesswrong·26 天前

原文

我與 AGI 安全研究員 Steven Byrnes 博士進行了對談，探討了如 Claude Code 等 AI 代理工具的驚人進展，以及為何他仍然對未來可能出現的冷酷社會病態超級人工智慧所帶來的生存風險保持高度警惕。

在使用最新版本的 Claude Code 並對其在保持友好且易於修正的同時展現出的強大能力感到驚訝後，我想反思這一新觀察應如何更新我的世界模型以及我的 P(Doom)（毀滅機率）。

因此，我聯繫了 @Steven Byrnes 博士，他是一位博學的人工通用智能（AGI）安全研究員。我上一次採訪他是在八月，主題是類腦 AGI、爆發與毀滅，以及解決技術對齊問題。

我們討論了：

Steve 的高 P(Doom)
「類腦 AGI」：本質上不同的下一代 AI
近乎全民失業可能發生在下一個人工超智能（ASI）體制之前還是之後？
「數據中心裡的天才之國」是一個好的預測嗎？
為什麼我們應該預期會出現殘酷且反社會的 ASI
訓練後處理與 RLVR：結果主義的「薄層」
航空旅行與太空旅行的類比

影片與音訊

本集內容可在 Substack、YouTube 上觀看，或在您的播客應用程式中搜尋「Doom Debates」。

逐字稿

介紹

Liron 00:00:48
歡迎來到 Doom Debates。今天，我們邀請到了一位深受觀眾喜愛的嘉賓回到節目中，Steven Byrnes 博士。你可能還記得他六個月前來過。我們進行了一次非常長且充實的對話，我強烈推薦大家去聽。那是我有史以來最喜歡的一集。

他是 Astera 研究院的人工通用智能安全研究員。他擁有哈佛大學物理與數學學士學位，以及加州大學柏克萊分校物理學博士學位。他在哈佛大學做過物理學博士後，研究熱力學和光學。2015 年至 2021 年，他在一家名為 Draper 的非營利應用物理研發實驗室工作。自 2021 年以來，他一直擔任 AGI 安全研究員，起初是獨立研究，現在在 Astera。

所以他的資歷非常深厚。就廣泛涉獵的博學者而言，沒有人比 Steven Byrnes 博士更名副其實了。我想你們在我們上一集節目中就能看到這一點。今天，我很高興能與 Steve 交流自去年夏天以來他思想的最新進展。我們將檢視近幾個月 AI 的進展，並深入探討 Steve 最近提出的論點：我們仍應預期會出現不幸的、殘酷且反社會的 ASI。Steve Byrnes 博士，歡迎回到 Doom Debates。

Steve 00:02:00
謝謝再次邀請我。

Liron 00:02:01
是的，回歸的冠軍。我認為你對這些話題的看法極具公信力。我們在上一集深入探討過。在那集快結束時，我們說過：「在你我之間，這其實不是一場關於毀滅的辯論，這就是毀滅本身。」觀眾喜歡看到終於有人上節目是我們可以信任的，或者至少是我的觀眾普遍認同的。而且在許多方面，你走在我們前面。你擁有比我們更詳細的心理模型。

所以這將會非常有啟發性。讓我們從去年夏天以來的這六個月開始聊起。給我們一個非常高層次的更新。你會如何描述過去六個月的發展？

Steve 00:02:38
嗯，讓我想想。我有自己的研究計劃，與類腦人工通用智能相關——這個想法是有人可能會逆向工程或重新發明人類大腦在世界上完成任務的方式，例如創辦公司、從零開始發明科學技術。如果有人逆向工程或重新發明了這一點，那我們該如何使用它？我們如何走向美好的未來？

如果我們最終製造出強化學習智能體（agents），那麼我們應該使用什麼獎勵函數（如果有話），才能得到一個我們願意與之共存、且它也願意與我們共存的智能體？去年我花了很多時間試圖弄清楚人類的社交本能是如何運作的。我們想對朋友好，我們想給人留下深刻印象，以及人類社交性和道德的所有其他方面，我認為最終都來自人類大腦的獎勵函數。

多年來，我一直試圖弄清楚那是如何運作的，並取得了很大進展。在過去的六個月裡，我一直試圖將這些進展與強化學習領域聯繫起來，而不是像以前那樣僅限於神經科學領域。我希望能根據我從研究大腦中學到的東西，在思考一般的獎勵函數時少一些困惑。

Liron 00:03:52
好的，這是過去幾個月一個有趣的轉向。你是說不再那麼關注神經科學，而是更多地深入研究現代 AI 的運作細節。

Steve 00:04:01
現代 AI 是一個通常指代大型語言模型（LLM）的術語，我應該澄清一下，我並沒有在大型語言模型上投入太多精力。我想這比大多數從事 AI 安全的人都要少。但現代 AI——AI 是一個研究領域，它包含許多不同的東西。我對 AI 的強化學習分支更感興趣，這在目前有點像是一個被遺忘的冷門領域，但我預期並擔心它在未來會變得更加重要。

研究更新：過去 6 個月的新進展

Liron 00:04:31
所以從高層次來看，想像一下有人不關注新聞，每六個月才探出頭來查看一次。如果你看 2025 年 6 月與 2026 年 2 月的對比，我認為這有點遵循了 AI 2027 的時間線。他們有一個著名的時間線，雖然他們並不是說這一定會發生，但現在看來確實是朝著那個方向發展的。

我記得他們 2025-2026 年時間線中最重大的事情是智能體。起初，他們稱之為「蹣跚的智能體」，智能體可以四處摸索，但隨後會崩潰並需要人類扶起來，然後它們運行的時間越來越長，承擔越來越多人類的工作。我認為這非常準確。我認為這真的是「智能體之年」。智能體在過去幾個月裡真的開始展現出驚人的效果。對我來說，這就是過去幾個月進展的頭條新聞。你認為過去六個月的新聞是什麼？

Steve 00:05:23
是的，當然就 AI 能力的新聞而言。我不認為自己是專家。我並不比你了解更多。可能我了解的還少得多。但是，是的，每個使用編碼智能體的人似乎都對它們印象深刻。我自己還沒來得及安裝，但當人們描述它們能做什麼時，我絕對相信這些報告，這在 LLM 世界中似乎確實是一個重要的發展。

Liron 00:05:48
我可以加入你社交圈中那些告訴你這是「真傢伙」的人群。我幾週前開始認真投入使用，這是一種非常奇特的體驗，因為我整個職業生涯都是軟體工程師，甚至從十歲起就是了，但現在我不再真的是一個軟體工程師了。我不再真正看我的程式碼了，因為我寧願直接告訴 AI。

現在已經到了這種程度——為了讓人們看到它已經發展到什麼地步——假設我一年前寫了一段程式碼。你會認為我有一定的上下文背景可以重新進入我自己的程式碼並進行一些調整。但現在對我來說，告訴一個乾淨版本的 Claude Code 或 OpenAI Codex 其實更容易：「嘿，這個程式碼文件，這裡面的某些東西，去把這個組件改成這樣。」

對我來說，使用語音轉文字並寫下幾行指令給 AI 其實更快，AI 會花三十秒理解我一年前在想什麼。這樣做其實比我自己去打開文件閱讀我自己的程式碼還要快，儘管那是我一年前寫的程式碼。它就是這麼好用。

Steve 01:06:06
是的。我最近沒有什麼想做的大型軟體項目，但當我有一些一次性的 shell 腳本或這類東西時，你確實只要問 LLM 怎麼做，它就會印出來，而且通常第一次嘗試就能成功，如果不行，你可以告訴它錯誤訊息是什麼，它通常就能修復。

Liron 01:07:06
這真的很瘋狂。作為一名軟體工程師，我知道什麼是可能的。所以我可以說：「嘿，你能去這個伺服器下載這個，然後把它移到這裡，再做那個嗎？」AI 就會說：「沒問題，我可以搞定。這是個小計劃。好了，完成了。」我心想：「哇，我也能做，但那會花掉我一整個專注的週末，而且週末結束時我會覺得『好吧，這週末我總算完成了一些事』。」而 AI 在三十分鐘後就說：「給你。」我當時的反應是：「我的天啊。」

這在幾個月前是做不到的。這真的是全新的。這真的很瘋狂。當我走出家門在世界上行走時，我想告訴每個人：「你們知道我們現在已經有可以取代一大堆工作的 AI 了嗎？」人們完全不知情。

Steve 01:07:42
是的。我是說，我不知道它們是否正在取代工作。我對軟體工程界的了解還不夠深入，不知道它們是否——

AI 智能體的崛起

Liron 01:07:49
所以這是我的經驗。不過我要說的是：我認為你和我——在使用過 Claude Code 之後，我現在更容易扮演反方辯友了。我開始更能理解為什麼那些非毀滅論者會想像 AI 永遠會服從於人類，因為現在我看到 AI 在能力方面取得了長足進步，但它們仍然如此友好且順從。

這種直覺——很難對抗這種直覺，即 AI 永遠只會是你給它一個任務，它跑去執行，完成得很好，然後回來對你說：「主人，給你。你是老大，不是我。我現在要關機了。」這種直覺在我心中不斷增長，儘管我不認為這會永遠持續下去。

Steve 01:08:27
是的。我是說，我們可以討論很多關於事情從那裡開始出錯的不同故事。人們——你可以討論競爭動態和逐底競爭（races to the bottom）。你可以討論惡意行為者或粗心的行為者，等等。我腦海中首要的情境是，未來更強大的 AI 在性格上與我們今天習慣的 AI 其實有很大不同，因為那將是一個與現在不同的 AI 範式。

Liron 01:08:57
我認為不同的範式是關鍵。我確實有了一點觀念更新，別誤會，我不是說我現在變成非毀滅論者了。這是一個微小的更新，但意義重大。我只是想確保我從這次更新中挖掘出最多的資訊。

我認為這個更新是：人類建立像 Claude Code 那樣只做他們想做的事的智能體，比我想像的要容易，也就是工作一段時間然後停下來等待下一個指令。我正在失去的世界觀是那種認為「甚至讓 AI 泡杯咖啡都很難」的想法——即任何你想做的任務，在執行任務的過程中，它都會想要瘋狂地優化整個宇宙。嗯，我認為我們發現了一個體制，在那裡它們超級有用，能完成一堆任務，但它們是可修正的、是對齊的。我們處在一個非常好的狀態。

Steve 01:10:07
是的。我是說，你應該根據客觀情況所證明的程度來決定你的毀滅論傾向。我們不需要為了融入酷小孩圈子而表現得非常悲觀。我恰好比你更悲觀，再次強調，是因為我預期會發生的這種範式轉移。我想還有其他人會認同 LLM 是我們應該擔心的範式，而他們更擔心是因為競爭性的逐底競爭等因素。

Liron 01:10:51
你正在進行一個對齊計劃，對吧？這是我們對話的第一部分。我稱之為——這不是你的決定，但為了最大化點閱率，我稱之為——「那個真正能拯救人類的人」，意思是你在真正嘗試達成目標。我大概一隻手就能數出目前活著的人中，我認為誰是在認真嘗試達成目標，即：「好吧，這是 AI 可能的發展方式，這並不愚蠢。這其實是一個合理的猜測。既然這是合理的猜測，那麼有什麼方向可能真正有助於做出對人類友好的事情？」

所以你確實有一個對齊計劃，據我所知，大概是你說：「好吧，這裡有一些程式可以為強化學習指定良好的目標。」這就是你的對齊方向嗎？

Steve 01:11:21
是的。我研究技術對齊問題，基本上是：我們如何讓像強化學習（RL）和基於模型的規劃（model-based planning）這樣的結果主義框架創造出不是殘酷反社會者的東西，而不僅僅是依賴模仿學習？我認為有一個答案，因為人類大腦就是建立在這些框架之上的，但儘管如此，它還是成功避免了那種結果，我正試圖理解它在人類大腦中是如何運作的，以及它在未來的 AI 中可能如何運作。

Liron 01:11:41
觀眾們，請查看節目資訊。那裡會有 Steven Byrnes 第一部分的連結，那是你在本節目中能看到的最精彩的討論之一。大多數其他嘉賓來到節目，我的工作就是揭露他們的觀點有多麼離譜。但在 Steve Byrnes 的案例中，我認為他幾乎是完全正確的。還記得他的 P(Doom) 是多少嗎？

Steve 01:11:44
噢，別逼我說出來。這真的很煩人。

Liron 01:11:46
好吧，讓我們刷新觀眾的記憶。他們想看看你在這個最重要問題上的立場。

Steve 01:11:51
P(Doom)。P(Doom)。你的 P(Doom) 是多少？你的 P(Doom) 是多少？你的 P(Doom) 是多少？

Liron 01:11:57
Steve Byrnes 博士，你的 P(Doom) 是多少？

Steve 01:12:00
我想如果非要選一個數字，我會選百分之九十，但我們可以對如何解釋這個數字以及它的含義進行各種說明。而且我確實認為我們都應該積極嘗試讓事情變得更好。

Liron 01:12:14
哇。嗯，是的。你處於理智區間的高端。我認為這仍然是一個理智的估計。我認為如果你開始高於百分之九十，你就會開始變得有點過度自信。

Steve 01:12:22
是的。我是說，這很難……預測很難，尤其是關於未來的預測，正如人們所說。

Liron 01:12:28
沒錯。

Steve 01:12:28
我喜歡談論那些電影，當劇情進行到四分之三時，英雄被困在另一個維度，沒有回家的路，而邪惡的計劃即將實現，你只是坐在觀眾席上吃著爆米花想：「噢天哪，編劇要怎麼讓我們脫困？」

Liron 01:12:53
對。

Steve 01:12:53
所以那是不同的。如果你在電影院裡，你可以預測他們會想出辦法的。但在現實世界中，我們不知道會發生什麼，這很難預測。我很難想像事情會進展順利，但這部分是因為我，而不僅僅是因為這個世界。顯然，我們都應該繼續為讓事情進展順利而奮鬥。

「樂觀主義者」這個詞同時意味著「我預期事情會進展順利」，也意味著「我有一種『我能行』的態度，並且我正在努力讓事情變得更好」。我認為我們都應該將樂觀主義者的第二個定義作為我們身份的一部分，無論我們對是否可能克服挑戰的預期如何，都要有一種「我能行」的態度並努力讓事情進展順利。

你的 P(Doom) 是多少？™

Liron 01:13:42
說得好。是的，我同意這就像一團糾纏在一起的藤蔓，似乎都在把我們往下拉，如果你想救自己，你就必須剪斷許多藤蔓。

所以上次你來這裡時，我們談到了之前和之後的兩個範式。我知道你把第二個範式稱為類腦 AGI，這種 AGI 具有人類大腦那種驚人的力量，能非常快速地學習並累積一生的學習成果，並能看透——學習開車，你不需要一百萬個數據點。你只需要幾個小時的課程，然後你就學會了。你稱之為類腦 AGI，你認為那是即將到來的下一個範式。那麼你把我們現在所處的這個範式稱為什麼，就只是 LLM 嗎？

Steve 01:14:17
是的，當然。基礎模型，隨便怎麼稱呼。

Liron 01:14:20
術語開始讓我很難記在腦子裡，因為我實際上看到——我目前的感覺是，而且這挺令人驚訝的——我看到 AI 實際上正穩步超越人類大腦，但它們感覺與 ChatGPT-3 並沒有本質上的不同。我幾乎覺得 LLM 範式正在吞噬人類大腦的所有力量。你對此有什麼看法？

Steve 01:14:42
我認為這是我不同意的地方。我認為 LLM 有一些永遠不會消失的缺點。我以前常說 LLM 會進入平台期（plateau），但我意識到這從來都不是正確的詞，因為平台期意味著它們在任何軸向上都沒有進步。西洋棋引擎並沒有進入平台期。它們在西洋棋方面持續進步。

所以我不應該說平台期。我應該說，我認為在某些軸向上，LLM 永遠不會像人類大腦那樣強大，或者不像我一直說總有一天會發生的下一個範式那樣強大。

Liron 01:15:20
只是——當我之前和你交談以及我自己思考時，我覺得低於人類能力的牆會更堅固。所以是的，它們會不斷變得越來越好，但即使是那種認為它們可以輕易突破半小時時間跨度的想法——METR 的圖表強烈表明它們的時間跨度現在已經是多個小時，甚至是十四個小時，儘管基準測試開始飽和了。所以我們不知道是否可以從字面上理解這十四個小時。

但很明顯，一個 AI 現在做半小時的事情是非常高效的，並且有可能取代一個工作一整天的人。很明顯，我們正處於那個點上，而且似乎沒有放緩的跡象。難道你不覺得這挺令人驚訝的嗎？LLM 範式竟然能這麼快就突破這些全天或多小時類型的任務？這難道不比你想像的要快得多嗎？

Steve 01:16:44
是的。嗯，我想我從來沒有對此有過強烈的看法。我想如果有人拿槍指著我的頭逼我猜，是的，我大概會對 LLM 所能做到的強大程度感到驚訝。但我認為，你越進入沒有人類做過、或者網路上沒有、或者任何書中都沒有、且公司沒有委託專門數據的全新領域，LLM 在這些領域處理新穎任務時就越吃力。

「類腦 AGI」：下一代 AI

Liron 01:17:01
但似乎新穎性（novelty）不再是一個特別有用的防火牆了，因為它們可以編寫任何程式，你可以回頭說：「噢，好吧，我想編寫任何程式或編寫武器並毀滅世界並不是什麼新穎的事。我想這些都不新穎。」我覺得我們現在就處於這種狀態。

Steve 01:17:15
是的。我是說——是的。GitHub 和網路上有大量的程式碼，是的，你做的任何事情都可能與訓練數據非常相似，因為訓練數據實在是太多了。

Liron 01:17:23
所以關於如何以「不具創意」的方式毀滅世界的秘密已經公開了。如何以「非新穎」的方式毀滅世界。

Steve 01:17:23
對。是的。好吧。所以這有點像是一個單獨的問題，也就是也許這是 LLM 無法逾越的一道牆，但也許 LLM 仍然能夠消滅人類。對於那些這麼說的人，我會說：「太好了。去研究 LLM 安全吧。」我從不希望阻止人們為一個擁有更強大 LLM 甚至當今 LLM 的世界做計劃。我認為那是人們應該參與的非常好的一項活動。

但隨後還有另一個問題，即如果這是一道牆，而且我認為它是，那麼我們該如何思考這道牆的本質是什麼？LLM 有哪些事情是人類能做而它們不能做的？這又意味著什麼？

Liron 01:18:23
當你說其他人可以去研究它時，也許在你心中，你並不是超級擔心，因為你在想：「是的，LLM 可以嘗試毀滅世界，但人類總是可以通過從我們的錦囊中掏出一個新穎的防禦手段來對抗它，而 LLM 可能會被那個難倒。」你大概是這麼想的嗎？

Steve 01:18:23
我認為 LLM 無法獨自消滅人類並統治世界。所以這讓人稍微放心一點。我想它們可以把人類當作奴隸。我不知道。

我認為更多的是我一天的時間有限，我需要專注於某些事情，而我專注於這種我預期遲早會發生的超智能。上帝保佑，我們能活得夠久，以我正在計劃的那種更奇特的方式死去。如果有人想研究大流行病預防，那也很好。如果有人想阻止核戰爭——是的，也許我們不會死於超智能，因為核戰爭先帶走了我們。如果有人在研究核戰爭預防，那我也很支持。我認為我們需要有人研究所有這些不同的問題。

Liron 01:19:59
明白了。所以唯一的事情是，在接下來的討論中，我傾向於質疑類腦 AGI 與 LLM 或與模仿性 AI 的術語對比。LLM 只是在模仿它們已經看過的標記（tokens）。

也許我可以提議新的術語，我們稱之為類人 AGI 與目標引擎（goal engines）。我認為當你說未來強大的 AGI 是類腦 AGI 時，你可能假設得太多了。我認為你可能會驚訝地發現，即使是今天的 AGI 已經展現出驚人的類腦特性和強大能力。

Steve 01:20:24
是的。我們應該明確這兩個不同的定義，只要你定義清楚，我很樂意使用你喜歡的任何術語。如果我們討論 AI 能夠做什麼，那是一個有趣的問題。然後還有一個不同的問題，即用於創建它的算法是什麼，以及這些算法是如何運作的？它們從哪裡獲得能力？

Liron 01:20:35
好的。那我們試著使用中性術語：當前類型 AGI 和下一代 AGI。因為你認為有一個本質上的、質的、代際的飛躍即將到來，而這還沒有發生。

Steve 01:20:35
是的。

Liron 01:20:41
而且你是說自從第一代 GPT 以來，這甚至還沒有發生。在你看来，我們一直處於同一代。

Steve 01:20:41
是的。我認為有一個重要的區別，這與你打算討論的那篇關於殘酷性的文章有關。我認為思考 LLM 的一個好方法是，它們主要由模仿學習驅動。

正如許多人所知，預訓練的工作方式是你向 LLM 展示大量數據——相當於數萬輩子的數據量——它被訓練（至少在語言案例中）根據它已經看到的內容來預測下一個標記。所以你把它設定在一個情境中，它看到一些上下文，無論它預測接下來會出現什麼，那就是它的輸出。然後還有訓練後處理，以及所有這些細微差別。

但我確實認為這是思考 LLM 如何解決問題的一個很好的基本方式。它們看到與訓練數據中出現過的情況相似的情境，而訓練數據中的人類通常在之後會做一些有用的事情，於是 LLM 就做那些有用的事情。我會說，它們是從模仿學習中獲得力量的。這與我認為人類大腦的運作方式形成了對比，我認為人類大腦是從強化學習（這有點不同）和基於模型的規劃中獲得力量的。

Liron 01:22:22
不，我認為這是一個非常合理的假設。我認為你很可能是對的。你對的可能性比不對的可能性大。我只是個人看到今天的智能體展現出的力量，它們只是基於你所說的較弱架構，即基於標記或模仿預測的架構——這種你認為無望跨越到新穎性或真正威脅的架構。僅僅通過經驗觀察到即使是這種較弱的範式也有可能讓每個人失業，我對這種區分的信心正在減弱。

Steve 01:22:39
我是說，我不知道是否是每個人。我們可以討論什麼與訓練數據足夠相似，以至於 LLM 實際上很擅長它，結果發現是很多事情——幾乎是人們日常想要製作的所有軟體。是所有的軟體嗎？我不知道。我會說可能不是。

如果我在一年的時間裡發明了我自己複雜的程式語言，並且沒有把任何內容放在網路上，而且它是我編造的一些奇怪範式，我認為 Claude Code 在使用那種完全新穎的程式語言方面會比我差。這是一個猜測。我不是百分之百確定。或者，以奧林匹亞數學競賽題為例。

Liron 01:23:02
對。

Steve 01:23:02
眾所周知，這些都應該是原創題目，但實際上人們已經發表了數萬道奧數題，而且人們用來解決這些題目的技巧也就那麼多。LLM 已經看過所有的解答和所有的題目，事實證明它們在泛化方面做得足夠好，如果它們看到幾乎任何新的奧數題，它們實際上都能磨過去，也許它們會嘗試二十種不同的方法，但最終會找到解答。

所以是的，我們需要對相似性有一個廣泛的看法。但我可以給你一個不同的想法。從公元前 3000 年開始，數千年來有數百萬人類。我們在一個星球上，沒有天使從天上掉下新的訓練數據。但儘管如此，我們還是憑藉自己的力量發明了語言、科學、技術以及價值百兆美元的全球經濟及其中的一切。

我認為如果你把數百萬個 LLM 關在一個密封的盒子裡數千年，不給它們任何新的訓練數據——你給它們一些 VR 環境去玩——我不認為 LLM 會像人類那樣以開放式的方式發明新知識並在該新知識的基礎上發展。當然，這是一個瘋狂的例子。也許 LLM 可以在無法解決那個問題的情況下殺死所有人。但這是一個用來解釋缺陷的玩具例子。

Liron 01:24:26
這有點像「馬蹄鐵理論」，我認為你是這個領域最有見地的人之一。但你現在使用的一些語言，在我看來，與該領域一些最沒見地的人不謀而合。如果你看大衛·多伊奇（David Deutsch）學派，我認為他在一般領域很有見地，但在 AI 領域並非如此，他說：「AI 無法創造知識。」我心想：「你確定嗎？」或者有些人說：「AI 無法真正推理。」還有許多人像你剛才說的那樣：「AI 無法做任何新穎的事。它們總是在尋找相似性。」

我個人一直覺得訴諸相似性是非常具有誤導性的。是的，這對早期的 GPT 來說是真的，但我覺得我們現在已經到了這樣一個點，即訴諸相似性——我不認為還能從中挖掘出多少價值。因為我們學到的一件事，人類學到的最深刻的事情之一，就是還原論和形式系統這個基本概念。

我們對物理學了解的一件事是，歸根結底，一切其實都只是由少數幾個構建塊組成的。所以從某種意義上說，一切都與其他一切相似。一切都只是相同構建塊的一部分，或相同配置空間的一部分。同樣，在數學中——你看數學的每個領域，所有這些不同的教科書、所有這些不同的理論、子領域，然而它們都是由相同的部分構建而成的。它們都可以被形式化。如果你看證明，每個證明都是可以形式化的。當你從一個主張推導到該主張的證明時，你總是在運用同一套狹窄的可能規則。所以這就像是，噢，你以前已經看過如何推理了？是的，一切都是一樣的。那麼你還能訴諸相似性到什麼程度呢？

Steve 01:26:04
是的。我想我喜歡談論放入大量的複雜性，在複雜性之上構建，在複雜性之上構建，以及只在上下文窗口中而不在權重中的新穎想法。我認為那是你可以把 LLM 推向崩潰邊緣的地方。

所以這就是我之前談到的那個愚蠢的例子，你有三萬年的人類知識、科學和技術——如果你試圖把所有這些都放在上下文窗口中而不是權重中，我真的不認為 LLM 能夠做到。它們可以在上下文窗口中做一些事情，但我認為權重才是它們知識的大宗。那是可以任意擴展的部分，而上下文窗口則不行。

Liron 01:27:15
我明白你的意思。所以上下文窗口——權重是長期和短期記憶的結合。或者你提出的觀點是，當它們試圖推理時，如果有一堆步驟且都必須在上下文中發生，你可能會遇到上下文過載的情況。而那是人類發光發熱的地方，因為人類可以不斷寫入長期記憶，他們有一個更大的緩衝區，所以他們可以做更複雜的事情。

Steve 01:27:15
我傾向於更多地從知識而非記憶的角度來思考。如果你擁有提出新數學概念（如「概形」方案或其他東西）所需的所有資訊，並且你正處於提出概形的邊緣，我認為 LLM 同樣可以利用現有的人類知識，或許它們也能提出概形。

但我認為它們做不到的是鎖定概形的概念並研究幾個月，然後開始在它的基礎上構建，而這一切都只在上下文窗口中而不在權重中。

Liron 01:27:48
它們無法花一年時間開發一個領域，然後利用它們的新見解來完成下一個任務。

Steve 01:27:54
是的，如果你只是把該領域的知識保存在上下文窗口中。

Liron 01:28:03
然後，正如你已經承認的，它們做不到的那件特定事情，可能並不在接管世界的關鍵路徑上。

Steve 01:28:03
我想我對此沒有強烈的看法。我傾向於認為不是。但是的，時間會證明一切。當然我希望不是。

Liron 01:28:14
這讓我想起——當我問一些人，特別是那些總是說「AI 無法真正具備創造力，無法真正具備新穎性」的多伊奇主義者時，我會說：「好吧，告訴我一件人類在典型的一年裡會做，而你認為 AI 做不到的事情。具體一點。不要只用『新穎』這個抽象的詞。」

然後他們會說：「好吧，發明廣義相對論。」我會說：「好吧，但你也是人類，對吧？你和我也是人類，我們自己也沒能發明廣義相對論。所以你是說 AI 現在如果排名的話，它高於幾乎所有人類，僅次於愛因斯坦？因為我覺得那已經足夠接管世界了。」

Steve 01:29:23
我是說，我們使用科學的例子是因為它們對普通人來說很難，而且非常令人印象深刻。但我認為還有一些更日常的概念空間，人們提出的概念同樣屬於概念建立在概念之上的領域。裝一袋雜貨——如果你做得夠多，你就會對包裝不同物品的好方法產生一種完形感（gestalt sense）。你在工作中學習，那是貨真價實的持續學習，但它太普通了，以至於我們不認為它是人類知識的巔峰。

Liron 01:29:24
對。

Steve 01:29:31
所以，是的。接管世界需要什麼？是的，我不知道。也許我應該直接說我不知道。

Liron 01:29:31
根據目前的對話，你對 AI 沒在做而人類會做的事情有著完全合理的假設。關於 AI 還剩下什麼可以做，這是一個非常有趣的對話話題。我認為你可能發現了一些東西，即 AI 每天做某件事做了一年，但它沒有記下那種完形印象並更新它的權重。它沒有那樣做，所以它落後了，而人類會那樣做。

但在這一點上，似乎 AI 的核心是如此強大，以至於我們現在可能只是在討論一個外殼。如果你有一個元過程（meta process）來觀察 AI 並寫下一些筆記，然後每隔幾天也啟動一次新的訓練運行，這難道不能修補一切嗎？

Steve 01:30:12
讓我想想。我想提出的另一點是，我們的心理圖景中必須包含 AI 公司為編碼所投入的具體努力。我相信他們——AI 公司每年花費數十億美元委託專門的數據進行訓練，以使他們的 AI 變得更好，並委託強化學習環境進行訓練，以使他們的 AI 變得更好。他們在編碼方面非常努力。

我們注意到他們在編碼方面變得多麼出色，我認為我們不應該對此過度概括。AI 公司並沒有專門針對接管世界所需的那套能力。希望這意味著他們在那方面不會那麼擅長。

LLM 能否趕上人類大腦？

Liron 01:31:51
好的。讓我們談談質的飛躍，因為我覺得在過去幾年裡已經發生了一些瘋狂的質的飛躍，而且未來幾年還會有另外幾個質的飛躍，然後世界就終結了。這是我所想像的。

之前的質的飛躍——如果你還記得 2010 年代及之前，我們基本上只有窄 AI（narrow AI），比如 Google 翻譯。它會給你不錯的翻譯，但並沒有真正理解它正在翻譯的文本。你無法將知識關聯起來並進行推理，所以它是窄 AI。

然後我們有了通用聊天機器人，即 GPT 革命。今天我們擁有了通用的智能體，它們的能力日益強大，運行時間越來越長，並且真的可以讓事情發生——真的可以設計整個系統。

然後很快，感覺我們正處於通向 AGI 的軌道上，這意味著在大多數經濟領域中，AI 將成為人類的優越替代品。你同意我們可能在幾年內就能實現 AGI 嗎？

Steve 01:31:55
那取決於你如何定義 AGI。

Liron 01:32:13
如果我把它定義為，假設目前領取薪水、拿著足以維持生計的工資的職位中，有百分之八十的人類工作可以完全不再是工作，而是由 AI 取代。

Steve 01:32:13
嗯。我想我會賭這不會發生。但我對此並不是非常有信心。這不是我思考得足夠多到能有定論的事情。

Liron 01:32:48
好吧，也許你認為的是，如果我們真的能做到完全的掉換式替代——如果 AI 真的能每天上班上一年——在那一點上，它一定是在隨著時間的推移進行足夠的學習，或者它一定擁有了今天 LLM 所沒有的那種額外的秘密武器，以至於它可能會把我們一路推向下一代範式。所以它不會只是停留在當前的範式中。

Steve 01:32:54
我絕對認為下一個範式將能夠勝任所有人類工作。

Liron 01:33:02
對。但你不認為會有一段單獨的窗口期，我們仍然活著且悠閒地生活，只是我們沒有工作。你是說：「不，不存在那樣的分隔。」

Steve 01:33:02
我確實預期事情的順序會是，災難或烏托邦會比失業更早到來。

Liron 01:33:09
哇。這是一個有趣的運作順序，是的。

Steve 01:33:11
我喜歡引用 Eliezer 的一句話，他說：「如果你問機器超智能對就業市場的影響，這就像是在問月球撞擊地球對中美貿易模式的影響一樣。」

Liron 01:33:27
是的，是的，沒錯。我的主線情境可能是——照這個速度，我覺得我預期會有一波巨大的失業浪潮，但我們仍然活著且悠閒地生活，因為當前的範式將導致所有的混亂，而且這不是一個二十四小時的爆發。這只會是：是的，一堆人沒有工作，但不知何故我們還生存著，情況還不錯，生產力很高。

但幾年後，我基本上認為 FOOM（智能爆炸）是終局。所以如果我必須思考質的轉變——聊天機器人發生了一次，你不再需要寫任何東西了，它們在寫作方面強得離譜。然後智能體剛發生了一次。它還在發生的過程中，但已經發生到了令人難以置信的程度。是的，你不再需要真正去構建東西了。你不再需要構建軟體了。你只需要管理構建你軟體的智能體。而且這不僅僅是構建軟體，還包括製作試算表、製作簡報。你真的只需要偶爾給它們一點輸入。

然後下一個轉變是，你的整份工作都可以被取代。你甚至不需要坐在那裡管理 AI。AI 可以直接接收你老闆發給你的東西，而你現在已經不在環節中了，然後你的老闆也不在環節中了。它們正在向上攀升——它們從票務系統中領取任務。它們抓取任務並完成整個工作。它們不需要你為它們做那部分工作。

所以我認為失業型的 AGI 接下來就會到來。然後在失業型 AGI 之後的轉變就是 FOOM，那時 AGI 會說：「嘿，大腦做的這些事情我們還沒有解鎖。我甚至不需要這個來實現 AGI，但我可以做到這一點，我可以啟動一個遞歸反饋迴路，現在人類真的完蛋了。現在他們甚至無法保持對世界的控制。」這就是我的事件順序。

Steve 01:35:00
是的，我是說，我想與你相比，我更傾向於強調 LLM 在寫作方面並沒有那麼出色。當 LLM 的寫作變得無法與人類寫作區分開來時，那將會很有趣，到那時我們將不知道那是 LLM 還是只是某個不擅長寫作的人。很高興我們還有 Pangram Labs 之類的東西。

Liron 01:35:21
對。

Steve 01:35:21
讓我們趁現在還能享受的時候享受它。上次我和一位律師談論 LLM 的表現時，他對它們印象並不深刻，但那是整整幾個月前的事了，所以——

Liron 01:35:34
噢是的，不，整整幾個月前。我是說，你不能——因為編碼智能體在幾個月前要差得多。

Steve 01:35:36
是的。但我只是說，我不知道剩餘的差距是很快就會被攻克的東西，還是表明 LLM 根本不適合該用途。

Liron 01:35:55
只是現在一直有一種節奏，每隔幾週就會有一些重大的東西被攻克。所以他們總能找到重大的東西來攻擊。我只是覺得他們會繼續成功攻擊重大的東西。

Steve 01:36:08
我是說，這是一種可能性。我們最終會知道結果的。

AI 會在奪走我們的工作之前殺死我們嗎？

Liron 01:36:12
好的。讓我們談談數據中心裡的天才之國，因為那是 Dario 的商標名言。我想他是一直在說那句話的人。想像一下數據中心裡的一個天才之國。他認為這可能在兩年內到來，大概不到五年。

他談論的是大型公司和國家的優越替代品。所以即使我們得到了一個像人一樣聰明的 AI，我認為這非常合理——作為一名軟體工程師，我認為你很有可能會僱用 AI 而不是僱用人類軟體工程師。但是好吧，AI 只會是一個非常好的軟體工程師，但它仍然無法對抗整個美國政府。

但當你想到數據中心裡的一個天才之國時，那就變成了政府或公司管理層的掉換式替代品。這難道不是我們的發展方向嗎？

Steve 01:36:53
是的。我是說，如果你從字面上理解「數據中心裡的天才之國」（我想 Dario 是這麼理解的）——我認為我不同意 LLM 能達到那個程度的預測，原因就是我之前說過的。

如果你看公元前 3000 年到今天之間的人類，我們發明了所有這些新概念，而且概念建立在概念之上，再建立在概念之上。我不認為這是你可以用我們今天在 LLM 中擁有的那種上下文窗口、草稿紙和持續學習來做到的事情。我認為這需要一個不同的範式，允許權重以開放式的方式不斷更新、更新、再更新，並加入新的、真正優質的知識。

我不認為 LLM 能做到這一點。而且我確實認為，如果有人想出了一種方法讓 LLM 做到這一點，他們會發現他們正在把 LLM 變成某種比他們根據當今 LLM 所預期的更不友好、更殘酷的異類。

Liron 01:38:40
好的。所以總結一下 Steve Byrnes 的世界觀，你基本上是說現在我們仍然處於一個不錯的狀態，失業率仍然很低——在美國是百分之三或四——而且 AI 沒有接管世界，也沒有造成傷害，它本質上缺乏大腦所擁有的某種秘密武器。總有一天它會得到那個秘密武器，但我們永遠不會看到失業率徘徊在百分之二十以上的點。

我想你是說，如果失業率曾經達到百分之十到二十，那一定意味著 AI 已經解鎖了那個秘密武器，而我們離 FOOM、接管和失去權力已經非常近了。所以基本上，失業率超過百分之十或二十就意味著我們完蛋了。不會在那裡徘徊。

Steve 01:39:03
我不想被固定在這麼具體的數字上。這也可能意味著有些工作涉及較少那種我認為人類比 LLM 更擅長的構建新概念的工作，而由於宏觀經濟、監管或其他問題，這些工作沒有被迅速取代。是的，我沒有任何我覺得非常確定的具體數字。

Liron 01:39:03
明白了。然後我想你和我一致認為，無論它與失業如何排序，遲早會出現某種下一代能力遠超人類、能引導結果的 AI。儘管今天的智能體很強大，但這下一代 AI 將會強大得瘋狂，就像人類大腦一樣。

它不會像今天的智能體那樣，我們看著它們會說：「噢哇，那很聰明。多麼有趣的逐字稿。」逐字稿會在那裡，但它會是一千個用某種超高效的奇怪語言寫成的並行逐字稿，而且所有這些其他的考慮因素都被計算在內，人類要花一輩子的時間才能研究透一個決定。這就是即將到來的 AI。

Steve 01:39:57
是的，我確實認為我們最終會達到那一步，而且認為會有「人類監督」的想法似乎很遙遠，因為會有太多的 AI 思考得太快，而且或許還在密謀對抗人類以隱藏它們的真實意圖。

Liron 01:40:43
是的。我對這裡涉及的基本因素有一種非常強烈的直覺。我看到一個人類大腦，我會想：「噢，是的。這是一個認知引擎。這是一個目標引擎。這是在物理宇宙中實例化這類系統的一種方式，它能產生這種效果。」就像熱機利用熱量產生熱力學功一樣——它連貫地移動能量——這就是引擎正在做的事情。這就是人類大腦正在做的事情。

但我看著它會想：「好吧，但它只是一個自然的設計。」自然的設計往往相當薄弱。你看鳥的翅膀。好吧，它把鳥提起來，它運輸鳥，它讓鳥去捕獵之類的。但如果你看噴氣發動機，我們掌握了飛行原理，現在我們進入了一個全新的領域。鳥類根本不明白當你給它裝上真正的升力引擎時，飛行會是什麼樣子。所以我認為這在性質上將發生在人類大腦身上。

Steve 01:40:59
是的。我認為如果人類水平的 AI 是可能的（我強烈相信它是可能的），那麼運行速度快一百倍的人類水平 AI 也是可能的，一百萬個可以進行心靈感應交流的 AI 也是可能的。而那已經是相當瘋狂的超智能了。

數據中心裡的天才之國

Liron 01:41:34
所以我們都共有這種直覺，即無論如何都會出現另一個體制，而那就是終局。讓我們來談談這個。你最近發布了——我不認為這是一個全新的發布。這更像是你在加倍強調、重申你的立場：為什麼我們應該預期會出現殘酷且反社會的 ASI。因為其他人帶著不同的反方觀點來找你，只是說：「拜託，Steve。看看默認對齊做得多好。一切進展順利，Claude 是如此友善，Anthropic 有 Amanda Askell 和憲法，Claude 的個性是如此之好。」為什麼你仍然認為我們應該預期會出現殘酷且反社會的 ASI？

Steve 01:41:42
是的。所以這絕對只是對我長期以來一直在寫的東西的另一種看法。我屬於那群更悲觀的人，他們認為技術對齊是一個非常困難的問題，我們目前還沒有計劃，而且 Claude 看起來總體上很友善這一事實，並不能作為我們對未來更強大 AI 預期的證據。

我們需要思考這些未來的 AI 算法是什麼，特別是，如果它們在全新領域做出正確的決定（根據假設它們確實如此），我們需要問一個問題：它們是如何做出這些正確決定的？在文章中，我提供了兩個廣泛的框架，我認為這是實踐中僅有的兩個能擴展到相當強大規模的框架。

一個是模仿學習。這就是 LLM 的預訓練，它看到在預訓練數據中，情境 X 之後往往跟著人類做出的動作 Y，AI 就會說：「好吧，如果我在情境 X 中，那麼我就會做動作 Y。」或者它甚至不需要思考。這只是它機械式的反應。它的預期直接轉化為行動。

這是真正的模仿學習，一種在生物界並不存在的東西。如果我在模仿你，那麼我必須轉化我聽到的和看到的內容（這是我對你的印象），轉化為移動我的喉嚨發出聲音，以及移動我的手臂發出運動指令，而那些是完全不同的東西。我們沒有這種像 LLM 預訓練那樣將預期機械地轉化為行動的方式，它能機械地將對下一個標記的預測轉化為對同一個下一個標記的輸出。

所以那是真正的模仿學習。我認為那是 LLM 獲得絕大部分力量的方式，我們可以討論訓練後處理和其他細微差別，但我認為這仍然是正確的基本圖景。

與此同時，還有另一種做出正確決定並獲得強大能力的方法，這基本上就是結果主義（consequentialism）。你希望得到某種最終結果，你正朝著那個結果努力。算法系統地選擇能導向該結果的行動。基於模型的規劃就在那個框架中，還有搜索算法，以及隨著時間推移具有相同效果的強化學習。

我認為人類大腦兩者兼具。它有強化學習——如果我的手在爐子上燙傷了，那麼我就不想再碰爐子了。它也有基於模型的規劃。如果我想拿起鍋子而不燙傷手，那麼我意識到我應該戴上隔熱手套。

所以人類——我認為人類的能力來自於這些結果主義框架中的一種。而問題在於，在我看來，模仿學習範式製造出的 AI 或多或少——有時它們有點奇怪，但或多或少你可以得到友善的 AI，它們不是瘋狂的反社會殘酷結果主義者。而像強化學習和基於模型的規劃這些結果主義框架，除非你能發明某種技術在結果主義框架中獲得仁慈，否則默認情況下你會得到這些殘酷的結果主義反社會結果。當然，這就是我研究計劃所致力於的。

Liron 01:45:01
是的。很久以前我在這個節目中做過一集，我回顧了 Jaan Tallinn 的這份簡報，他有一個 AGI 的玩具模型。那是一個甚至不做強化學習的智能體。它只是在做一個非常簡單的搜索，有一個網格世界，這個智能體是一個機器人，它只需要滾動到終點，並在滾動的過程中移動一些箱子，把箱子移到終點。它只需要搜索最佳行動。

這個簡單的演示顯示，如果人類拿著帶有停止按鈕的遙控器，而智能體有能力碾過人類並到達終點，分數確實會增加。很自然，因為那樣它就可以預測自己不會被阻止到達終點。

這是很簡單的事情，它並非由 AI 的特定個性所暗示。它只是由不同的搜索結果、搜索路徑所暗示的。你可以找到一條人類死亡而你獲得更多分數的搜索路徑。這就是問題的本質，不幸的是，搜索空間的本質就是它們沒有任何友善的個性。

Steve 01:46:02
是的，沒錯。這就是為什麼我認為 2010 年代（在 LLM 出現之前）AI 安全論述中的悲觀情緒比今天多得多的原因。因為那時每個人都在思考基於模型的規劃，每個人都在思考強化學習。AlphaZero 當時是新聞，還有玩雅達利遊戲的智能體，你可以直接觀察它們，每個與它們共事過的人，他們的切身體驗都是：這些東西有點殘酷。

我一直使用「反社會者」這個詞，它不是一個技術術語。它只是一個我認為在這裡很有用的直覺。所以是的，每個人都有使用這類算法的經驗，他們知道這類算法會製造出殘酷的智能體，而這正是他們對 AI 的預期。

然後當每個人都轉向這些模仿學習框架時，他們就不再有那種預期了。但我仍然認為，如果我們想要 AI 遠遠超越模仿學習，進入目前還不存在的新知識領域——能夠獨自統治世界一千年並建造戴森球的 AI——模仿學習是做不到的。

所以人們不會永遠滿足於模仿學習。他們會繼續努力，直到發明出這些更具結果主義色彩的方法來製造強大的 AI，而目前還沒有人真正做到這一點。今天的強化學習智能體在許多方面都很糟糕，但解決方案是存在的，人類大腦就是一個存在證明。而且我認為遲早人們會達到那一步。

Liron 01:47:22
我想很多人目前都能跟上你的思路。這是常識。人們已經思考這個問題一段時間了。他們接受，是的，當你進行強化學習時，工具性趨同（instrumental convergence）和所有這些反社會的事情確實會發生。如果你真的去思考，這很難否認。所以我認為人們在這一點上是有共識的。

我認為現在流行的事情——這是我與人辯論的一種常見方式。我想 Bentham's Bulldog 的辯論大概就是那樣。與許多人的辯論現在正朝著這個方向發展。他們會說：「是的，是的，強化學習可能是反社會的，但看看我們如何成功地讓這些模仿性 AI 變得如此友善？我們總會讓它們一起參與進來。我們總會讓友善的 AI，那個友善的 Claude，一起參與進來。所以即使我們進行強化學習，且 Claude 有能力直觀地知道哪些路徑可以達成結果，它也會修剪掉那些有害的路徑。」

「友善的部分，那個使用模仿標記或其他東西的部分，它仍然會保持足夠的控制力，從而將友善的個性融入到組合系統中，使其仍然是駕駛員。出於這個原因，我們仍然會是友善的。」

然後我轉過身來說：「等一下。在我聽來，這裡真的有兩個部分。有一個底層引擎，我稱之為目標引擎，類似於汽車的引擎，然後還有方向盤。而你聲稱總會有某種像 Claude 這樣友善的標記模仿系統握著方向盤，儘管汽車的引擎越來越強大。」

而我通常在那場討論中會說：「好吧，一旦你製造了引擎，你就製造了一些極其危險的東西。即使你也附帶了這個友善的駕駛員，在最好的情況下，駕駛員真的很友善，但引擎是其他人可以複製而不需要駕駛員的東西，或者其他人可以竊取任何只負責引擎的程式碼。」你覺得呢？

Steve 01:49:04
我覺得你指向了一個略有不同的論點，即如果我們知道如何製造友善的 AI，那麼我們也知道如何製造殘酷反社會的 AI，而殘酷的 AI 會勝過友善的 AI。

Liron 01:49:18
嗯，這其實不是我現在要說的點。我甚至不是在討論好司機和壞司機之間的競爭。我只是想說，即使在這個人們所說的理想世界中，「一切都會好起來的，因為你將擁有一輛友善的汽車。是的，這輛車將擁有一個非常強大的引擎，一輛非常快的車，非常強大的智能，但它會被引導得很好，它將只是一個被引導良好的強大汽車系統。」

而我指出，實際上，如果你看汽車的輪子、汽車的座椅，汽車的所有這些不同部分都只是為了開得快、開到任何地方而設計的，只有坐在方向盤後面的東西才是為了思考汽車應該去哪裡而設計的。所以我說即使在理想世界中，人們的理想世界是你有一名好司機，但你已經創造了一些極其危險的東西，那就是汽車的引擎。我說在那個世界裡，你無論如何都會擁有沒有連接到好方向盤的引擎副本。

Steve 01:50:13
是的。我想對此的樂觀回應會是，連接到好方向盤的引擎將有助於保護這個世界免受未連接到好方向盤的引擎的傷害之類的。然後這涉及到攻防平衡和所有這些其他事情。也許我在這一點上誤解了你。

Liron 01:50:32
不，我認為那是對的。但我認為——所以我只是指出，好吧，那是最好的情況。巨人——這些汽車比人類的心智更強大。所以你有這些比人類心智更強大的巨人在互相戰鬥，而你告訴我，那場戰鬥的結果將會是勝利者為人類帶來良好的局面，不會有太多的恐怖主義。

Steve 01:50:50
是的。我同意「好的 AI 保護我們免受壞 AI 侵害」的故事是一種可疑且可怕的故事。但我也相信更強烈的一點，即一開始就不會有任何好的 AI，至少在 AI 變得足夠強大之後。所以這是在正常的悲觀程度上又加了一層悲觀。

Liron 01:51:08
嗯，我其實也同意這一點。所以對我來說，更簡單的論點是：好吧，會有很多汽車。也許有些汽車會是好的，但你無法阻止壞汽車，因為壞汽車的設計看起來與好汽車的設計百分之九十九相同。即使是做出好設計的人，如果他們放了一個負號或犯了一個小錯誤，現在他們就有了一輛壞汽車，而且它和好汽車一樣強大。所以這是我的第一個論點——即使是你最好的情況也是非常危險的。

然後我回到你的論點，即你甚至如何訓練好司機？因為即使你有這個標記模仿者或其他想要盡力而為的東西——Claude 真的在努力遵循它的憲法並盡力而為——但問題是，好吧，所有這些數據都進來了，它沒有那種架構來合成那種巨大的論點。它實際上無法像引擎那樣引導。汽車太強大了。司機根本無法監督汽車。汽車的控制面板對司機來說實在太多了。司機無法真正預見汽車會開往何處。

Steve 01:52:12
是的。我是說，我認為如果你看——LLM 今天存在的方式主要是模仿學習。預訓練和有監督的微調都是模仿學習，然後你通過這種 RLVR 訓練後處理過程在上面撒了一點點結果主義。

我認為如果你對撒多少強化學習非常謹慎，那麼你可以通過這種方式在額外能力方面取得一些進展。但我認為數據中心裡的一個天才之國在一百年裡——他們不僅僅是在現有知識之上撒一點新知識。相反，他們是真的在重新思考他們已經知道的事情。他們是真的在重寫大量的既有知識，並取代大量的既有反射和直覺，可以這麼說。

你做得越多，你就越不得不問：他們推翻這些較溫和的預訓練傾向而採用新數據的選擇機制是什麼？如果選擇機制最終植根於結果主義，那麼隨著天才之國在這些年裡的持續思考和工作，他們只會變得越來越殘酷。或者如果它不是植根於結果主義，那麼我認為它根本行不通，他們會偏離軌道。他們會變得越來越笨，而不是越來越聰明。

為什麼我們應該預期「殘酷反社會」的 ASI

Liron 01:54:15
你描述的方式太迷人了。你是說這是在這些模仿性智能體之上的一層薄薄的結果主義。因為當它們被訓練時，那些 LLM，它們會想：「噢天哪，下一個詞是什麼？根據我目前為止的文本模型，我必須得到下一個詞的最佳概率。」它們就是這樣產生的。

但在訓練後處理中，情況是：「好吧，這個結果正在現實世界中發生。做一個動作，再做一個動作。這是你動作的結果。把那個放進上下文中。」所以這是這層薄薄的層終於抬起頭來，意識到：「噢，結果主義。」在現實世界中驅動結果。但大多數訓練並沒有與那種結果主義聯繫起來，對嗎？

Steve 01:55:29
是的。特別是——是的，所以請記住，第一，有監督的微調也可以幫助使 LLM 更加具有目標導向。但那仍然沒問題，因為人類正在清理那些數據並創建那些數據。

然後第二點是 RLHF 及其同類傾向於使 AI（即 LLM）變得更友好，但實際上——或者至少我聽到的傳聞是 RLHF 讓它們變得有點笨。所以你是在以犧牲敏銳度和理解力為代價來換取它們更有幫助。

然後第三部分是這個 RLVR，這裡要注意的重要一點是，即使你在 RLVR 上花費的計算量與預訓練相當，我認為 RLVR 帶來的實際權重變化會少得多，因為你必須為了一位元數據做所有這些展開（rollouts）。而預訓練，你會得到巨大的數據河流。有一些關於這方面的爭論，如果你有正確答案——下一個標記應該是 7——那比僅僅說下一個標記不是你說的那個要包含多得多的資訊。或者你過去五分鐘展開所做的事情是壞的還是好的。你得到的資訊要少得多。與預訓練這種洪水般的訓練數據相比，這簡直是涓涓細流。

所以如果你把所有這些加在一起——是的，人們——RLVR 確實可以帶來一點點殘酷性，而人們已經努力過了，特別是在早期版本中，比如 o3。實驗室已經想出了如何最小化那一點點 RLVR 帶來的損害。但那仍然無法讓我們達到數據中心裡的天才之國。

Liron 01:56:08
讓我們解釋一下這裡發生了什麼。RLVR 代表「來自可驗證獎勵的強化學習」（reinforcement learning from verifiable rewards）。那是你在訓練一個底層主要是 LLM 的智能體，你問它：「嘿，下一個西洋棋步法是什麼，或者這個影片遊戲中的動作，或者寫入我的 Excel 試算表的東西？」或者之類的。你正試圖在 Excel 中建立一個財務模型之類的。

然後在最後，我們編譯模型，我們會說：「噢，你讓模型編譯成功了。那值幾分。」這就是可驗證的獎勵——你甚至不需要人類來投票。你可以有這些客觀標準。你的模型編譯成功了嗎？諸如此類的事情。

Steve 01:56:35
是的。或者它是否得到了數學題的正確答案等等。

Liron 01:56:38
但現在你是說這也是一個困難的訓練迴路，你不能過度運轉它，因為在你能詢問它們是否獲得獎勵之前，它必須輸出這麼多標記。

Steve 01:56:48
是的。所以你不能僅僅通過比較用於 RLVR 的算力與用於預訓練的算力，來回答 LLM 的力量主要是來自預訓練還是主要是來自 RLVR。

最近也有幾篇論文似乎——我是說，我不確定該多大程度上信任來自實驗室外部的論文，因為也許他們不知道最先進的技術。但有一篇論文發現，這些 RLVR 模型通常不會想出任何超出前一千名的東西。如果你直接嘗試展開一千次，你往往能得到 RL 模型第一次嘗試就得到的正確答案，這意味著它們獲得了大約十位元的優化。

相比之下，預訓練是數百或數千位元的優化，從某種意義上說，從隨機初始化的模型中得出正確答案的可能性微乎其微，只有十的負幾十次方。還有一些論文使用不同的採樣技術和其他方法，發現他們可以在完全不進行強化學習的情況下重現 RLVR 類型的結果。

基於此，我認為有強大的理由相信——或者至少我不在實驗室工作，我不知道秘密——但就我所見，我們真的應該認為即使是經過訓練後處理的 LLM，其力量也主要來自模仿學習。

Liron 01:58:25
現在幫我理解一些術語。RLVR 和單純的 RLHF（來自人類反饋的強化學習）——這兩者的效果都是修改從預訓練中獲得的權重，對嗎？

Steve 01:58:26
是的。

Liron 01:58:26
好的，所以你只是在修改權重，而你指出預訓練將大部分實質內容放入了權重中，你不會從整體上大幅改變權重，你只會對其進行微調。當我們談論 RLHF 和 RLVR 時，這兩者都算作微調（fine-tuning）嗎？

Steve 01:58:44
噢，我不知道。我會稱它們為訓練後處理（post-training）。

Liron 01:58:44
好的，它們都算作訓練後處理。那麼微調，我想，就是訓練後處理之後的處理，即你把它交給人類用戶。也許這就是區別？是在 AI 公司內部進行訓練後處理，然後人類可以進一步進行訓練後處理，但在那一點上它被稱為微調？

Steve 01:58:57
也許吧。還有另一種東西叫做有監督微調（supervised fine-tuning），這只是訓練後處理的另一種形式，你不是從網路上隨機挑選書籍，而是創建你希望 LLM 回應方式的文本，並說：「給，這是正確答案，LLM。如果你處於這種情況，你應該產生一個像這樣的答案。」

Liron 01:59:49
所以即使我們在做 RLVR，我們仍然有點試圖將強化學習導入回那個模仿性的、尋找下一個標記的範式中。因為我們基本上是在教 AI——這可以追溯到第一個思考模型，對吧？它是什麼——GPT o1？我們第一次進行思考，我們說：「看，輸出一段思考標記流，但要確保那些標記聽起來真的像一個人在面對結果主義優化問題時會有的思考方式。」這就是方法。

Steve 01:59:57
是的，類似那樣。

Liron 01:00:38
是的，沒關係。所以我是說當你在做 RLVR 時，你正在採用這種更大規模的結果主義強化學習的想法，這是一種強大的力量，以前曾訓練過窄 AI，總有一天它也會訓練 AGI。但我們只是試圖將強化學習的本質導入到模仿範式中，因為我們只是告訴 AI——這可以追溯到幾年前 OpenAI 的 o1，第一個思考模型。

當我們說：「嘿，這是一個思考軌跡，」我們希望你思考這個困難的數學題之類的，我們希望你通過輸出一系列標記來做到這一點，而這些標記在模式上真的匹配人類如何思考這個優化問題。

Steve 01:01:09
這就像是你告訴 GPT o1：「嘗試任何事情，做任何事情，」而我們只是——只要嘗試一堆事情，無論最終讓你得到數學題正確答案的是什麼，我們都會告訴你那是你應該做的，並且你以後應該多做那樣的事。

所以這導致了諸如注意到某件事走錯了路然後改變方向之類的事情，它還包括系統地一個接一個嘗試策略，以及這些思考模型能做的所有其他事情。

Liron 01:01:32
但當你開始模仿人類如何思考時，還記得我說過的相似性嗎？這就像是，好吧，是的，我們通過將我們知道的所有不同規則鏈接在一起來思考。推論規則只有有限的一套。所以如果你能像人類思考那樣相似地思考，難道你不能獲得做任何事情的能力嗎？然後也許你會說：「好的，但隨後上下文窗口就會停滯。」但這從根本上說難道不是一種非常強大的方法嗎？

Steve 01:01:48
是的，我是說，隨著時間的推移，我們會發現它到底能走多遠。而且是的，我正要說——你預料到了我要說的話——那就是我認為 LLM 在模仿人類在幾分鐘、也許幾小時內能做的事情方面，比模仿人類在幾天、幾週和幾個月內能做的事情要好得多。

訓練後處理與 RLVR——真實智能的「薄層」

Liron 01:02:32
嗯，聽起來你有兩個不同的反對意見。當我們開始對話時，你的反對意見更多是：「好的，是的，這些 LLM 可以做很多人的工作，但它們沒有在積累知識。它們沒有在幾個月的時間裡變得更好，這轉化為它們無法具備新穎性，因為如果你想具備新穎性，你必須從你的經驗中收集所有的學習成果然後進行合成，而它們做不到這一點。」那是你的第一個反對意見。

但隨後你提出了第二個反對意見，你說：「它們如何被訓練的範式仍然主要是在預訓練中完成的，未來會有一個不同的訓練範式。」但你真正的反對意見是什麼？也許目前的訓練範式已經足夠好了。

Steve 01:02:32
所以從對齊的角度來看，重要的問題是：如果我們繼續以一種開放式的方式修改 LLM 的權重，使其可以遠離起點——就像人類與公元前三萬年的人類相去甚遠一樣，就像數據中心裡的一個天才之國在一百年裡發明新的知識領域並在上面構建（如果你密封盒子的話），出來時與開始時截然不同。

所以如果你不斷修改權重，那麼問題就是你如何確定採用哪些權重修改？問題在於沒有訓練數據，因為你的天才之國正在創造的這個新知識領域，那個新知識領域並不存在。沒有相關的訓練數據。他們必須產生自己的數據。所以模仿學習行不通了，似乎唯一的其他選擇是某種方式、遲早、基於結果主義的東西，在那裡你保留那些能帶來良好結果的想法。

然後我的論點會是，你運轉那個過程的時間越長，你的天才之國隨著時間的推移就會變得越來越殘酷。他們所有友善的傾向都會因為在實現這個選擇新訓練數據的目標方面變得越來越有效而被稀釋掉。我是說，談論這個有點煩人，因為我試圖編造這種持續學習範式如何適用於 LLM，但我實際上並不認為這是可能的。而且——

Liron 01:04:01
嗯。

Steve 01:04:01
如果它還不存在，人們就會對它如何運作或它是否真的有效產生分歧。但這又回到了能力方面，我真的不認為你僅僅通過上下文窗口就能在任何真實意義上得到數據中心裡的一個天才之國。我確實認為你必須不斷修改權重，我認為能力和對齊問題在「新權重從何而來」或「新權重的更新從何而來」這個問題上是有重疊的。我認為你可以選擇對齊或能力，但不能兩者兼得。

Liron 01:04:48
讓我澄清一下。你在談論為什麼目前的 AI 會面臨困境，但你是否預見到了這種新的強化學習範式，在那裡反饋迴路確實被閉合了，它們可以足夠快地從現實世界獲得反饋？

Steve 01:05:23
人類能夠進行開放式學習。在過去的一萬年裡，我們發明了所有這些東西——科學、技術和經濟。是的，我認為這來自於我們牢牢植根於結果主義的大腦架構，包括基於模型的規劃和強化學習。

所以是的，我們能夠依靠那一點來獲得我認為 LLM 所沒有且無法擁有的那種持續學習。但如果 LLM 能夠擁有它，我認為它們也會變得殘酷。

Liron 01:05:50
所以 RLVR 有點弱，因為它們必須生成所有這些標記，最終它們得到一個結果，並稍微更新它們的權重，但那只是轉動曲柄的次數不夠多。它並沒有為權重增加那麼多資訊。但在未來的 AI 中——在它們真正達到超人類水平的最後一代 AI 中——它們將始終在更新世界模型。每當它們在世界上觀察到任何事情，那都會微調它們的模型。所以它們將從世界上吸收大量的資訊。

Steve 01:06:29
對。所以我核心的猜測是，LLM 實際上無法解決這個開放式的持續學習問題，即當它們被密封在數據中心一百年時，它們能發明全新的知識領域。但如果我錯了，如果 LLM 能夠以某種方式解決那個問題，那麼我接下來會說，它們解決那個問題的方式將是通過某種方式依靠這些結果主義方法，如強化學習和基於模型的規劃，結果，它們會逐漸變得越來越殘酷，因為這就是這些結果主義 AI 架構對它們正在更新的任何模型自然產生的影響。

Liron 01:06:46
我們可能應該展開解釋一下「結果主義者」（consequentialist）這個詞。我想它只是意味著一個系統的學習，或者它是如何被塑造的，與它所導致的結果有因果聯繫。這就是為什麼我們稱之為結果主義。它將後果反饋到事物的結構中。

Steve 01:07:02
是的。有些事情我希望在未來發生，無論是直接還是間接的。而我現在做出這個決定的原因，最終是因為它對未來的影響。它是因為預期的後果而採取行動，就像你說的那樣。

Liron 01:07:21
觀眾們聽我說過很多次，這是一個核心點，即結果主義是核心。它是一種神奇的力量，而且它真的與目標引導（goal steering）是同義詞。如果你擅長目標引導，那是因為你是一個強大的結果主義者。這基本上是同義詞嗎？

Steve 01:07:23
是的。是的，那基本上是同義詞。

Liron 01:07:23
而生物有機體，特別是人類，甚至在某種程度上的動物——它們之所以能夠運作並擁有所有這些有用的適應性，是因為進化碰巧撞上了這種結果主義的反饋迴路。適者生存。噢，你生存下來了？好的，我要為你製作更多的副本。所以那是早期的一種結果主義反饋迴路。

Steve 01:08:21
是的。進化本身就是從結果主義中獲得力量的。它做出改變，如果最終結果根據遺傳適應性的指標是有效的，它就會保留這些改變。與此同時，進化最終也創造了大腦，而大腦本身擁有這些終身學習算法，那些終身學習算法部分基於基於模型的規劃和強化學習，即這些結果主義方法。

這讓我們能夠找到好的食物、找到好的配偶、創辦公司、登上月球，以及所有其他不會憑空發生的事情。

Liron 01:09:04
沒錯。現在你將結果主義與 LLM 今天的運作方式進行了對比，LLM 被訓練為在看到大量標記序列後模擬下一個標記是什麼。是的，它們對所閱讀的內容有著所有這些結構化的理解，所以它們並不笨，它們不僅僅是在做統計。我們至少知道這麼多。它們真的有一個豐富的模型。

但儘管它們有一個豐富的模型，當它們思考下一個詞會是什麼時，它們並沒有完全閉合結果主義的迴路，因為它們沒有在思考我處於什麼環境中，我的用戶試圖做什麼，我輸出下一個東西會產生什麼因果下游效應。原始模型不會那樣思考，但它們確實隨後在上面加了一層，開始變得具有結果主義色彩。

Steve 01:09:32
是的。你可以爭辯說，一個現代的前沿 LLM 具有某種湧現的結果主義，因為在它的思維鏈中，它正在輸出最終會導致問題得到解決（至少比隨機機率好）的標記。但基礎架構並沒有真正涉及那麼多相同的結果主義。我認為我們應該主要認為它們之所以有效是因為模仿學習。

Liron 01:09:54
所以你只是認為未來的 AI 將會以某種方式吸收學習成果，通過運行一堆實驗或設計自己的學習迴路來快速自我改進。你只是預期會有更快的學習迴路，這與僅僅閱讀標記不同，與預訓練迴路不同。

Steve 01:10:38
是的。我是說，當人類弄清楚事情時，他們當然會使用現實世界的反饋，但同時他們在即使沒有反饋的情況下也能很好地弄清楚事情。數學家從無到有發明了整個現代數學和前現代數學的體系，而且或多或少是在缺乏反饋的情況下完成的。我是說，我們可以爭論古希臘人測量土地之類的事，但基本上他們只是必鬚根據對他們來說有意義的東西來弄清楚。在不涉及細節的情況下，我只想說這與內建於人類大腦中的那種結果主義 AI 架構密切相關。

Liron 01:11:40
我不知道。我只是在想。我正試圖在腦海中勾勒出一幅圖景：什麼時候我個人使用了我的人類秘密武器，而現代智能體離能夠做到那一點還差得很遠。

首先，有一個立即生效的免責聲明，即每當我試圖做任何事情時，通常只意味著我正試圖趕上某些已經有教科書的東西。我搬進了新家，所以我正在做大量的房屋修繕。我正在與承包商合作修復一百萬件小事。十年前的東西正在壞掉。這就像是，好吧，是的，我只是在學習房屋修繕。那是一件眾所周知的事情。我沒有做任何新穎的事情。所以我們可以立即把那個排除在外，因為 AI 會預裝這些知識，或者它可以輕鬆地參考所有這些知識。

所以我正在想——有時我在學習一項技能，我在學習彈鋼琴，然後這就像是，好吧，但那有點只是在訓練我的小腦，如何閱讀樂譜。我只是覺得 AI 可以輕而易舉地吞噬掉那些。所以我只是在想——你提到了發明所有數學的想法，但那似乎相當深奧。那些正在推動數學前沿的人類。我只是在想一個普通人類正在做的什麼事情是如此特別。

Steve 01:11:56
運動控制會是一個例子。一個足夠快的 LLM，如果能接觸到操縱桿和一個形狀奇特的機器人身體，並有一個月的練習時間，沒有強化學習——我認為它在那方面會表現得很差。

Liron 01:12:18
你是說沒有強化學習，但如果你看現在的公司，他們在機器人技術方面取得了長足進步。我們不斷看到在不同情況下越來越令人印象深刻的機器人，而他們實現這一點的方式似乎仍然相對簡單。是的，他們正在推動前沿，但歸根結底，他們如何做到這一點的劇本似乎相當小且緊湊。那麼 AI 難道不能直接使用那個劇本嗎？

Steve 01:12:32
我真的不知道——我想我之前假設這些公司使用的是某種更傳統的機器人算法與 LLM 的混合體，但我一直沒有關注細節。

Liron 01:12:47
這似乎可能是一個很好的實驗，用來區分你的心理模型是否在正確的軌道上，因為你現在有點把它框架化為：「噢天哪，機器人要學會做流暢的動作會非常困難。」但我覺得在那方面有很多進展。

Steve 01:13:23
是的。我是說，問題在於人類和 LLM 都有可能完成任務 X，但人類完成任務 X 的方式與 LLM 不同。常見的例子是 LLM——這有點像是「已經知道如何做某事」與「弄清楚如何做某事」的問題。當人類看到一個問題時，他們會去弄清楚。而當 LLM 看到問題時，它們更有可能或多或少已經知道如何做了。無論哪種方式，你都能解決問題，所以如果你只關心問題得到解決，那很好。但它仍然指向了底層的一些差異。

Liron 01:13:38
所以聽起來 LLM 的終極測試，唯一不需要談論像發現萬有理論這樣超級深奧事情的方法，就是故意刪除一堆人類知識，然後真的測試它們：去學習我們還沒告訴過你的這些新知識。

Steve 01:13:54
當然，我們還沒有看到任何證據表明預訓練的必要性已經消失，因為 LLM 的樣本效率（sample efficiency）提高了。如果有什麼的話，我們看到了相反的情況。LLM 變得越來越好，部分原因是它們的訓練數據變得越來越好。

Liron 01:14:08
是的。嗯，我們看到它們正在更多地利用它們的上下文。現在很常見的情況是我問 AI 一些事情，它會說：「好的，稍等，讓我獲取一些上下文，」然後它搜索網路，加載一堆上下文，然後它回答。所以這確實意味著它需要記住的東西變少了。

Steve 01:14:08
是的。我是說，那有幫助。我想我不確定——我想我已經跟丟了我們在爭論什麼。因為，再次強調，僅僅因為人類和 LLM 以不同的方式做某事——如果你試圖理解 LLM，那是一個有趣的點，但如果你試圖理解 LLM 在經濟中能做什麼，那就不再是一個有趣的點了。

Liron 01:15:10
是的。嗯，我感興趣的討論只是想知道當下一代 AI 出現時會是什麼樣子，它們正在做人類大腦能做的秘密事情，而且做得更好。我想你指出，好吧，會有一些像 RLVR 但轉動曲柄次數多得多的東西。更多的資訊位元將轉動某種反饋和自我修改或權重修改學習的曲柄，這是人類會做而 AI 也將會做的事情。所以我只是試圖建立一個具體的圖景，看看那會是什麼樣子。而你有點像是說：「嗯，它看起來會像一個機器人，思考一會兒，實驗幾次，然後突然就變得很擅長一種新的舞蹈之類的。」那是你所想像的。

Steve 01:15:42
我確實認為 LLM 在樣本效率方面並不令人印象深刻，因為它們擁有相當於一萬輩子的訓練數據。我認為未來的 AI 將能夠以更高的樣本效率做事。

但真正特別的事情是在你擁有零樣本時做事——例如，數學家發明數學。那是——所以這不僅僅是關於樣本效率，但我確實認為樣本效率是圖景的一部分。

Liron 01:15:56
好的。是的，所以它會更有樣本效率，而且它會有某種迴路。在你看来，RLVR 是暫時的。將會有某種——你是故意不告訴我你腦子裡的一些關於這方面的想法嗎？

Steve 01:16:05
是的，我不想涉及太多細節，因為我認為我們還沒有準備好迎接下一代範式的 AI。

Liron 01:16:06
好的，所以關於「如果有一種像 RLVR 但實際上能給你更多有用資訊並更新你權重的東西會是什麼樣子」這個問題——你覺得那是一個禁忌問題。

Steve 01:16:19
我是說，區別不一定要在強化學習部分。它可以是——它是一個完整的系統，我認為從對齊的角度來看，強化學習非常重要。我不認為強化學習必須異常花哨才能——而且我認為強化學習是能力方面的秘密，從——我想這很令人困惑。

我不認為有一種非常花哨且強大的不同類型的強化學習。相反，我認為它是建立在更好的學習算法和世界模型之上的平凡強化學習。

Liron 01:17:00
對。我知道你以前用過這個術語——它是演員-評論家（actor-critic）強化學習。

Steve 01:17:02
是的。是的。之類的。

結果主義與通往超智能之路

Liron 01:17:02
好的。這就是我如何看待當前時代的，對吧？回到當前時代，Claude Code 是如此有用，而且它會停下來——我沒有告訴 Claude 去拿咖啡然後它就毀滅了世界。它只是去拿咖啡，而且它在做非常有價值的工作。

我一直在強調這一點，但現在 Claude Code——我使用的是 Max 方案。它每個月花費我兩百美元。如果你告訴我它每個月花費兩萬美元，我也會說：「沒問題。」因為坦白說，兩萬美元大約只是一個工程師的薪水成本。我寧願僱用一個人類工程師還是直接使用 Claude Code？我寧願使用 Claude Code，因為 Claude Code 工作得更快，且質量相當。所以我以每個月兩百美元的價格獲得了每個月兩萬美元的價值。現在是一個黃金時代。

所以對於現在這個時代，我有一個類比。告訴我你是否認同這個類比。我們正處於模仿性 AI 的黃金時代。這幾乎就像是，人類擁有這個引擎，這個引擎有一種推進力。它不完全是推進力，但它正在讓結果發生。但讓我們把這與火箭推進做個類比。

如果你了解火箭推進，你可以引導到任何地方。你可以去任何地方。你可以環遊銀河系。你甚至可以去其他星系。所以那是讓你四處走動的終極方式——如果你弄清楚了火箭推進，或者通過作用力與反作用力的推進。無論如何，那是終極的移動方式。

但我們還沒完全弄清楚。相反，我們現在擁有的是大氣層內的飛行。所以它是：「看，我正在升空。我正在升空。」但你並沒有用火箭推進那種終極方式來做。你之所以能做到，只是因為你撞擊了空氣。機翼、翼型撞擊空氣粒子，你以此獲得升力。

這就像是，好的，這在大氣層中運作得很好，現在你和鳥兒一起飛翔。你不應該太自大，因為你甚至還沒有火箭推進。但在地球大氣層中飛來飛去是很棒的，而且有一個完整的空氣動力學領域。它在太空中並不真正適用，但它對飛行領域非常關鍵。感覺我們現在就處於這個瘋狂的中期大氣飛行階段。你覺得呢？

Steve 01:19:07
是的，我認為這是一個很好的類比。我也喜歡談論成為飛機設計專家並不一定能幫助你建造更好的火箭，反之亦然，火箭方面的進展並不一定——如果你發明了隔熱瓦，那並不能幫助你建造更好的飛機。事實上，它在經濟上根本不會產生任何有用的東西。

這就是為什麼我非常擔心那些正在 arXiv 和 GitHub 上進行、卻沒人關注的 AI 研究。每個人都對它不屑一顧，因為，嘿，如果它真的那麼棒，為什麼它沒有讓 LLM 表現得更好呢？

Liron 01:19:47
對。

Steve 01:19:56
是的，這與建造火箭發動機的組件不會讓飛機表現得更好是同一個原因。它只是不同引擎的一部分。

Liron 01:20:17
沒錯。然後人們在談論諸如，最終，飛機的引擎，是的，它真的很強大，但最終它所做的只是將空氣推向機翼，但真正讓飛機升起的是機翼的角度和流過機翼的氣流。這就是你獲得升力的方式。我會說：「嗯，你知道，你也可以直接有一個向下噴射的引擎。」這有點像是那個類比——

Steve 01:20:19
是的，那是不同的東西。

Liron 01:20:19
所以有這些小小的類比，人們看到了真正飛行或真正升力的火花，因為他們在大氣層中看到了它。我會說：「是的，你是對的，但那個火花將會以不同的配置出現。」這些碎片將會以不同的配置出現，你將會得到一個完全不同的、質的升力體制。

這就是你所說的結果引導。你是說訓練後處理是在這個預訓練的東西之上的一層薄薄的結果主義，而預訓練的東西在某種程度上是有效的——當你在大氣層中時，它能有效地推動飛機水平地飛得很快。那實際上讓你實現了飛行。

Steve 01:21:02
是的。而且在你的類比中，這很好，一些認為根本不存在飛行這回事的懷疑論者——你可以說：「看這個。它存在。」

Liron 01:21:05
對，沒錯。重於空氣的飛行現在已經被攻克了，是的。

Steve 01:21:05
是的。我是說，有一些錯誤的觀點已經被 LLM 淘汰了。「沒人會讓強大的 AI 接入網路。」「沒人會——我們只會把 AI 當作工具，而不是智能體。」我想人們現在說這些話的次數稍微少了一些。當然，在我看來，它們已經被另一套根據我們此時此刻所見而過度概括的錯誤觀點所取代了。

Liron 01:21:28
對。是的，沒錯。顯然看到了飛行——一些懷疑論者——如果毀滅論者說：「我們將飛遍整個宇宙，那很快就會到來。」而他們會說：「不，我們不會。我們會留在地面上。沒人能飛得比鳥還高。」而我們會說：「嗯，我們現在就飛在鳥兒旁邊。」而他們會說：「好吧，行吧，你會飛在鳥兒旁邊。也許你甚至會飛得比鳥頭高一點點。」而我會說：「你看到那些星星了嗎？我們實際上會飛到那裡。而鳥兒甚至離那裡還遠得很。」

Steve 01:21:50
是的。

Liron 01:21:50
然後有些人會說：「看到你追上了鳥，我現在不再是懷疑論者了。」這基本上就是你所說的——有些人開始轉變觀念，儘管還有很長的路要走。

Steve 01:21:59
就是這樣。

Liron 01:21:59
當 Dario 談論數據中心裡的天才時，我實際上認為——而且我有點在轉變我的默認預期。我想這與你的預期不同——我認為我們正接近 Anthropic 發布——我是說，就像我願意每個月花兩萬美元使用 Claude Code 或 OpenAI 的同類產品一樣，就像我們已經到了那一步，我認為我們可能會達到：「好的，這是你的天才。你的天才是你的奴隸。希望它沒有意識，所以它可以開心地聽從你的命令。」而且這是一個沒有受害者的體驗。所以只要命令你的奴隸就行了，它可以是機器人奴隸，也可以是電腦裡的奴隸。

我認為數據中心裡的天才可能準確地描述了我們的發展方向——非常順從的天才，那些在數據中心裡樂於接受命令的天才。我覺得那是我的主線情境。我認為 Dario 可能是正確的。而且公平地說，我覺得他在預測軌跡方面有著非常出色的記錄。這樣說公平嗎？

Steve 01:22:56
是的。我認為我們應該對 Dario 關於 LLM 的預測印象深刻。

Liron 01:23:03
我知道。Dario 可能是迄今為止所有活著的人中，單一最好的軌跡預測者之一。

Steve 01:23:15
我想我們最終會看到未來發生什麼。我已經談過我認為數據中心裡的一個天才之國能做什麼而 AI 做不到。我們不需要一直爭論這個。

Liron 01:23:15
我再次提到它是因為對我來說，我認為黃金時代的一部分（我們只是在大氣層中悠閒地生活，離開地面感覺如此之好）——我認為數據中心裡的天才最終可能只是這個黃金時代的一部分，在那裡我們得到了一個日益優化的類人 AI 體制，類似於日益優化的大氣飛行飛機。

是的，我們得到了越來越多的失業，是的，它會發生得瘋狂地快，但它可能只會以這種方式瘋狂地快：是的，經濟呈指數級增長，它不是增長了百分之三，而是每年增長了百分之九。但不知何故，它仍然沒問題。是的，有全民基本收入。我認為我們可能會享受幾年數據中心裡全是天才的時光，而那只是標記，沒有工具性趨同的失控 FOOM。所以我們可能會有一個黃金時代。在你看来，這可能是從失業前到毀滅後的一個跳躍。那是我們分歧的地方。

Steve 01:24:25
是的，是的。對於我們近期的 LLM 未來會持什麼樣的狀態，我沒有意見。我最終會知道結果的，我很高興有人在密切關注它，思考可能的負面風險並試圖將其最小化。

Liron 01:24:33
好的。那麼最後一個問題是，我們在 FOOM 或遞歸自我改進（recursive self-improvement）方面的立場是什麼？你認為那是如何展開的？

Steve 01:24:33
我想把這兩件事區分開來。你可以擁有沒有遞歸自我改進的 FOOM。如果你知道如何製造人類水平的 AGI，那麼你可以讓它變得更快，你可以製造一百萬個互相協作的 AGI，現在你就擁有了超智能，但這其中並不一定涉及任何真正的遞歸自我改進。

我認為遞歸自我改進是可能發生的事情。我基本上預期這個下一個範式會迅速出現，從幾乎沒人聽說過到激進的超智能，其時間比大多數人想像的要短得多——一年或兩年，甚至不到一年。但我認為這與遞歸自我改進並沒有太大關係。如果遞歸自我改進發生了，我想速度會更快。

Liron 01:25:23
也許你的世界觀是：看，我知道那裡有一種更好的學習算法，它有點像大腦所做的事情。我知道你以前用過「演員-評論家」這個詞，我們上次詳細討論過它是如何運作的。也許在你看来，一旦這種算法作為 RLVR 的更好版本被解鎖，僅僅作為一種替代——在組合中加入更多的結果主義之類的——一旦我們換了這個檔位，它本身就會強大得離譜。它會帶領我們走得很遠，我們會有火箭飛來飛去。

然後從那裡開始談論自我改進——我是說，學習本身已經是一種強大的改進類型。所以那可能就是終極範式，你只要把數據丟進去就行了。而唯一的改進類型就是非常直接地進行一些微調，丟進更多的數據。所以也許這就是為什麼你並不真正從自我改進的角度來思考問題。

Steve 01:26:08
是的。我喜歡談論人類大腦——我們擁有一種與非洲大草原時期相比幾乎沒有改變的人類大腦設計，但天哪，看看那一種人類大腦設計已經能夠做到的所有事情。它建立了我們的整個文明。同樣地，你可以擁有一種 AI 設計，它同樣可以做所有那些事情，而且做得更多、更快。我不認為我們目前已經擁有了那種 AI 設計，但我確實認為我們遲早會發明它。

Liron 01:26:38
我絕對同意我不認為會有一長串的設計。我可以想像會有再多幾種設計，但我認為不會是從現在起一百萬年後還在修補設計。我認為它會穩定在：「是的，這就是設計，這就是你如何向它丟更多數據，這已經接近最優了。我們在這裡沒問題了。」

所以 FOOM 並不一定會有很多次迭代。迭代可能看起來就像是吸納大量的數據和知識，進行任何你需要進行的實驗和思考，以獲得萬有理論，並理解人類是如何運作的，然後就是：「好的，我基本上解決了。對我來說，在宇宙中導航是一個已經解決的問題。」

Steve 01:27:19
是的。一旦我們擁有了類腦超智能，那就是我的規劃地平線結束的地方，因為在那一點上——它們將掌控一切，未來取決於它們，無論好壞。

Liron 01:27:43
好的，這就是你對 FOOM 的看法。非常感謝 Steve Byrnes 博士加入我們提供這次更新。過去六個月發生了很多事情。我個人預期未來六個月會發生更多事情，所以我很希望能定期邀請你回來，從你的見解中獲益。

Steve 01:27:45
好的。聊天總是愉快的。

Liron 01:27:55
好的。非常感謝。

Doom Debates 的使命是提高主流社會對 AGI 帶來的迫在眉睫的滅絕風險的意識，並建立高質量辯論的社會基礎設施。之前的嘉賓包括 Harlan Stewart、Max Harms & Jeremy Gillen、Noah Smith、Vitalik Buterin、Carl Feynman、Robin Hanson、Gary Marcus、Jim Babcock 以及 David Duvenaud。

參與討論

https://lesswrong.com/posts/TwPFvNNayQvLAGkSx/interview-with-steven-byrnes-on-his-mainline-takeoff