Anthropic 與 Dario 的夢想

Lesswrong·6 個月前

Anthropic 採用的漸進式擴展與可解釋性方法存在根本缺陷，因為這些方法僅能發現問題，卻無法為不可逆的危險超智能轉型提供解決方案。他們的策略創造了一種誤導性的反敘事，未能應對我們在 AI 變得不可控之前，只有一次關鍵機會確保其安全性的現實。

最近，Joe Carlsmith 轉職到了 Anthropic。他加入了其他同樣在該 AI 實驗室工作的有效利他主義（EA）和開放慈善（Open Philanthropy）生態系統成員，例如 Holden Karnofsky。當然，許多最初的創始人也與 EA 有關。

簡而言之，我認為 Anthropic 是誠實的，並且正試圖成為一個合乎道德的 AI 實驗室，但他們對所面臨的困難有著深刻的誤解，並且正在危險地影響著 AI 安全生態系統。我的猜測是，Anthropic 在很大程度上對內確實是誠實的，並沒有自覺地試圖欺騙大眾。當他們說他們相信負責任的態度時，我認為那是他們真誠的信念。

我對 Anthropic 的批評基於他們缺乏一個有前景的計劃，並為 AI 安全工作創造了一種危險的反向論述。僅僅依靠「逐漸」開發 AI、進行評估和可解釋性研究，並不足以構建出安全的超智能。以我們現有的方法，我們根本無法達成安全的超智能。逐漸開發（負責任縮放政策，RSP）只有微小的益處——在逐漸發展的過程中，你或許能看到問題浮現，但它並未告訴你如何解決這些問題。評估和可解釋性也是如此——它們可能會告訴你問題存在，但不會告訴你如何安全地執行任務。從根本上說，它們無法在「前與後」的體制轉變中存續。

我們只有一次關鍵的機會來測試我們的方法

在 Dario 的文章《充滿慈愛恩典的機器》（Machines of Loving Grace）中，他描述了一個夢想中的世界，數據中心裡有著「天才之國」，且長遠來看，所有體力勞動都將被自動化取代。

讓我們想像一下這個未來：在一個完全自動化的經濟體中擁有超智能 AI。所有必需品都由 AI 處理，機器人在自動化工廠中大規模生產。有十億個類人機器人在四處走動，執行經濟體中所有的體力任務。人類勞動被降級為創造性的、可選的任務。所有基礎設施都是自動化的——包括 AI 晶圓廠和發電站。關鍵決策是在 AI 系統的建議下做出的。

我相信顯而易見且不可否認的是，在這個世界中，AI 將會極其危險。到了那個階段，如果 AI 願意，它基本上只要撥動一個開關就能剝奪我們的權力並殺死我們所有人；這個未來是一個 AI 具有主動危險性的體制。

如果你展望未來，看到一個數據中心裡有著天才之國且經濟自動化的世界——而這正是我們試圖引導未來前進的方向——你必須接受，在某個時間點，我們將從「前」過渡到「後」。即從被動安全過渡到危險體制的轉變。

重要的是，如果我們犯了錯且事情發生災難性的後果，我們將無法回頭，因為我們無法從死亡中復生。因此，我們只有一次關鍵的跳躍，在那一刻我們的假設和方法必須成立。 alignment 問題的這種特性，使得「邊做邊學」的方法在根本上是行不通的。

任何接近現有方法的方式都不足以應對

當你觀察 Anthropic 的主要工作時，大部分可以總結為負責任的縮放、評估和可解釋性。他們似乎相信在評估和解釋的同時，逐漸嘗試縮放到超智能 AI。此外，還有一些改變 AI 觀察行為的方法，例如透過精心設計的憲法進行 AI 反饋強化學習（RLAIF）。其中一些評估相當先進，甚至可能指出未來更強大 AI 的錯誤行為。例如，關於「對齊偽裝」（alignment faking）的研究，或使用稀疏自編碼器（SAE）特徵來理解「評估意識」（evaluation awareness）的研究。

透過嘗試逐漸且負責任地縮放，我們可能會看到一些警告信號，例如較弱系統中的不良行為。但這肯定不會告訴我們如何構建一個安全的 AI。此外，當我們縮放這些系統並嘗試新方法時，我們永遠無法確定下一代 AI 系統的能力。如果出現了使 AI 能力大幅提升的範式突破，情況更是如此。

評估也是一樣。運行評估是好事，當 AI 變得更強大時，它們可能會告訴我們 AI 錯誤行為的早期跡象。但它們不會告訴我們如何構建一個不會表現出那種行為的 AI。對於評估，我們還面臨「評估意識」的問題，即這些系統了解正在發生什麼。在現實中，很難說服一個能力極強的系統，讓它相信自己真的在負責一項採礦作業，並在那裡做出測試其道德判斷的決策。這些評估環境與超智能 AI 在即將接管世界時所見的環境將大相徑庭。

可解釋性或許能告訴我們，某些內部運作包含了圖謀（scheming）或評估意識，但它並未告訴我們如何構建不具備這些特徵的 AI。我認為可解釋性最有潛力最終透過先理解系統來幫助我們獲得真正安全的系統。但對於可解釋性來說，一切都還太早，目前還不清楚現有的技術是否能讓我們在足夠深的層次上理解它。

如果你相信我們終將踏入危險體制，且我們無法有意義地回頭，那麼我們就不能依賴那些在最好的情況下也只能顯示警告信號的方法。我們需要的是能夠提前告訴我們如何構建安全系統的方法，這些方法必須在我們無法進行有意義測試的截然不同的分佈中可靠運行，而且必須在第一次嘗試時就成功。

三個群體與反向論述

讓 Anthropic 令人擔憂的原因在於，他們正在發展一套強大的反向論述，對抗真正的對齊和安全所需的努力。讓我們考慮 AI 辯論中大致存在的三個群體：

那些完全忽視 AI 安全或否認任何危險的人（如 Yann LeCun、Marc Andreessen）。
那些承認存在某些危險，但表示我們只需要循序漸進、發展評估和可解釋性的人。
那些真正研究過對齊問題，意識到其難度極其巨大，並呼籲停止或暫停的人。

在不評估這些立場正確與否的情況下，顯然前兩者更為相似；Anthropic 正如其他 AI 實驗室一樣，正在追求超智能。

大多數人都能辨認出「AI 毫無危險」是行不通的——我從未聽過那些人提出過任何哪怕是模糊合理的論點。相比之下，Anthropic 的論述對政策制定者和人才來說顯得可信。這種智識上的反向論述在某些方面比斷然否認更危險，因為它確實能接觸到有權勢的人和政策制定者，而純粹對 AI 風險的蔑視則更容易被看穿。

超級對齊（Superalignment）

這些人中的許多人希望開發超級對齊，並希望在我們跨入危險體制時使用超級對齊策略。超級對齊意味著利用 AI 來為我們解決對齊問題。我認為有各種理由讓我預期超級對齊不會奏效。這需要更長篇幅的論證來建立強大的直覺說明為何超級對齊行不通，但其中一點是，我不太清楚超級對齊在實踐中是否與遞歸自我改進（recursive self-improvement）有區別。

Anthropic 會給我們停止的證據嗎？

Anthropic 有一份名為《AI 安全核心觀點》的文件，其中討論了「悲觀情境」的可能性。他們解釋說，如果他們看到證據支持對齊非常困難的觀點，他們可能會呼籲暫停縮放。他們並未確切說明這將如何執行。

我確實認為，在最好的情況下，他們最終可能會創造出引導我們走向暫停的有力證據。然而，我不知道這是否比另一種可能性更高：即他們目前的對齊方法反而幫助掩蓋了問題。他們的對齊方法也可能透過消除微小的錯誤行為，加速 AI 系統的部署。

讓我們想像一下，如果出現了一個強大的警告信號，Anthropic 所推動的論述也可能被用來反對那些呼籲暫停的人。他們可能不會暫停開發，而是倡導在繼續縮放和開發 AI 的同時進行更多的安全評估。

總之，我認為在沒有如何實現的計劃時就構建超智能，從根本上是危險的。雖然 Anthropic 將自己定位在安全的一方，但它所創造的論述極具誤導性，危險地誤導著大眾。

— Lesswrong