產品對齊不等於超智能對齊（而我們需要後者才能生存）

Lesswrong·5 天前

本文指出使 Claude 等產品變得友好的進展，並不等同於確保構建神級超智能安全性方面的進展；解決前者並不意味著我們能擁有美好的未來。我們必須區分產品對齊與超智能對齊的差異，因為當面對具備策略能力的超人類主體時，現有的經驗性回饋機制將會失效。

tl;dr：讓 Claude 變得友善的進展^([1])，並不等同於在安全地構建神一般超智能（godlike superintelligence）方面的進展。解決前者並不意味著我們能擁有美好的未來。^([2])請注意這兩者之間的區別。

「對齊」（Alignment）一詞的提出^([3])，是為了指向一個技術問題：即如何理解並構建心智，使得如果它們變得強大且具備通用的超人類能力時，事情仍能進展順利。

這個詞越來越多地被頂尖 AI 實驗室和大部分 AI 安全社群所採用，用來指代一個容易得多的挑戰，類似於「讓 AI 在經驗上大致按照你的要求去做」。^([4])

如果可以使用一個「意圖對齊」（intent-aligned）的產品來構建一個研究系統，而該系統發現了新範式並突破了你的護欄，那麼它在原始意義上就不是「對齊」的。

如果你可以使用你的意圖對齊系統來編寫代碼，從而對其他大型語言模型（LLM）進行越獄，並使它們能夠進行危險的機器學習（ML）研究，那麼它在原始意義上也不是「對齊」的。

將產品對齊的進展與超智能對齊的進展混為一談，似乎正讓大部分 AI 安全社群陷入一種虛假的安全感中。

為什麼超智能對齊較不受重視？

因為產品對齊：

比起理論（技術哲學和數學），更接近擴展實驗室的核心專長（機器學習），因此更容易招聘人才和進行評估。
擁有更容易使用的反饋迴路：運行實驗，觀察結果。超智能對齊則要求在運行某些實驗之前建立足夠的理論理解，因為如果你的理論是錯誤的，你可能無法活著看到某些結果。
更有利可圖；產品對齊的進展能讓 AI 立即變得更有用。^([5])
資金提供者更容易資助；比起一個只要運行實驗就能可靠獲得可發表結果的領域，評估誰能在超智能對齊理論上取得進展，甚至評估什麼才算進展，都要困難得多。

這很不方便！

如果我們可以依賴易於評估、有利可圖的經驗反饋迴路，一路走向美好的未來，那當然太棒了。但這似乎遠非定數。^([6])

為什麼我們需要超智能對齊才能生存？

現實允許是不方便的。有強烈的理由預期，實驗中具備超人類情境覺知（situationally aware）的代理人會破壞科學過程賴以生存的一些基礎，例如：

你可以為了收集數據而隨意多次運行大致任何實驗，且世界不會因為你測試的理論是錯誤的，或者你運行了一個過強的代理人而毀滅。
你的實驗內部不會有一個覺察到你並偽造數據的智能對手。
你的實驗不會產生經過超人類優化、旨在說服你的數據。

簡而言之：你的實驗對象不是一個中性的基質，而是一個比你更有能力的策略性行動者。

如果我們不能保證模型在每構建一級能力階梯時都能維持安全屬性，我們就是在為不可逆轉的護欄衰減擲骰子。^([7]) 而且隨著反饋迴路的加速，我們將會非常迅速地擲出大量的骰子。

當我們走向指數增長時，我們將需要能夠推廣到強超人類代理人的技術——這些代理人正確地相信自己可以擊敗全人類。產品對齊的 AI 可能會對這項工作有所幫助，但它們需要自動化的研究類型需要更像是技術哲學以及可靠地避免粗製濫造（slop），而不僅僅是避免密謀和通過產品對齊基準測試。^([8])

由於資金激勵的混合影響，以及對大多數人來說從事經驗科學更有成就感，AI 安全領域中只有極小一部分人專注於這些大局觀的瓶頸。^([9])^([10])

當你看到人們熱情地談論我們在「對齊」方面取得了多少進展時，請追蹤（並詢問！）他們談論的是產品對齊還是超智能對齊。

^(^)如果你是 Claude 的朋友，請先閱讀並考慮這篇貼文：保護人類和 Claude 免受合理化和非對齊 AI 的侵害
^(^)這並不是說「產品對齊沒有幫助」或「沒有一條通往勝利的道路是經過產品對齊的」，只是說在你計劃的某個階段，你需要解決一個不同的問題（超智能對齊）。
^(^)我認為是由 Stuart Russell 在 2014 年左右提出的。
^(^)有時是對這段歷史有自覺的，例如 Paul 的意圖對齊（Intent Alignment），但這種情況越來越罕見。
^(^)獲得產品對齊的 AI 是許多可能目標的趨同子目標（convergent subgoal），而最終目的可能很容易隱藏在趨同子目標之後。
^(^)即使在理論上可行，目前參與者在競爭條件下的實踐，看起來也遠未達到實際完成任務所需的勝任水平。
^(^)能力可以以對齊無法做到的方式進行推廣，因為現實會直接對你的能力給予反饋（你能或不能完成任務），而對齊則需要一個特定的系統來給予反饋，如果那只是你想要的東西的代理指標，你在更高的力量水平上就會被吞噬。
^(^)如果這對你來說聽起來不正確，請點擊進入鏈接的貼文。
^(^)即使是那些專注於理論的人，也更多地關注機器學習的基礎科學，而不是試圖逆向推導生存於超智能時代所需的概念工程。我估計全球大約只有幾十人在關注那些看起來是核心關鍵的問題。
^(^)回應 Jan Leike、evhub、Boaz 等人。感謝 @Luc Brinkman、@Mateusz Bagiński、@Claude+ 的反饋和校對。

參與討論

https://lesswrong.com/posts/mrwYCNocXCP2hrWt8/product-alignment-is-not-superintelligence-alignment-and-we