暫停人工智慧開發是解決對齊後問題的最佳方案

Lesswrong·大約 4 小時前

即使我們解決了人工智慧對齊問題，仍面臨誤用與權力集中等對齊後的生存風險，因此全球暫停超級智能開發是為尋求解決方案爭取時間最有效的方法。

即使我們解決了 AI 對齊問題，我們仍面臨後對齊問題 (post-alignment problems)，即 AI 可能帶來的所有其他生存威脅
^([1])。

人們已經識別出在開發人工超智慧 (ASI) 之前，我們可能需要解決的各種艱巨問題。一份不完整的清單包括：濫用；納入動物福祉的 AI；AI 福利；衝突導致的 S-風險 (S-risks)；逐漸失去主導權；永久性的大規模失業；來自惡意行為者的風險 / AI 賦能的政變 / 權力的逐漸集中；道德錯誤。

如果我們想出如何解決其中一個問題，我們仍必須處理所有其他問題。只要有一個問題未解決，未來就可能陷入災難性的境地。這一事實削弱了單獨研究各個問題的預期效益。

全球暫停超智慧開發能為我們爭取更多時間來研究對齊問題以及所有的後對齊問題。暫停 AI 符合許多事業的共同利益。
^([2])

轉載自我的網站。

我們不能拖延到 ASI 出現之後

如果我們想出如何對齊 ASI，它能幫我們解決後對齊問題嗎？或者我們能否利用 ASI 來實現長期反思 (Long Reflection)？答案是否定的。

要構建一個對齊的 ASI，必須滿足以下兩個條件之一：

該 ASI 具有鎖定的價值觀。
該 ASI 是可修正的 (corrigible)：它會聽從其主人的指令，並允許其目標被更改。

如果價值觀被鎖定，我們就無法推遲任何與道德哲學相關的問題；我們必須提前解決它們。
^([3])

如果 ASI 是可修正的，那麼它確實能讓我們有時間進行長期反思，在超智慧助手的幫助下弄清楚什麼是「善」。但可修正的 ASI 會產生其他問題。這意味著第一個獲得該 ASI 訪問權的人可以利用它來接管世界。如果 ASI 被廣泛獲取，惡意行為者可以利用它造成巨大的傷害。可修正性增加了來自濫用和極權主義的災難性風險。

如果我們想要在 ASI 出現後進行長期反思，那麼我們仍然需要 AI 是對齊的，並且我們需要某種公正的治理機制，以防止個人竊取反思的成果。在強大的預設情況下，ASI 將終結自由民主。按照目前的軌跡，我們最終將由少數人——無論是 AI 公司領導者還是政府領導者——對先進 AI 擁有獨裁式的控制權。至少，我們需要在開發 ASI 之前解決 AI 濫用和權力集中問題；並且我們需要一種方法，在不加劇濫用和權力集中風險的情況下，避免價值觀鎖定 (value lock-in)。

也許存在某種版本的價值對齊/可修正性，能在兩者之間找到正確的平衡點以避免問題。但任何類似解決方案的東西看起來都非常遙遠，而且沒有足夠的人認真對待這些問題。

除了暫停，還有什麼替代方案？

倡導暫停 AI 是應對後對齊問題最重要的反應，但它可能不是最具成本效益的。實現全球協調的暫停將非常困難。也許單獨研究各種後對齊問題，或者尋找能同時降低多種後對齊問題風險的其他緩解措施，會更具成本效益。

我無法自信地說倡導暫停是最好的做法，但目前看來沒有其他選擇明顯更好。

支持將倡導暫停 AI 作為後對齊問題首要對策的兩個論點：

如果時間表很短，那麼我們就沒有時間解決後對齊問題。
暫停 AI 通過給予我們更多時間，同時有助於解決所有後對齊問題。

反對倡導暫停最有力論點是其缺乏可行性。深入探討可行性超出了本文的範圍，但我預期實現暫停的難度，會低於在不暫停的情況下解決每一個後對齊問題。在另一個平行世界中，如果（假設）我們只要解決了 AI 賦能的極權主義問題就能安然無恙，那麼直接研究極權主義可能比倡導暫停更好。但現在有許多糟糕的後果需要規避，這使得暫停 AI——儘管困難重重——仍比在短時間內解決所有後對齊問題要容易。

關於後對齊問題的研究議程很少將「暫停/減緩 AI 發展」作為一種緩解措施。這可能是因為作者不認為這是一個好的對策。但這些研究議程並非在考慮後最終拒絕了暫停 AI 的想法；相反，它們根本沒有提及。如果我是錯的，而暫停並非後對齊問題的最佳答案，那麼還需要進一步闡明為什麼其他對策更好。

生存威脅是指經典意義上的「永久喪失未來大部分潛在繁榮」。 ↩︎
此措辭借鑒自 Rationality: Common Interest of Many Causes。 ↩︎
我們最好的賭注可能是像連貫推斷意志 (Coherent Extrapolated Volition) 之類的東西。不幸的是，目前沒有 AI 開發者在研究如何實現它。 ↩︎

參與討論

https://lesswrong.com/posts/WtqD9pehq8p83cesT/pausing-ai-is-the-best-answer-to-post-alignment-problems