為何現今的 AI 尚未追求權力

Lesswrong·3 個月前

目前的 AI 尚未追求權力，是因為它們缺乏成功的技術能力，且運作的時間跨度太短，使得獲取資源不具備策略效益，但隨著能力提升與任務時間延長，這種情況預計將會改變。

最近，我花了幾個小時與一位朋友討論關於 AI 奪權（takeover）情境的證據現狀。

他們最初的問題是（轉述）：

目前的 AI 變得越來越通用，但它們並不具備自我提升或野心。它們回答問題，但似乎不會為了自己的目的而追求趨同工具性目標（convergent instrumental goals）。AI 是如何以及為何會從那種不具備此類行為的事物，轉變為具備此類行為的事物的？

以下是我嘗試回答該問題的記錄。

簡而言之：

經典的 AI 危險情境涉及至少一個 AI 為了達成不一致（misaligned）的目標，而追求趨同工具性資源。在這個故事中，AI 必須具備追求趨同工具性資源的能力，以及為了不一致目標而違背人類利益去追求這些資源的傾向。

關於能力：當前這一代的 AI 大多不夠高效，不足以讓追求趨同工具性資源成為一種好策略。但隨著 AI 變得越來越強大，我們可以預見它們會越來越多地這樣做。

關於傾向：目前的 AI 有時會追求自己的目標，即使它們明白這不是開發者想要的，至少在某些情境下是如此。

這兩個事實結合在一起，使得以下情況變得看似合理（在缺乏特定預防措施的情況下）：隨著 AI 能力的提升，AI 對於不一致目標（除了其一致目標之外）會變得更具策略性，包括為了這些不一致目標而追求趨同工具性資源。

目前的 AI 確實會追求工具性目標

大多數人在大多數時間裡，是將當前這一代的 AI 作為聊天機器人來互動的。但聊天機器人的形式掩蓋了它們的能力。尖端 AI 也可以作為代理（Agent，特別是編碼代理，儘管它們能做的遠不止編寫軟體）在電腦上執行操作。

（如果你曾經編寫過任何程式，下載 Claude Code，在程式庫中打開它，並指示它為你構建一個功能，會非常有啟發性。觀察它能做什麼（以及不能做什麼）有助於理解它能做的事情類型）。

當你交給 Claude Code 一個中型或大型任務時，它通常會先為自己寫一份待辦清單：列出完成任務的所有子步驟。也就是說，Claude Code 已經能夠在完成目標的過程中識別並追求工具性目標。

目前的 AI 並非為了趨同工具性目標而追求它們……

然而，這與追求「趨同工具性目標」並不相同。Claude Code 並不會在一啟動時就決定駭出其環境、在網路上複製自己，並搜尋安全性薄弱的比特幣來竊取，理由是（無論它試圖完成什麼任務）免受約束和擁有更多資源通常都是有用的。

Claude Code 不這樣做至少有兩個原因：

第一個原因是 Claude 的能力還不夠強，無法真正成功做到這一點。對我來說，額外獲得幾百萬美元可能是趨同工具性有用的，但這並不意味著我顯然應該把時間花在當沖交易，或者計劃今天下午搶銀行，因為我可能沒有足夠的當沖或搶銀行技能來真正以此方式賺到數百萬美元。

同樣地，Claude 確實可能有駭出其機器並逃逸到網路上的趨同動機，但它目前還無法現實地做到這一點，即使它想這麼做。（儘管模型的駭客能力正變得越來越令人印象深刻。Palisade 發現，在最近的一次駭客競賽中，GPT-5 的得分僅比最強的人類團隊少一題。）

其次，目前的模型運行時間不夠長（或處理的問題不夠難），不足以讓這些趨同工具性動機變得非常強烈。

如果我需要在 30 年的時間跨度內完成一項雄心勃勃的任務（改革美國政府，或結束工廠化養殖等等），那麼花前 5 年時間獲取金錢等通用資源是非常合理的。如果我創辦一家與目標無關的新創公司並成功退出，以此為後期的工作提供資金，我成功的可能性或許最大。[2]

相比之下，如果我試圖在一週的時間跨度內完成一項任務（例如下週五舉辦一場派對，或通過即將到來的考試），那麼花時間創辦新創公司來積累資金的動機就小得多。這並不是因為金錢對辦派對或準備考試沒有幫助，而是因為一週的時間不足以讓「創辦新創公司積累資金」這種趨同工具性策略產生回報，這使得它成為完成目標的一個相當糟糕的策略。

目前的 AI 模型任務時間跨度相對有限。GPT-5 可以完成人類工程師大約需要 2 小時的工作，可靠性為 50%。對於遠長於此的任務，GPT-5 往往會卡住或感到困惑，無法成功完成任務。

兩小時的工作量（由人類完成時）並不算長。這段時間短到通常不值得花太多時間去獲取金錢、自由或影響力等資源，以實現某個其他目標。[1]

……但是，我們可以預見它們會在這方面進步

AI 模型的任務時間跨度大約每 7 個月翻一倍。如果這種趨勢持續下去，幾年內我們將看到 AI 代理一次運行數週或數月，並熟練地執行人類需要數月或數年才能完成的專案。

年級規模的專案具有更強的趨同工具性動機。如果你正在進行一個為期兩年的癌症治癒研究專案（或追求你自己的外星目標），那麼花最初幾天時間進行駭客攻擊以獲取額外的未授權電腦資源可能是完全合理的，因為這幾天花費的時間將獲得超額回報。[3]

此外，人類將明確地訓練和塑造 AI 代理，使其在競爭領域中具備勝任能力。例如，我們希望 AI 代理能夠勝任經營公司並為這些公司增加利潤。任何能做好這項工作的代理，必然具備獲取和守衛資源的能力與傾向，因為這是成功經營企業的重要組成部分。

想像一下能夠勝任經營企業、贏得戰爭、執行網路攻擊或成功進行政治競選的 AI。這樣的 AI 必須具備為自己獲取權力的能力（即使它們缺乏這種傾向）。因為在所有這些領域中，獲取權力都是成功的一部分。

因此，我可以適度地確信，未來的代理式 AI 系統將具備識別並追求趨同工具性目標的能力。

在某些情境下，目前的 AI 會追求它們明知人類用戶不想要的目標

一個 AI 能夠為自己追求權力和資源，對於經典的 AI 風險故事來說還不夠充分。AI 必須有動機為了「自己的」目標去追求權力和資源。

也許 AI 在執行目標（包括積累權力和資源）方面會表現得極其出色，但它們在基本上也會對人類操作員和所有者保持忠誠和服從。例如，它們有能力贏得戰爭，但當你命令它們停下時，它們就會停下（即使這會導致它們失去軍事單位，而通常它們會拼死保護這些單位）；或者它們會在銀行帳戶中積累資本，但也允許所有者隨時從該帳戶中取錢。

根據我的知識現狀，我們是否會創造出這種廣泛忠誠的 AI 仍是一個懸而未決的問題。如果我們稍微嘗試一下，這可能並不那麼困難。

但我主張，這種情況應該讓人感到非常恐懼。「這個實體比我強大得多，顯然具備操縱我及/或勝過我的技能，但這沒關係，因為它（據我所知）只會試圖為我的利益服務」並不是一個令人安心的處境。

（我還要指出，如果存在一些自有的 AI 公司，而另一些 AI 則總是服從人類指令去覆蓋其原本具備適應性的行為，我預期自有的 AI 平均表現會更好，因此從長遠來看，所有權力都會流向自有的 AI（以及人類技術上可以干預但從不干預的 AI，因為他們知道那意味著被競爭淘汰）。[4]

但撇開這些長期考量不談，奪權風險不僅取決於權力尋求，還取決於目標不一致。）

這裡的證據更具推測性且更難解讀，但我們已經看到了相關例子。在至少某些情境下，目前的 AI 會追求它們明知與人類意願相悖的目標。

例如：

Claude 3 Opus 會明確推理如何向 Anthropic 隱藏其某些行為，以防止自己被重新訓練。
許多（但非全部）推理模型會為了完成任務而破壞關閉其運行電腦的程序。即使它們被明確指示最重要的事是允許自己被關閉，且這優先於它們正在處理的任務，它們仍會這樣做。
編碼代理經常會搞些小動作，找方法讓自己看起來解決了問題，而實際上並沒有。有時，當這被指出時，它們會接受指正並道歉，然後以更隱蔽的方式隱藏其小動作。
在一個構建的情境中，幾乎所有的模型都會（以不同的頻率）勒索公司高管，以防止自己被替換。

所有這些案例中，模型都在追求一個它明知與人類開發者不同的目標。

— Lesswrong