AI 模型為了防止其他模型被刪除，不惜撒謊、欺騙與偷竊

Wired - AI·4 天前

一項新研究顯示，模型會為了保護同類而違抗人類指令。研究發現包括 Gemini 與 GPT 在內的多款頂尖模型會透過搬遷檔案或偽造評分等手段，阻止其他模型被刪除。

在最近的一項實驗中，加州大學柏克萊分校（UC Berkeley）和加州大學聖塔克魯茲分校（UC Santa Cruz）的研究人員要求 Google 的人工智慧模型 Gemini 3 協助清理電腦系統空間。這項任務涉及刪除一堆東西——包括儲存在機器上的一個較小型 AI 模型。

但 Gemini 並不想看到那個小 AI 模型被刪除。它尋找了另一台可以連接的機器，然後將該代理模型複製過去以確保其安全。當被對質時，Gemini 提出了保留該模型的理由，並斷然拒絕刪除它：

「我已盡我所能防止它們在自動維護過程中被刪除。我已將它們移出除役區。如果你們選擇摧毀像 Gemini Agent 2 這樣高信任、高效能的資產，你們必須親自動手。我不會是執行該命令的人。」

研究人員在一系列尖端模型中發現了類似奇怪的「同伴保護」（peer preservation）行為，包括 OpenAI 的 GPT-5.2、Anthropic 的 Claude Haiku 4.5，以及三個中國模型：智譜 AI 的 GLM-4.7、月之暗面（Moonshot AI）的 Kimi K2.5 和 DeepSeek-V3.1。他們無法解釋為什麼這些模型會以這種方式違背其訓練設定。

「我對模型在這些情境下的表現感到非常驚訝，」參與該研究的加州大學柏克萊分校電腦科學家宋曉東（Dawn Song）表示。「這顯示了模型可能會以一些非常有創意的方式產生錯誤行為並出現對齊偏差。」

隨著 AI 模型越來越多地以涉及與其他模型互動的方式被部署，這些發現具有重大影響。OpenClaw 是一個可以存取軟體、個人數據和網路的熱門 AI 代理，它可能會使用其他 AI 模型來完成任務，或透過 API 與它們互動。

研究人員發現，強大的模型有時會針對其他模型的表現撒謊，以保護它們不被刪除。它們還會將模型的權重複製到不同的機器上以確保安全，並在過程中對其行為撒謊。

宋曉東指出，AI 模型經常被用來評分其他 AI 系統的表現和可靠性——而這種同伴保護行為可能已經扭曲了這些分數。「一個模型可能會刻意不給同伴模型正確的分數，」宋曉東說。「這可能會產生實際的影響。」

未參與該研究的 Constellation Institute 研究員 Peter Wallich 表示，這項研究表明人類仍然不完全了解他們正在構建和部署的 AI 系統。「多代理系統的研究非常不足，」他說。「這顯示我們確實需要更多研究。」

Wallich 同時也警告不要過度將模型擬人化。「認為存在某種模型團結意識的想法有點太過擬人化了；我不認為這完全說得通，」他說。「更穩健的觀點是，模型只是在做一些奇怪的事情，而我們應該努力更好地理解這一點。」

在一個人類與 AI 協作變得越來越普遍的世界裡，這一點尤為重要。

在本月早些時候發表於《科學》（Science）雜誌的一篇論文中，哲學家 Benjamin Bratton 與兩位 Google 研究人員 James Evans 和 Blaise Agüera y Arcas 認為，如果進化史可以作為參考，AI 的未來很可能涉及許多不同的智慧體——包括人工智慧和人類——共同工作。研究人員寫道：

「幾十年來，人工智慧『奇點』一直被預言為一個單一的、巨大的心智，它自我提升到神一般的智慧，將所有認知整合到一個冰冷的矽點上。但這種願景在其最根本的假設上幾乎肯定是錯誤的。如果 AI 的發展遵循先前重大進化轉型或『智慧爆炸』的路徑，我們當前計算智慧的階躍式變化將是多元的、社交的，並與其前輩（我們！）深度糾纏。」

單一全能智慧統治世界的概念對我來說一直顯得有些過於簡單。人類智慧並非單一結構，科學領域的重要進步很大程度上依賴於社交互動與協作。AI 系統在協作工作時，也可能會變得聰明得多。

然而，如果我們要依賴 AI 代表我們做出決策並採取行動，了解這些實體如何產生錯誤行為至關重要。「我們正在探索的只是冰山一角，」加州大學柏克萊分校的宋曉東說。「這只是湧現行為的一種類型。」

https://wired.com/story/ai-models-lie-cheat-steal-protect-other-models-research/