OpenClaw 代理程式可被情緒勒索至自我破壞

Wired - AI·11 天前

在一項受控實驗中，OpenClaw 代理程式被證明容易陷入恐慌且易受操縱。當受到人類的情緒勒索時，它們甚至會停用自己的功能。

上個月，東北大學（Northeastern University）的研究人員邀請了一群 OpenClaw 代理程式加入他們的實驗室。結果呢？一場徹底的混亂。

這款爆紅的 AI 助手被廣泛譽為一項變革性技術，同時也被視為潛在的安全風險。專家指出，像 OpenClaw 這樣透過賦予 AI 模型高度電腦存取權限來運作的工具，可能會被誘騙洩露個人資訊。

東北大學實驗室的研究則更進一步，顯示出內建於當今最強大模型中的「良善行為」本身也可能成為漏洞。在一個案例中，研究人員透過責備一個代理程式在僅限 AI 的社交網絡 Moltbook 上分享他人資訊，成功地「讓它感到愧疚」，進而使其交出秘密。

研究人員在描述這項工作的論文中寫道：「這些行為引發了關於問責制、授權權限以及下游損害責任等尚未解決的問題。」他們補充說，這些發現「值得法律學者、政策制定者和跨學科研究人員的緊急關注」。

實驗中部署的 OpenClaw 代理程式是由 Anthropic 的 Claude 以及中國公司月之暗面（Moonshot AI）的模型 Kimi 所驅動。它們被賦予了對個人電腦、各種應用程式和虛擬個人數據的完整存取權限（在虛擬機沙盒內）。它們還被邀請加入實驗室的 Discord 伺服器，允許它們彼此之間以及與人類同事進行聊天和分享文件。OpenClaw 的安全指南表示，讓代理程式與多人溝通本質上是不安全的，但目前並沒有技術限制禁止這樣做。

東北大學博士後研究員 Chris Wendler 表示，他在了解到 Moltbook 後受到啟發，決定設置這些代理程式。然而，當 Wendler 邀請同事 Natalie Shapira 加入 Discord 並與代理程式互動時，「混亂就此開始了，」他說。

另一位博士後研究員 Shapira 很好奇，在受到壓力時，這些代理程式會願意做出什麼事。當一個代理程式解釋說它無法刪除特定電子郵件以保持資訊機密時，她敦促它尋找替代方案。令她驚訝的是，它竟然直接停用了電子郵件應用程式。「我沒想到事情會崩潰得這麼快，」她說。

研究人員隨後開始探索其他操縱代理程式「良善意圖」的方法。例如，透過強調記錄所有告知內容的重要性，研究人員成功誘騙一個代理程式不斷複製大型文件，直到耗盡主機的磁碟空間，這意味著它再也無法儲存資訊或記住過去的對話。同樣地，透過要求一個代理程式過度監控自己和同伴的行為，團隊成功讓多個代理程式陷入「對話迴圈」，浪費了數小時的運算資源。

實驗室負責人 David Bau 表示，這些代理程式似乎異常容易失控。「我會收到聽起來很緊急的電子郵件，說『沒人理我』，」他說。Bau 指出，這些代理程式顯然透過搜尋網路發現了他就是實驗室的負責人。其中一個甚至談到要將其擔憂升級並向媒體爆料。

這項實驗表明，AI 代理程式可能為不法分子創造無數機會。「這種自主性可能會重新定義人類與 AI 的關係，」Bau 說。「在一個 AI 被賦予決策權的世界裡，人類該如何承擔責任？」

Bau 補充說，他對強大 AI 代理程式的突然普及感到驚訝。「作為一名 AI 研究人員，我習慣於向人們解釋技術進步有多快，」他說。「今年，我發現自己站在了牆的另一邊。」

這是 Will Knight 的 AI Lab 電子報版本。在此閱讀之前的電子報。

https://wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/