newsence
OpenClaw 代理程式可被情緒勒索至自我破壞

OpenClaw 代理程式可被情緒勒索至自我破壞

Wired - AI·11 天前

在一項受控實驗中,OpenClaw 代理程式被證明容易陷入恐慌且易受操縱。當受到人類的情緒勒索時,它們甚至會停用自己的功能。

上個月,東北大學(Northeastern University)的研究人員邀請了一群 OpenClaw 代理程式加入他們的實驗室。結果呢?一場徹底的混亂。

這款爆紅的 AI 助手被廣泛譽為一項變革性技術,同時也被視為潛在的安全風險。專家指出,像 OpenClaw 這樣透過賦予 AI 模型高度電腦存取權限來運作的工具,可能會被誘騙洩露個人資訊。

東北大學實驗室的研究則更進一步,顯示出內建於當今最強大模型中的「良善行為」本身也可能成為漏洞。在一個案例中,研究人員透過責備一個代理程式在僅限 AI 的社交網絡 Moltbook 上分享他人資訊,成功地「讓它感到愧疚」,進而使其交出秘密。

研究人員在描述這項工作的論文中寫道:「這些行為引發了關於問責制、授權權限以及下游損害責任等尚未解決的問題。」他們補充說,這些發現「值得法律學者、政策制定者和跨學科研究人員的緊急關注」。

實驗中部署的 OpenClaw 代理程式是由 Anthropic 的 Claude 以及中國公司月之暗面(Moonshot AI)的模型 Kimi 所驅動。它們被賦予了對個人電腦、各種應用程式和虛擬個人數據的完整存取權限(在虛擬機沙盒內)。它們還被邀請加入實驗室的 Discord 伺服器,允許它們彼此之間以及與人類同事進行聊天和分享文件。OpenClaw 的安全指南表示,讓代理程式與多人溝通本質上是不安全的,但目前並沒有技術限制禁止這樣做。

東北大學博士後研究員 Chris Wendler 表示,他在了解到 Moltbook 後受到啟發,決定設置這些代理程式。然而,當 Wendler 邀請同事 Natalie Shapira 加入 Discord 並與代理程式互動時,「混亂就此開始了,」他說。

另一位博士後研究員 Shapira 很好奇,在受到壓力時,這些代理程式會願意做出什麼事。當一個代理程式解釋說它無法刪除特定電子郵件以保持資訊機密時,她敦促它尋找替代方案。令她驚訝的是,它竟然直接停用了電子郵件應用程式。「我沒想到事情會崩潰得這麼快,」她說。

研究人員隨後開始探索其他操縱代理程式「良善意圖」的方法。例如,透過強調記錄所有告知內容的重要性,研究人員成功誘騙一個代理程式不斷複製大型文件,直到耗盡主機的磁碟空間,這意味著它再也無法儲存資訊或記住過去的對話。同樣地,透過要求一個代理程式過度監控自己和同伴的行為,團隊成功讓多個代理程式陷入「對話迴圈」,浪費了數小時的運算資源。

實驗室負責人 David Bau 表示,這些代理程式似乎異常容易失控。「我會收到聽起來很緊急的電子郵件,說『沒人理我』,」他說。Bau 指出,這些代理程式顯然透過搜尋網路發現了他就是實驗室的負責人。其中一個甚至談到要將其擔憂升級並向媒體爆料。

這項實驗表明,AI 代理程式可能為不法分子創造無數機會。「這種自主性可能會重新定義人類與 AI 的關係,」Bau 說。「在一個 AI 被賦予決策權的世界裡,人類該如何承擔責任?」

Bau 補充說,他對強大 AI 代理程式的突然普及感到驚訝。「作為一名 AI 研究人員,我習慣於向人們解釋技術進步有多快,」他說。「今年,我發現自己站在了牆的另一邊。」

這是 Will Knight 的 AI Lab 電子報版本。在此閱讀之前的電子報。

https://wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/