
OpenAI承認AI瀏覽器可能永遠無法擺脫提示注入攻擊的威脅
OpenAI承認,提示注入攻擊(透過隱藏的惡意指令操縱AI代理)對其Atlas等AI瀏覽器構成持續且可能無法根除的安全風險。儘管公司正努力加強安全性,但承認此威脅不太可能被完全消除。
即使 OpenAI 正在努力加固其 Atlas AI 瀏覽器 以抵禦網路攻擊,該公司也承認,提示注入(一種操縱 AI 代理以遵循通常隱藏在網頁或電子郵件中的惡意指令的攻擊類型)是一個短期內不會消失的風險——這引發了關於 AI 代理在開放網絡上能安全運行到何種程度的疑問。
OpenAI 在週一發布的一篇 部落格文章 中詳細說明了該公司如何加強 Atlas 的防禦以應對持續不斷的攻擊,並寫道:「提示注入,就像網絡上的詐騙和社交工程一樣,不太可能被完全『解決』。」該公司承認,ChatGPT Atlas 中的「代理模式」會「擴大安全威脅範圍」。
OpenAI 於十月推出了其 ChatGPT Atlas 瀏覽器,安全研究人員紛紛發布演示,展示了只需在 Google 文件中寫入幾個字,就能改變底層瀏覽器行為的可能性。同一天,Brave 發布了一篇部落格文章,解釋了間接提示注入對包括 Perplexity 的 Comet 在內的 AI 驅動瀏覽器來說是一個系統性的挑戰。
OpenAI 並非唯一認識到基於提示的注入不會消失的公司。英國國家網絡安全中心本月早些時候發出警告,稱針對生成式 AI 應用程式的提示注入攻擊「可能永遠無法完全緩解」,這使網站面臨數據洩露的風險。英國政府機構建議網絡專業人士降低提示注入的風險和影響,而不是認為這些攻擊可以被「阻止」。
就 OpenAI 而言,該公司表示:「我們將提示注入視為一個長期的 AI 安全挑戰,我們需要不斷加強我們的防禦措施。」
該公司對這項西西弗斯式的任務的解決方案是什麼?一個主動的、快速響應的週期,該公司表示,該週期在被「在野外」利用之前,已顯示出在內部發現新穎攻擊策略的早期希望。
這與 Anthropic 和 Google 等競爭對手所說的並無太大區別:為了對抗基於提示的攻擊的持續風險,必須採取分層防禦並持續進行壓力測試。例如,Google 最近的工作 側重於代理系統的架構和策略級別的控制。
但 OpenAI 採取不同策略的地方在於其「基於 LLM 的自動化攻擊者」。這個攻擊者基本上是 OpenAI 使用強化學習訓練的一個機器人,它扮演駭客的角色,尋找將惡意指令偷偷傳遞給 AI 代理的方法。
該機器人可以在實際使用之前在模擬中測試攻擊,模擬器顯示目標 AI 在看到攻擊時會如何思考以及會採取哪些行動。然後,機器人可以研究該響應,調整攻擊,然後一次又一次地嘗試。這種對目標 AI 內部推理的洞察是外部人員無法獲得的,因此,理論上,OpenAI 的機器人應該比現實世界的攻擊者更快地發現漏洞。
這是 AI 安全測試中的一種常見策略:構建一個代理來發現邊緣案例,並在模擬中快速測試它們。
OpenAI 寫道:「我們經過 [強化學習] 訓練的攻擊者可以引導代理執行複雜的、長期的有害工作流程,這些工作流程會展開數十(甚至數百)個步驟。」「我們還觀察到了一些新穎的攻擊策略,這些策略並未出現在我們的人工紅隊演練或外部報告中。」

**圖片來源:**OpenAI
在一次演示(部分如上圖所示)中,OpenAI 展示了其自動化攻擊者如何將一封惡意電子郵件植入用戶的收件箱。當 AI 代理稍後掃描收件箱時,它會遵循電子郵件中的隱藏指令,並發送一封辭職信,而不是起草一封外出辦公的回复。但根據該公司稱,在安全更新後,「代理模式」能夠成功檢測到提示注入嘗試並向用戶標記。
該公司表示,雖然提示注入很難做到萬無一失地防禦,但它正在依靠大規模測試和更快的補丁週期來加固其系統,使其在現實世界攻擊中出現之前就變得更加堅固。
一位 OpenAI 發言人拒絕透露 Atlas 的安全更新是否導致成功注入的數量可衡量地減少,但表示該公司自推出以來一直與第三方合作,以加固 Atlas 以抵禦提示注入。
網絡安全公司 Wiz 的首席安全研究員 Rami McCarthy 表示,強化學習是持續適應攻擊者行為的一種方式,但這只是其中的一部分。
McCarthy 告訴 TechCrunch:「理解 AI 系統風險的一種有用的方法是自主性乘以訪問權限。」
McCarthy 說:「代理瀏覽器往往處於該空間中一個具有挑戰性的位置:中度自主性與非常高的訪問權限相結合。」「許多現有的建議都反映了這種權衡。限制登錄訪問主要減少了暴露,而要求審查確認請求則限制了自主性。」
這是 OpenAI 建議用戶降低自身風險的兩項建議,一位發言人表示,Atlas 還經過訓練,在發送消息或進行付款之前會獲得用戶確認。OpenAI 還建議用戶為代理提供具體的指令,而不是讓它們訪問您的收件箱並告訴它們「採取任何必要的行動」。
根據 OpenAI 的說法,「廣泛的自由度使得隱藏或惡意內容更容易影響代理,即使有保護措施到位。」
雖然 OpenAI 表示保護 Atlas 用戶免受提示注入是首要任務,但 McCarthy 對風險較高的瀏覽器的投資回報率表示懷疑。
McCarthy 告訴 TechCrunch:「對於大多數日常用例而言,代理瀏覽器尚未提供足夠的價值來證明其當前的風險狀況是合理的。」「由於它們能夠訪問電子郵件和支付信息等敏感數據,因此風險很高,儘管這種訪問權限也是它們強大的原因。這種平衡將會發展,但今天權衡仍然非常真實。」
相關文章