OpenAI承認AI瀏覽器可能永遠無法擺脫提示注入攻擊的威脅

Techcrunch·4 個月前

OpenAI承認，提示注入攻擊（透過隱藏的惡意指令操縱AI代理）對其Atlas等AI瀏覽器構成持續且可能無法根除的安全風險。儘管公司正努力加強安全性，但承認此威脅不太可能被完全消除。

即使 OpenAI 正在努力加固其 Atlas AI 瀏覽器以抵禦網路攻擊，該公司也承認，提示注入（一種操縱 AI 代理以遵循通常隱藏在網頁或電子郵件中的惡意指令的攻擊類型）是一個短期內不會消失的風險——這引發了關於 AI 代理在開放網絡上能安全運行到何種程度的疑問。

OpenAI 在週一發布的一篇部落格文章中詳細說明了該公司如何加強 Atlas 的防禦以應對持續不斷的攻擊，並寫道：「提示注入，就像網絡上的詐騙和社交工程一樣，不太可能被完全『解決』。」該公司承認，ChatGPT Atlas 中的「代理模式」會「擴大安全威脅範圍」。

OpenAI 於十月推出了其 ChatGPT Atlas 瀏覽器，安全研究人員紛紛發布演示，展示了只需在 Google 文件中寫入幾個字，就能改變底層瀏覽器行為的可能性。同一天，Brave 發布了一篇部落格文章，解釋了間接提示注入對包括 Perplexity 的 Comet 在內的 AI 驅動瀏覽器來說是一個系統性的挑戰。

OpenAI 並非唯一認識到基於提示的注入不會消失的公司。英國國家網絡安全中心本月早些時候發出警告，稱針對生成式 AI 應用程式的提示注入攻擊「可能永遠無法完全緩解」，這使網站面臨數據洩露的風險。英國政府機構建議網絡專業人士降低提示注入的風險和影響，而不是認為這些攻擊可以被「阻止」。

就 OpenAI 而言，該公司表示：「我們將提示注入視為一個長期的 AI 安全挑戰，我們需要不斷加強我們的防禦措施。」

該公司對這項西西弗斯式的任務的解決方案是什麼？一個主動的、快速響應的週期，該公司表示，該週期在被「在野外」利用之前，已顯示出在內部發現新穎攻擊策略的早期希望。

這與 Anthropic 和 Google 等競爭對手所說的並無太大區別：為了對抗基於提示的攻擊的持續風險，必須採取分層防禦並持續進行壓力測試。例如，Google 最近的工作側重於代理系統的架構和策略級別的控制。

但 OpenAI 採取不同策略的地方在於其「基於 LLM 的自動化攻擊者」。這個攻擊者基本上是 OpenAI 使用強化學習訓練的一個機器人，它扮演駭客的角色，尋找將惡意指令偷偷傳遞給 AI 代理的方法。

該機器人可以在實際使用之前在模擬中測試攻擊，模擬器顯示目標 AI 在看到攻擊時會如何思考以及會採取哪些行動。然後，機器人可以研究該響應，調整攻擊，然後一次又一次地嘗試。這種對目標 AI 內部推理的洞察是外部人員無法獲得的，因此，理論上，OpenAI 的機器人應該比現實世界的攻擊者更快地發現漏洞。

這是 AI 安全測試中的一種常見策略：構建一個代理來發現邊緣案例，並在模擬中快速測試它們。

OpenAI 寫道：「我們經過 [強化學習] 訓練的攻擊者可以引導代理執行複雜的、長期的有害工作流程，這些工作流程會展開數十（甚至數百）個步驟。」「我們還觀察到了一些新穎的攻擊策略，這些策略並未出現在我們的人工紅隊演練或外部報告中。」

一張截圖顯示了 OpenAI 瀏覽器中的提示注入攻擊。

**圖片來源：**OpenAI

在一次演示（部分如上圖所示）中，OpenAI 展示了其自動化攻擊者如何將一封惡意電子郵件植入用戶的收件箱。當 AI 代理稍後掃描收件箱時，它會遵循電子郵件中的隱藏指令，並發送一封辭職信，而不是起草一封外出辦公的回复。但根據該公司稱，在安全更新後，「代理模式」能夠成功檢測到提示注入嘗試並向用戶標記。

該公司表示，雖然提示注入很難做到萬無一失地防禦，但它正在依靠大規模測試和更快的補丁週期來加固其系統，使其在現實世界攻擊中出現之前就變得更加堅固。

一位 OpenAI 發言人拒絕透露 Atlas 的安全更新是否導致成功注入的數量可衡量地減少，但表示該公司自推出以來一直與第三方合作，以加固 Atlas 以抵禦提示注入。

網絡安全公司 Wiz 的首席安全研究員 Rami McCarthy 表示，強化學習是持續適應攻擊者行為的一種方式，但這只是其中的一部分。

McCarthy 告訴 TechCrunch：「理解 AI 系統風險的一種有用的方法是自主性乘以訪問權限。」

McCarthy 說：「代理瀏覽器往往處於該空間中一個具有挑戰性的位置：中度自主性與非常高的訪問權限相結合。」「許多現有的建議都反映了這種權衡。限制登錄訪問主要減少了暴露，而要求審查確認請求則限制了自主性。」

這是 OpenAI 建議用戶降低自身風險的兩項建議，一位發言人表示，Atlas 還經過訓練，在發送消息或進行付款之前會獲得用戶確認。OpenAI 還建議用戶為代理提供具體的指令，而不是讓它們訪問您的收件箱並告訴它們「採取任何必要的行動」。

根據 OpenAI 的說法，「廣泛的自由度使得隱藏或惡意內容更容易影響代理，即使有保護措施到位。」

雖然 OpenAI 表示保護 Atlas 用戶免受提示注入是首要任務，但 McCarthy 對風險較高的瀏覽器的投資回報率表示懷疑。

McCarthy 告訴 TechCrunch：「對於大多數日常用例而言，代理瀏覽器尚未提供足夠的價值來證明其當前的風險狀況是合理的。」「由於它們能夠訪問電子郵件和支付信息等敏感數據，因此風險很高，儘管這種訪問權限也是它們強大的原因。這種平衡將會發展，但今天權衡仍然非常真實。」

— Techcrunch

你的個人知識庫

OpenAI承認AI瀏覽器可能永遠無法擺脫提示注入攻擊的威脅