Anthropic 可能未能履行其 RSP 安全承諾

Lesswrong·5 個月前

我認為 Anthropic 可能違反了其負責任擴展政策（RSP），因為其模型權重託管於第三方雲端供應商，導致其無法抵禦來自這些合作夥伴的企業間諜攻擊。既然 Anthropic 承諾要具備對抗此類攻擊的韌性，卻又缺乏對這些資料中心的實體控制權，我認為他們顯然未能達到自己設定的 ASL-3 安全標準。

重點摘要： 一家 AI 公司的模型權重安全性，頂多只能與其算力供應商的安全性持平。Anthropic 已承諾（雖然措辭有些模糊，但我認為模糊空間不大）能夠抵禦來自託管其權重之公司的企業間諜團隊的攻擊。然而，Anthropic 似乎不太可能具備抵禦這些攻擊的韌性。因此，他們可能違反了其負責任擴展政策（RSP）。

註：Anthropic 的副首席資訊安全官（Deputy CISO）Jason Clinton 在本貼文下留了一段筆記。我不確定該如何解讀，但這可能是很有價值的背景資訊。

背景：我在 1-2 個月前與 Anthropic 分享了（大約）這份報告。Zach Stein Perlman 也在 2 個多月前在他的簡短動態中對此發表了公開評論。

Anthropic 承諾具備抵禦企業間諜團隊攻擊的韌性（這包括 Google、Microsoft 和 Amazon 的企業間諜團隊）

摘自 Anthropic RSP：

當模型必須符合 ASL-3 安全標準時，我們將評估所實施的措施是否能讓我們在面對大多數攻擊者竊取模型權重的企圖時受到高度保護。

我們考慮的範圍包括：駭客行動主義者、犯罪駭客組織、有組織的網路犯罪集團、恐怖組織、企業間諜團隊、內部員工，以及使用廣泛且非針對性技術（即非新型攻擊鏈）的國家資助計畫。

[...]

我們將實施強而有力的控制措施以減輕基礎內部風險，但認為減輕來自資深或受國家收買的內部人員風險超出了 ASL-3 的範圍。我們將「基礎內部風險」定義為：來自無法持續或限時訪問處理模型權重系統的內部人員的風險。我們將「資深內部人員風險」定義為：來自擁有持續訪問權限，或可以請求限時訪問處理模型權重系統的內部人員的風險。根據我的理解，RSP 承諾 Anthropic 能抵禦來自企業間諜團隊（如上述列表所示）的攻擊者。

RSP 提到「內部人員」是一類 Anthropic 承諾較低防禦韌性的人群，但並未完全定義該術語。我交流過的每個人都將「內部人員」解讀為「在 Anthropic 工作的人」。我認為如果將「內部人員」擴大到包括「在我們合作的任何組織中工作、且擁有處理模型權重系統持續訪問權限的任何人」，那就太牽強了。因此，我認為很明顯「內部人員」並不打算包括例如 Amazon AWS 的員工或 Google 的員工。

Claude 也同意這種解釋：https://claude.ai/share/b7860f42-bef1-4b28-bf88-8ca82722ce82

有人可能會辯稱，Google、Microsoft 和 Amazon 應基於「高度複雜的攻擊者」豁免條款而被排除在外：

以下群體不在 ASL-3 安全標準的範圍內，因為進一步的測試（如下所述）應確認該模型不會顯著增加他們造成傷害的能力：專門針對我們的國家資助計畫（例如，透過新型攻擊鏈或內部人員收買），以及少數（約 10 個）擁有國家級資源或支持、且有能力開發利用 0-day 漏洞之新型攻擊鏈的非國家行為者。與我交流的多位人士認為這極不可能。這些攻擊不會是由國家支持的，不需要開發利用 0-day 漏洞的新型攻擊鏈，而且如果你將 Amazon 和 Google 列入這份非國家行為者名單，似乎很難將擁有同等或更高網路安全攻擊能力的組織總數限制在「約 10 個」以內。

同樣地，Claude 也表示同意：https://claude.ai/share/a6068000-0a82-4841-98e9-457c05379cc2

受 ASL-3 安全要求保護的 Claude 權重被運往許多 Amazon、Google 和 Microsoft 的資料中心

基於 Claude 在廣泛的 AWS 區域可用，出於推論目的，Claude 的權重似乎被運往了大量的 Amazon 資料中心。

同樣地，基於 Claude 在廣泛的 Google Cloud 區域可用，權重被運往了大量的 Google 資料中心。

此外，基於剛宣布的 Claude 在 Microsoft Foundry 上的可用性，權重被運往了大量的 Microsoft 資料中心。

這強烈表明 Claude 的權重是在普通且正常的 Google、Amazon 和 Microsoft 資料中心進行處理的，而沒有採取例如高安全性政府雲端（high-security governance clouds）那種廣泛的預防措施。

舉例來說，我認為 Anthropic 极不可能擁有攝影機訪問權限，或能直接訪問可驗證且不可篡改的存取日誌，以確認誰實際接觸了所有託管 Claude 權重的推論機器（即使他們有，也幾乎沒有能力確認機器的路由和物理設置，以確保他們在伺服器的物理位置、攝影機覆蓋範圍或存取日誌的準確性方面沒有被欺騙）。

這意味著只要 Amazon、Microsoft 或 Google 的高層主管同意，他們的企業間諜團隊將對託管權重副本的 Claude 推論機器擁有幾乎不受限的物理訪問權限

我認為上述內容暗示，如果企業間諜團隊接到高層主管的命令（這在企業間諜團隊行動時通常是常態）去提取 Claude 的權重，他們將對託管權重的機器擁有幾乎不受限的物理訪問權限，例如透過對存取日誌進行微小修改，或在為新實例配置時將網路流量重新導向到另一台機器等，至少在 Amazon 和 Google 運行的其中一個資料中心是如此。

憑藉不受限的物理訪問權限，Amazon、Microsoft 或 Google 的專業企業間諜團隊可以毫不費力地從推論機器中提取權重

如果你能對機器進行不受限的物理訪問，要防止權限提升或至少獲取其記憶體轉儲（memory dumps）是極其困難的。Anthropic 在這份報告中寫了一些關於如何使其趨於不可能的措施：https://assets.anthropic.com/m/c52125297b85a42/original/Confidential_Inference_Paper.pdf

報告中的大多數內容目前並非資料中心的標準做法，且報告的框架（以及發布時機）在我看來表明，Anthropic 使用的資料中心並未完全符合 Anthropic 所要求的建議。

綜上所述，這意味著 Anthropic 違反了其最新的 RSP

鑑於 RSP 承諾 Anthropic 能抵禦來自非少數國家支持或極其資深駭客團隊的企業間諜團隊攻擊，那麼 Amazon 和 Google 的企業間諜團隊目前可以毫不費力地（儘管面臨巨大的商業和聲譽風險）提取 Claude 權重這一事實，將使 Anthropic 處於違反其 RSP 的狀態。

需要澄清的是，我不認為這是一個多麼魯莽的選擇（我甚至不知道我是否認為 Anthropic 擁有良好的安全性對世界是有利還是有害的）。在我看來，這僅僅是 RSP 所寫的承諾與 Anthropic 的實際做法似乎互不相容。

結語

我個人的推測是，從今天開始，隨著 Anthropic 宣布與 Microsoft 和 Nvidia 合作在 Microsoft 資料中心託管 Claude，Anthropic 實際上更嚴重地違反了其 RSP。現在不僅 Google 和 Amazon 的團隊在獲得高層授權後可以獲取 Claude 權重，我猜測許多不具備國家級能力的行為者現在也能獲取 Claude 的權重。

這是因為，據我了解，Microsoft 資料中心的安全性通常被認為明顯遜於 Google 或 Amazon，這至少讓我產生了實質性的懷疑，即更廣泛的攻擊者有能力突破那些防禦。

我對此並非十分確信，這也是為什麼我將其放在結語中。Miles Brundage 對此表示擔憂，這促使我整理了上述內容（原先是我發給一位 Anthropic 員工的訊息）以供公開閱覽。過去幾個月的預設軌跡似乎是 Anthropic 在削弱而非加強其對外部攻擊者的防禦韌性，因此發布此文顯得更為緊迫。

關於此話題先前的討論可以在 Zach 的這篇簡評中找到。

— Lesswrong