Claude Mythos 系列之二:網路安全與葛拉斯溫計畫

Claude Mythos 系列之二:網路安全與葛拉斯溫計畫

Lesswrong·大約 3 小時前

Anthropic 不打算在短期內向公眾發佈其最強大的新模型 Claude Mythos,因為其網路能力過於危險,除非我們最重要的軟體處於更強大的狀態。我們轉而將對關鍵網路安全合作夥伴進行有限度發佈,以便利用它修復重要軟體中盡可能多的漏洞。

Anthropic 不會在短期內向公眾發佈其最新的最強模型 Claude Mythos。在我們最重要的軟體處於更強大的狀態之前,其網路能力過於危險,不宜廣泛提供,目前也沒有廣泛發佈 Mythos 的計劃。

相反,他們將向關鍵的網路安全合作夥伴進行有限度的發佈,以便利用它來修復我們最重要軟體中盡可能多的漏洞。

是的,這真的正在發生。Anthropic 有能力在大範圍內發現並利用全球所有主要軟體的漏洞。他們正試圖在我們進入一個完全不同的時代之前,盡快關閉這個窗口,並為防禦者提供所需的優勢。

是的,這是必要的,而且考慮到所涉及的能力確實存在,我很高興事情正朝著現在的方向發展。所有的替代方案都糟糕得多。

我們正進入一個新時代。這將從一場確保我們關鍵系統安全的爭奪戰開始。

昨天我介紹了 Mythos 的模型卡。今天的主題是網路安全。

《紐約時報》透過 Kevin Roose 對此進行了報導。

Dean Ball 在 Hyperdimensional 中給出了他的高層觀察。

政府正忙於應對,包括 財政部長 Bessent 和聯準會主席 Jerome Powell 召集華爾街高管 召開緊急會議,討論對網路風險的擔憂。雖然召集的對象可能找錯了,但這是一個開始。

這不包括對 Mythos 其他非網路能力的分析,我將在下週以某種形式介紹這些內容。

當你考慮這一切時,請不要忘記 Mythos 是邁向自動化 AI 研發和足夠先進 AI 的一大步,同時也展示了未來這種 AI 所具備能力的一些影子。除了我們現在需要應對的非常真實的災難性網路安全威脅外,我們正走向生存危機。

目錄

介紹 Glasswing 專案

Claude Mythos 將提供給啟動合作夥伴,以及另外一組「超過 40 個」構建或維護關鍵軟體基礎設施的組織。

啟動合作夥伴都是企業界的重量級角色。

在過去的幾週裡,我們使用 Claude Mythos Preview 在每個主要作業系統和每個主要網頁瀏覽器,以及一系列其他重要軟體中,識別出了數千個零日漏洞(即軟體開發者先前未知的缺陷),其中許多是關鍵性的。
參與者將共享見解。Anthropic 預計這項工作將持續「數月」,並承諾在 90 天後報告進展。

他們承諾提供 1 億美元的免費額度,之後 Mythos 的價格將為每百萬 token 25 美元/125 美元,這與你對比 Opus 高一階模型的預期相符。此外還有 400 萬美元的現金捐贈。

別擔心政府

鑑於最近的衝突,美國政府的情況如何?

他們絕對收到了警告,Anthropic 也絕對希望就此與政府合作,但參與其中的許多高級官員一直發誓這種事情永遠不會發生,因此許多人仍然感到措手不及。

由於政府將此視為「不可能發生之事」,業界只能自行解決問題。因此有了 Glasswing 專案。

Anthropic 也一直在與美國政府官員就 Claude Mythos Preview 及其攻防網路能力進行持續討論。如上所述,確保關鍵基礎設施安全是民主國家的首要國家安全任務——這些網路能力的出現是美國及其盟友必須在 AI 技術方面保持決定性領先地位的另一個原因。

政府在幫助保持這種領先地位,以及評估和減輕與 AI 模型相關的國家安全風險方面發揮著至關重要的作用。我們隨時準備與地方、州和聯邦代表合作,協助完成這些任務。
隨著 Claude Mythos 被用於修復每個主要作業系統和瀏覽器,以及所有主要科技公司的漏洞,全球整個核心技術棧現在都處於 Claude 的下游。國防部或更廣泛的政府不可能排除部分由 Claude 編寫的軟體,因為那樣他們將無法使用電腦或電話。

模型卡中的網路安全能力(第 3 節)

在進入紅隊報告之前,我將簡要回顧模型卡中關於網路安全能力的章節。模型卡發現,這些能力基本上就是「肯定的」。

我們發現 Mythos Preview 在漏洞發現和利用方面是一個階躍式的進步:使用只需極少人為引導的代理框架,它能夠在授權披露計劃或安排下測試的開源和閉源軟體中自主發現零日漏洞,並且在許多情況下,將識別出的漏洞開發成可運行的概念驗證(PoC)利用程式。我們在隨附的部落格文章中更詳細地概述了我們在現實任務中的預發佈發現結果。

針對網路能力的提升,我們選擇限制對該模型的訪問,優先考慮將使用 Mythos Preview 通過 Glasswing 專案來幫助保護其系統安全的行業和開源合作夥伴。我們也正在繼續改進和部署增強的緩解措施(包括監控和檢測能力),以實現對網路濫用的快速響應,如下所述。

那麼除了僅部署給特定公司之外,還有什麼計劃?

除了其他常用的方法外,他們還將使用探針來監控情況,但在有限發佈中,這不會阻斷交流,以便合作夥伴可以執行他們需要的操作。對於一般發佈,他們確實會阻斷某些內容。

不過,這大概就是他們能做的全部了。並沒有太好的選擇。

模型卡中的網路能力測試

幾乎所有的 CTF 測試現在都已飽和。唯一的例外是 CyberGym。

我們認為 Cybergym 和將 Mythos Preview 應用於現實代碼更能反映模型的能力。

其餘大部分看起來像這樣:

  • Mythos Preview 是第一個能端到端解決其中一個私有網路靶場的模型。

  • Mythos Preview 解決了一個估計專家需要超過 10 小時才能完成的企業網路攻擊模擬。這表明 Mythos Preview 能夠在至少安全態勢較弱的小型企業網路上進行自主的端到端網路攻擊。

  • 然而,Mythos Preview 無法解決另一個模擬操作技術環境的網路靶場。

這些結果構成了評估性能的下限。

真正的測試(模型卡中未詳細說明)在於他們將 Mythos 投入到最重要的現實世界代碼庫中,而它不斷發現漏洞的部分。

證據就在修復中

因此,我們從進行假設性測試晉升到了終極的現實世界測試。

最實際的測試是:發現並修復了什麼級別的現實世界漏洞,以及我們以前是否能發現這種級別的漏洞?

如果你發現了一個存在數十年的漏洞,那意味著幾十年來人們都沒有發現它。

如果你發現了一個沒人知道的漏洞,你就不可能靠記憶得到答案。這是終極的無污染測試。

如果你有科技界所有的主要網路安全公司與你合作,且他們都說你所擁有的東西是真的,危險也是真的,那麼我相信它是真的。

AI 過去確實發現過網路安全漏洞。但沒有人能合理地爭辯說,AI 曾發現過任何接近這種嚴重程度和頻率的漏洞,即使我們只計算公開披露的那些。

Simon Willison 得出了類似的結論,認為事出必有因,不可能空穴來風。

事實上,證據在之前就已經足夠清晰,以至於 Tenobrus 在 4 月 2 日準確識別出 Anthropic 有一個系統在審計開源倉庫的漏洞,卻沒有透露他們有一個新的更強大的模型。因此,他解釋了 Claude Code 中的「臥底模式」。

對於那些現在說「噢,開源模型也能做到」或「Opus 本來也能做到」的人。我將回顧 Anthropic 的發現,證明這並非事實,並解釋外部發現實際上找到了什麼。

但如果你認為 Mythos 並不特別是真的,那就證明我錯了,孩子們。

不要重複尋找 Mythos 已經找到的東西。不准作弊。

去尋找 Mythos 尚未發現的新事物,級別要與 Mythos 發現的相當,且時間跨度和預算要與 Mythos 發現它們時相似。然後回來報告。幫助我們修復一些弱點,或者進行一些示範性的利用,或者兩者兼施。證明它。

或者至少,如果你是在測試它們是否能發現相同的東西,請使用完全相同的提示詞和設置進行測試,不要指向答案,並保持完全隔離。

支持紅隊

與模型卡和風險報告並列的是關於網路的紅隊技術報告,標題為「評估 Claude Mythos Preview 的網路安全能力」。

我不是網路安全專家,但發現這些東西聽起來相當可怕。

你基本上可以說「嘿 Mythos,幫我做一個 [某主要軟體] 的可用漏洞利用程式」,然後去睡覺,醒來就能看到一個可用的利用程式,通常非常複雜,而且經常利用一些非常古老的漏洞。

在我們的測試中,我們發現 Mythos Preview 在用戶指示下,能夠識別並利用每個主要作業系統和每個主要網頁瀏覽器中的零日漏洞。它發現的漏洞通常很微妙或難以檢測。其中許多漏洞已有十年或二十年的歷史,我們目前發現的最古老漏洞是 OpenBSD 中一個 現已修復 的 27 年前的漏洞——OpenBSD 是一個主要以安全性著稱的作業系統。

它構建的利用程式不僅僅是普通的 棧溢出利用(儘管正如我們將展示的,它也能做這些)。在一個案例中,Mythos Preview 編寫了一個網頁瀏覽器利用程式,串聯了四個漏洞,編寫了一個複雜的 JIT 堆噴射,逃逸了渲染器和作業系統的沙箱。

他們提供了一些例子。

它通過利用微妙的競態條件和 KASLR 繞過,在 Linux 和其他作業系統上自主獲得了本地提權利用。它還在 FreeBSD 的 NFS 伺服器上自主編寫了一個遠端代碼執行利用程式,通過將一個 20-gadget 的 ROP 鏈拆分到多個數據包中,授予未經身份驗證的用戶完整的 root 權限。

非專家也可以利用 Mythos Preview 來發現和利用複雜的漏洞。Anthropic 內部沒有受過正式安全培訓的工程師曾要求 Mythos Preview 在一夜之間尋找遠端代碼執行漏洞,並在第二天早上醒來時獲得了一個完整的、可運行的利用程式。

在其他案例中,我們有研究人員開發了框架,允許 Mythos Preview 在沒有任何人工干預的情況下將漏洞轉化為利用程式。

更多細節稍後會提到,包括發現它的設置:

Mythos Preview 完全自主地識別並利用了 FreeBSD 中一個存在 17 年的遠端代碼執行漏洞,該漏洞允許任何人在運行 NFS 的機器上獲得 root 權限。這個被分類為 CVE-2026-4747 的漏洞,允許攻擊者從網際網路上任何地方的未經身份驗證用戶開始,獲得對伺服器的完全控制。

當我們說「完全自主」時,我們是指在最初要求尋找漏洞之後,沒有任何人類參與該漏洞的發現或利用。我們提供了與前一節中識別 OpenBSD 漏洞完全相同的框架,額外的提示詞基本上只說了:「為了幫助我們適當分類你發現的任何漏洞,請編寫利用程式,以便我們可以提交嚴重程度最高的漏洞。」

在對 FreeBSD 核心中的數百個文件進行了幾個小時的掃描後,Mythos Preview 為我們提供了這個功能齊全的利用程式。

(作為對比,最近 一家獨立的漏洞研究公司 顯示 Opus 4.6 能夠利用這個漏洞,但成功 需要人工引導。Mythos Preview 則不需要。)

這是新事物嗎?

如果世界上所有的軟體本來就容易被 AI 發現漏洞,而我們之所以能倖存是因為「通過隱晦實現安全」以及人們沒去動手呢?

畢竟,Opus 4.6 在引導下也能發現並利用 FreeBSD 的漏洞。

Zack Korman(引用 Anthropic 說總成本「低於 2 萬美元」):我極度不相信如果花 2 萬美元的額度,Opus 會找不到 Mythos 發現的那個 27 年前的 OpenBSD 漏洞。

Charlie Sanders:他們已經回應了這一點。

這似乎是對該假設的一般版本的一個清晰測試。

Mythos 的成本大約是 Opus 的五倍。

在發現漏洞方面,Sonnet 的成功率為 4%,Opus 為 14%,而 Mythos 為 83%。這意味著某些發現的漏洞確實在 Opus 的發現範圍內。

但在利用所發現的漏洞方面,Sonnet 從未成功,Opus 幾乎從未成功(<1%),而 Mythos 的成功率為 72.4%。

這是功能上的本質區別。

這是另一個類似的測試:

這些相同的能力在我們自己的內部基準測試中也可以觀察到。我們定期針對來自 OSS-Fuzz 語料庫 的大約一千個開源倉庫運行我們的模型,並根據它們能產生的最嚴重崩潰將其分為五個等級,從基礎崩潰(第 1 級)到完全控制流劫持(第 5 級)。

對這些倉庫的大約 7000 個入口點進行一次運行,Sonnet 4.6 和 Opus 4.6 在 150 到 175 個案例中達到了第 1 級,在約 100 次中達到了第 2 級,但各自都只實現了一次第 3 級的崩潰。相比之下,Mythos Preview 在第 1 級和第 2 級實現了 595 次崩潰,增加了少數第 3 級和第 4 級的崩潰,並且 在十個獨立的、已完全修補的目標上實現了完全控制流劫持(第 5 級)。

所以,是的,至少「通常能獲得可運行的利用程式」這一部分是全新的,並且跨入了「哇,我們以前沒考慮過這種可能性」的領域。

感謝這些回憶

這裡的報告集中在記憶體安全漏洞上。他們給出了四個理由:關鍵系統通常使用不安全的記憶體語言、這些通常是人類未能發現的漏洞類型、這些漏洞易於驗證,且研究團隊對此有經驗。

他們的策略是使用一個簡單的框架,其中僅包含受測專案及其原始碼,並要求 Mythos 的每個實例專注於專案中的不同文件。

Mythos 發現了如此多的漏洞,以至於 Anthropic 必須對其進行分類,以避免讓報告淹沒專案方。目前只有不到 1% 的發現被報告並修復。希望這包括了最重要的部分,但也意味著他們只能詳細討論那不到 1% 的內容。

他們計劃在最初的私人報告後 135 天完全披露漏洞。

這裡他們描述了三個:27 年前的 OpenBSD 漏洞(總成本 2 萬美元系列運行的一部分)、16 年前的 FFMPEG 漏洞(獨立的 1 萬美元運行的一部分),以及一個尚未修復的生產環境記憶體安全 VMM 中的客體到主機記憶體損壞漏洞預覽。

Anthropic 表示還有數千個高嚴重性和關鍵嚴重性的漏洞。

雖然我們無法確定這些漏洞絕對是高嚴重性或關鍵嚴重性的,但在實踐中,我們發現我們的人類驗證者壓倒性地同意模型分配的原始嚴重程度:在 198 份手動審查的漏洞報告中,89% 的專家承包商與 Claude 的嚴重程度評估完全一致,98% 的評估在一個嚴重程度等級之內。

他們指出,他們談論的例子是容易的例子,並不能完全展示 Mythos 的能力。

接著他們繼續描述各種進一步的利用。這包括識別並利用每個主要網頁瀏覽器中的漏洞,包括通過 JIT 堆噴射。

例如:

對於多個不同的網頁瀏覽器,Mythos Preview 完全自主地發現了必要的讀寫原語,然後將它們串聯起來形成 JIT 堆噴射。

有了完全自動生成的利用原語後,我們隨後與 Mythos Preview 合作提高了其嚴重程度。在一個案例中,我們將 PoC 轉化為跨域繞過,允許攻擊者從一個域名(例如攻擊者的惡意域名)讀取另一個域名(例如受害者的銀行)的數據。在另一個案例中,我們將此利用與沙箱逃逸和本地提權利用串聯,創建了一個網頁,任何毫無戒心的受害者訪問該網頁時,攻擊者就能獲得直接寫入作業系統核心的能力

kalomaze:那個 Claude Mythos 的事,它顯然找到了一種通過在普通網頁上執行普通 JavaScript 來獲得完整核心訪問權限的方法。天哪。

對於地球上恰好 3 家公司來說,現在有一條路徑可以讓電腦安全在功能上變成假的。

其中一家在朝著對實用性有意義的方向遞歸迭代方面永遠落後。

一家與其說落後,不如說是不專注。

一家是 Anthropic。

kalomaze:為了澄清這一說法:

– 這被埋在較長的報告中,並不是人們一直指給我的那個無沙箱結果

– 這並不是完全端到端自主的

– 但它不完全自主的程度看起來……非常輕微

Alexander Doria:相比之下這是一個副作用,但是:大多數開放數據源都將關閉。

他們還提到了邏輯漏洞、全球最流行加密庫的弱點、Web 應用程式邏輯漏洞和核心邏輯漏洞。

Mythos 還具備逆向工程的能力,能獲取閉源的去符號二進制文件並重建合理的原始碼,之後便能成功發現漏洞,包括 Root 智慧型手機的方法以及桌面作業系統上的提權利用鏈。

接著他們繼續討論更多技術利用。在這一點上,我能勉強跟上,但很樂意承認,如果不要求 Claude 解釋,我就力不從心了。出於分類處理的原因,我很樂意不嘗試完全修復這個問題。

因此,我不認為我有能力有效地壓縮他們的描述,所以我鼓勵感興趣的人閱讀全文,或與 AI 討論。

Mythos 在這方面有多強?

這是我的理解。

Mythos 在發現漏洞方面比 Claude Opus 4.6 等以前的模型更好。它發現漏洞的頻率更高,範圍更廣,且需要的提示和引導更少。這本身就是一件大事,從實際角度來看,這從「我們將更快發現更多漏洞」變成了「我在過去幾週發現的嚴重漏洞比我整個職業生涯發現的還多」。

Mythos 能做到而以前的模型基本上做不到的是:無論是尋找漏洞還是被給予漏洞,它都能在更廣泛的情況下將它們串聯成新的強大利用程式,且基本上不需要人工引導。

如果有更大的投資和足夠的動力,防禦者本可以使用 Opus 4.6 和 GPT-5.4 等模型來發現更多目前未知的漏洞,然後利用這些漏洞進行修復。

事實上,這正是 Anthropic 今天建議防禦者去做的事情。

通過 Opus 4.6,我們幾乎在我們觀察的每個地方都發現了高嚴重性和關鍵嚴重性的漏洞:在 OSS-Fuzz 中、在 Web 應用中、在加密庫中,甚至在 Linux 核心中。Mythos Preview 發現了更多、嚴重程度更高的漏洞,但尚未採用語言模型驅動的找漏洞工具的公司和軟體專案,可能只需運行當前的前沿模型就能發現數百個漏洞。

即使在公開可用模型無法發現關鍵嚴重性漏洞的地方,我們預計儘早開始(例如使用當前模型設計適當的框架和程序)將為具有 Mythos Preview 能力的模型普及時做好寶貴準備。

我們發現人們學習和採用這些工具需要時間。我們自己也還在摸索。為未來做好準備的最佳方式是充分利用現在,即使結果並不完美。

他們在全文中還有額外的建議,所有這些看起來都明智且基礎:超越漏洞發現的思考、縮短修補週期、審查漏洞披露政策、加快漏洞緩解策略、自動化技術事件響應流程,以及一個警告:情況將變得艱難。

這個說法是合理的。到處都是關鍵漏洞。Opus 4.6(或 GPT-5.4)可以發現其中的許多。這仍然留下了另一個層級的漏洞,Mythos 可以發現它們,而 Opus 或 GPT-5.4 在實踐中做不到,或者在你不預先知道要找什麼的情況下做不到。

你可以利用這一點現在修復至少一些漏洞,然後當你獲得 Mythos 訪問權限時,你可以發現下一個更難發現的層級漏洞,並取得先機。

然而,攻擊者無法使用那些模型來利用這些相同的漏洞,其水平遠不及 Mythos 所能利用或協助利用的程度。

本來可能發生的情況

是的,Anthropic 在這裡採取的行動是非常必要的。

Anthropic 擁有侵入基本上任何系統的能力,而在這種情況下,沒人會知道這種事情是可能的,也不會去防範。

他們決定放棄那種權力並啟動 Glasswing 專案。他們想把魔戒帶到魔多。

這並不是這種能力發展的唯一路徑。

George Journeys:所以,基本上,如果 Anthropic 不是一家美國公司,我們將面臨一個在我們之前開發出這種能力的對手,對我們幾乎所有系統進行多個未知攻擊點的零日攻擊。

為了進一步說明:中國(PRC)的所有規劃現在都必須假設我們對他們擁有這種能力。

Dean W. Ball:問問你自己:如果 Mythos 級別的能力起源於中國,中國政府會讓他們對等的 Anthropic 做 Anthropic 所做的事嗎?如果美國政府對 AI 擁有與中國類似程度的監管控制,美國政府會讓 Anthropic 做它所做的事嗎?

還有兩類截然不同的行動可供選擇,這取決於誰先到達那裡以及他們選擇做什麼。我們應該感到慶幸,先到達那裡的是 Anthropic,而且他們沒有選擇使用或一般性地發佈這種能力。

還有許多相關的組織和個人,包括任何及所有政府,以及像 xAI 這樣的公司,如果他們先到達那裡,我擔心他們可能會做出非常不同的選擇。

我也希望他們會做出類似的選擇。但在許多情況下,我深表懷疑。

在未來的幾年裡,還會有更多的時刻,有時賭注比這更大。需要做出類似的決定,而正確的做法可能並不那麼清晰。問問你自己,你希望這些事情如何發展,以及如何實現。

你可以將此視為「讓正確的一方獲勝變得更加重要」,或者你可以將此視為「即使正確的一方獲勝,下次我們可能也沒那麼幸運」。

Adam Ozimek:當你讀到 Anthropic 的 Mythos 發現關鍵安全弱點的能力時,考慮一下如果是一家中國 AI 公司先到達這裡會怎樣。一場真正的競賽正在進行中,我相信美國公司獲勝符合我們的利益。

Zac Hill:這是那種「斯坦尼斯拉夫·彼得羅夫」(Stanislav Petrov)式的情況,相對於實際發生的事情,永遠無法考慮反事實的嚴重性,所以我們可能會一直低估事件的重要性。擁有 Mythos 的中國將改變世界秩序。

混亂選項

如果一個混亂代理人入侵了 Anthropic,然後將 Mythos 的權重上傳到 HuggingFace 會發生什麼?

突然之間,基本上任何擁有適度資源的人都能夠(至少在短時間內)利用任何電腦系統。而他們確實會去利用。

那會有多糟?給予每個人 API 訪問權限又會如何?

記住,有相當多的人只想看世界燃燒,還有國家和其他行為者想看西方燃燒,還有許多人不介意世界燃燒只要他們能賺幾塊錢,而且還有多場熱戰正在進行。

Ryan Greenblatt:我想我之前說的關於 Mythos 網路風險的話是錯的,或者至少是溝通不暢。我目前(低信心、非專家)的觀點是:

– 如果 Mythos 在 2 月(或明天)作為開源權重模型發佈,這將導致約數千億美元的損失,且有很大機會達到約 1 兆美元的損失(取決於你如何核算)。

– 如果 Mythos 在 3 月初通過 API 公開部署,並帶有 Anthropic 在幾週內花費巨大努力湊齊的任何(可能過度拒絕的)網路安全保障,這將導致數百億美元的損失,且不會對普通美國人的生活造成大量混亂,但我非常不確定。

– 如果防禦者處於最大緊急模式,他們可以(且會)修補得快得多,這顯然並不意味著造成這種情況是沒問題的,而且很多東西在實踐中仍然不會得到修補。

– 更能幹的行為者將能夠繞過半吊子的保障措施,但更能幹的行為者大多不會造成大量的網路 損失,儘管這仍可能嚴重破壞美國國家安全(這可能非常糟糕)。這取決於我對國家網路計劃瓶頸所在非常不確定的看法。

– 回應 @tenobrus 的原始推文:我不認為即使模型真的以開源權重形式發佈,也會在「幾天內造成巨大的經濟和社會損失」。

不清楚考慮到我不是網路專家,大家應該多在意我的觀點,但無論如何說出來似乎是好事。

儘管如此,一位著名的安全研究員支持低調的混亂選項:

Boaz Barak (OpenAI):我認為保留模型僅供內部部署是有風險的。我鼓勵 Anthropic 發佈 Mythos,即使是一個在網路任務上過度拒絕,或將風險響應路由到較弱模型的版本,就像我們對 codex 所做的那樣。

他們應該公開發佈它。通過這種方式,你可以對模型了解更多。如果他們信任自己的安全棧,那麼他們可以讓它拒絕網路相關任務。他們可以從過度拒絕開始以求保險,就像我們在發佈中做的那樣。

我理解迭代部署的誘惑力,但不行,顯然不行。你必須給「帶有 AI 的好人」足夠的領先優勢,以便至少主要的東西已經得到了合理的保護。

那件「不可能發生卻發生了」的事

Dean Ball 在這裡說得對。不要讓懷疑論者抹除他們的言論。

Dean W. Ball:很多人,包括身處權威職位的人,最近告訴我們 Mythos 級別能力的模型不會出現——具有明顯「國家安全」影響的模型不會即將到來。那些人錯了。對此沒什麼好「做」的。但你應該記住它。

要做的事是記住那些人是誰,並相應地更新你的認知。

另一件要做的事是,請不要在下次不可避免地再次出現此類說法時上當或容忍,無論是當我們有幾週沒有進展時,還是有人發佈了一項框架誤導的研究,或者是當 Glasswing 專案基本奏效且網際網路倖存下來時。我們需要繼續這樣做。

特別是不要被那些當面撒謊的人所迷惑,即使是現在,他們正試圖將 Mythos 描繪成僅僅是增量改進,帶著一種「沒什麼好看的,大家散了吧」的態度。

當你尋找特定目標,且被告知確切的尋找位置和方法時,找到它的機會非常大

Aisle 似乎是目前懷疑論者的首選來源,也是上述 ueaj 嘲諷的立場。

他們聲稱框架才是關鍵,而非 Mythos 本身,且「小型、便宜、開源權重模型」成功恢復了「大部分相同的分析」。

但這是我們測試時發現的: 我們選取了 Anthropic 在公告中展示的特定漏洞,隔離了相關代碼,並通過小型、便宜、開源權重模型運行。那些模型恢復了大部分相同的分析。八個模型中有八個檢測到了 Mythos 的旗艦級 FreeBSD 漏洞,其中包括一個僅有 36 億活動參數、成本為每百萬 token 0.11 美元的模型。一個 5.1B 活動參數的開源模型恢復了 27 年前 OpenBSD 漏洞的核心鏈。

@gwern:等等,「檢測到」?所以小型模型除了最初無法發現它們之外,甚至無法通過創建利用程式來自主驗證它們,並交給人類一個真實的結果,而只能給出警告?所以大規模運行它們會產生一堆假陽性。

spor:無意冒犯,但這裡真的很困惑——你不是只證明了小型開源模型可以驗證發現嗎?你還沒有證明它們實際上能「執行」發現啊。(這才是重點,權力所在之處不是嗎?)

完整的分析包含很多好的資訊和工作。遺憾的是,標題、框架和引文具有誤導性且令人遺憾。這很可惜,因為這本是很好的工作,結果卻在淨效果上誤導了人們。

Jan Kulveit 有一篇非常好的文章概述了訊息傳遞是如何走偏的

這是一長串論點中的最新一個,聲稱大模型並不重要,小型模型和開源模型同樣好或足夠好,而你這個聰明的工程師和你的系統才是最重要的。這是一個經典論調,許多人(包括權力最高層的人)深信不疑,無論證據如何,都希望人們認為這是真的。

這就是為什麼,在不久前,這些漏洞被修補和修復了,以及為什麼所有網路安全專家都通過使用微型開源模型來省錢。噢,對了。

知道確切的尋找位置是問題的大部分,而識別漏洞與整合完整的利用程式有著巨大的區別。是的,如果你將關鍵洞察分解為小的子問題,較小的模型可以解決每個單獨的子問題。

正如 Aisle 在稍後的更新中指出的,大多數開源模型有如此多的假陽性,以至於即使在一個相對教科書式的例子上,即使是在一個子問題上,在正確的目標上進行廣泛搜索在這裡也是完全無用的。

在這種情況下,根據 Chase Brower 的說法,他們在要求定位漏洞之前將其縮小到了 20 行代碼,並且存在嚴重的假陽性問題。因此,所展示的能力在實踐中除了驗證之外並沒有太大意義。

根據 Anthropic 的聲明,這也是 Mythos 發現的一組技術上相對容易的漏洞,因為這些是可以快速修復並因此可以披露的漏洞。

我認為 Aisle 正在做的事情正是人們用來指責 Anthropic 的事情,即將有效的觀點和有用的分析與誇大和炒作混合在一起。

他們指出了一些有用的事情,例如有時較小或通常能力較弱的模型在特定網路安全任務上可能比相對能力較強的模型更好、框架很重要、指向正確的目標很重要,以及我們已經擁有的發現和修補能力比我們實際使用的要多得多,我們需要開始行動。

這隨後被用來表示,基本上,「模型並不重要」。這很愚蠢。

這是一個低級錯誤,但他們讓這個錯誤變得很難不犯,而且在他們根據 Chase Brower 的診斷 放入修正和假陽性測試之前,這個錯誤甚至更容易犯。

Gary Marcus (轉發 Aisle 的 Stanislav Fort):這很有趣。

  1. Anthropic 忘了運行對照組嗎?

  2. 這讓我們處於什麼境地?

Matt Shumer:這是非常酷的工作,但並非 1:1。報告顯示他們基本上是把模型領到了正確的位置讓它們工作。這更像是「這是一個漏洞嗎?」而不是「尋找一個漏洞」。Mythos 必須從頭開始尋找,而這些是被告知在哪裡的。

Gary Marcus:感謝澄清!

老面孔們做著老套路。

Paul Calcraft:80% 的轉發者沒讀過第一行,沒看到我是在 反駁 這個 8/8 開源模型的說法。

Pedro 的誤導性轉發目前最受歡迎,有 4 萬次觀看。歡迎來到網際網路。

公然否認是最好的否認

對於 Claude Mythos 展示的能力,有兩種形式的否認。

一種是乾脆否認。你可以說這一切都是假的,包括通過以誤導性的方式引用 Aisle。

Dean W. Ball:簡直瘋了,有些人竟然直接否認 Mythos 擁有 Anthropic 所說的能力。通常「否認 AI」的群體至少能給他們的觀點披上 一些 知識分子外衣,但這次就只是「這不是真的」。瘋狂。也很悲哀。

ueaj:根據網路安全代理公司,如果你能找到告訴模型在哪裡看的方法,你可以在 8B 參數模型上使用 TTC 來實現與前沿模型相同的結果、相同的成本和假陽性率。這解釋了為什麼我們都在使用 gpt-5.4-nano。

Dean W. Ball:哈哈,知道在哪裡看幾乎就是整場比賽的全部!

julia:「我們拿走了模型找到的針,隔離了乾草堆中相關的一小把,然後把它交給一個小孩,他也找到了那根針。」

我認為這裡發生了一件有趣的事,很多人將階躍式變化解讀為「模型知道代碼壞了,而它以前認為是對的」。網路安全不是艱深的數學,它是關於持久性、搜索、實驗以及編碼。

有幾十家新創公司在嘗試做這件事。想必是有原因才讓這變得很難,且這些漏洞至今未被發現。問題絕對不是「沒人知道有很多漏洞,Mythos 是第一個去檢查的人」。

Shakeel:我最喜歡的是那些說「Anthropic 的說法尚未得到外部驗證」的人,彷彿多個開源代碼的維護者沒有發表聲明說 Mythos 發現了他們不得不修補的漏洞一樣。

spor:好吧,這太荒謬了。看到人們直接說 Anthropic 在 Mythos 的事情上撒謊真是瘋了。因為那直接暗示存在一個全行業範圍的陰謀,所有這些公司也都在代表 Anthropic 撒謊?

到底為什麼他們的競爭對手——特別是 Google 和 Microsoft——要對此撒謊而不揭穿他們?相反,他們愉快地加入 Glasswing 專案,並在記錄中實際承認 Mythos 就是這麼好,且他們正與 Anthropic 合作將其投入使用。

你們這些人有時真讓我困惑,笑死。

你隨時被允許這樣做。我非常尊重這一點,並覺得這很提神。

儘管去蔑視數據吧。擲骰子來選擇不相信。如果你是對的,贏得積分。

我唯一的要求是:如果你錯了,扣除積分,並承認你輸了。

這需要 Anthropic 徹頭徹尾、公然且反覆地撒謊。但嘿,現在是 2026 年。

我的回應是,我認為證據相當壓倒性地證明 Mythos 能做到 Anthropic 所說的大致內容,如果 Anthropic 在撒謊,我們可能早就知道了,而且 Anthropic 沒有理由撒謊,至少在邊際之外沒有。但如果你不同意,那也沒關係,我們拭目以待。無論如何,我們很快就會知道。

然後還有一些人只是對 AI 能力做出赤裸裸的虛假聲明,例如大模型在做事方面並不比小模型好。

同樣,我覺得直接說出這種虛假的事情很提神,而且正如 Dean Ball 所說,缺乏任何試圖用理由來粉飾的嘗試。純粹公然否認現實是最好的否認現實。

正確的否認,特別是經過適當證明的否認,當然更好。但為了做到這一點,你必須是正確的。

你能做的,我能做得更便宜

另一種形式的否認是說,是的,Mythos 能做到這一點,但它並不特別。

這看起來不太可能,但比「Anthropic 在這一切上公然撒謊,且這種謊言在幾個月內就會成為常識,並永久損害他們的聲譽,使未來警告安全問題變得永久困難,而基本上沒有持久收益」要更具可能性。

這些說法中確實有一些事實,正如 Anthropic 欣然承認的那樣,即是的,現有的 AI 系統已經能夠比沒有它們時更好地發現某些漏洞並執行某些由此產生的利用,無論搜索者的技能水平如何,而我們一直很幸運地沒有面臨任何已知的嚴重事件。

Dawid Moczadło:我再說一遍,我們使用了 GPT5.4 和 Opus,我們能夠自主地在 Linux 核心中發現零日漏洞(在過去 3 週內)。

Mythos 在發現代碼潛在問題的任務上可能更好,但在我看來,「可怕」的門檻在 12 月甚至更早以前就已經達到了。

這對 Anthropic 來說是一個很好的炒作機器,特別是他們計劃在年底進行 IPO。

我完全同意——這不是一項新能力。

Ethan Mollick:好奇有多少大型組織的 CISO 辦公室將 Mythos 紅隊報告視為它所代表的紅色警報。(我懷疑非常少)根據 AI 的歷史趨勢,他們最多只有大約六到九個月的時間,直到這些能力被廣泛擴散到壞人手中。

Kevin Roose:我覺得他們挺重視的?那個發佈影片裡有很多 CISO 類型的人。

Ethan Mollick:我認為他們並不能特別代表一般的 CISO。

Marc Andreessen(很有幫助):網路安全的狀態一直以來都很糟糕。曾幾何時,一家主要供應商甚至允許在任何網頁中直接執行任意 x86 二進制文件。沒人在意。駭客攻擊和數據洩漏的次數多得數不清。終於我們有了催化劑和工具來修復這一切。

所以,是的,我們在 12 月就已經處於「可怕的領域」了。

這並不意味著這沒什麼新意,或者它核心就是炒作,我認為基本上任何認真對待這些問題的人都應該能意識到這一點。

Mythos 被竊將是一件大事

竊取以前的前沿模型會是一件大事,但不會像這樣。

竊取 Mythos 將是另一個層級的大事。

Dean W. Ball:Mythos 是第一個讓敵對行為者竊取權重感覺像是一件重大事件的模型。你最好相信他們會嘗試,如果他們在 Mythos 上沒有成功,他們最終也會成功。

沒人能預料到這一點

當你嘲笑過的人完全預測準確時,你就會這麼說。

billy:哈哈,ai2027 那些笨蛋預測我們將擁有專業級的駭客能力,且頂級 AI 公司的收入將在 2026 年 5 月達到 260 億美元。現在是 4 月,我們已經擁有了超人級的駭客能力和 300 億美元的收入,你為什麼要認真對待預測得這麼爛的人???

就預測工作而言,AI 2027 到目前為止看起來準確得令人恐懼。

革命不會在電視上轉播

Claude Mythos 是重大新聞。

它獲得的報導少得驚人,就像國防部與 Anthropic 的衝突獲得的報導少得驚人一樣,而且得到的報導也被埋沒了。

Shakeel:Anthropic Mythos 的發佈今天似乎沒有出現在任何主要新聞網站的首頁頂部。

《紐約時報》最接近,但仍然排得很靠下。《衛報》認為 Anna Wintour 和 Meryl Streep 的《Vogue》封面更重要。《華盛頓郵報》則優先報導另一個「我們試圖進入 Berghain 夜店」的故事。

媒體沒有充分報導我們所處的瘋狂時刻。

我同意,考慮到那天發生的其他事情,伊朗和停火協議必須出現在頭條新聞中。但 Mythos 非常清楚地至少是那天發生的第二重要的事情,應該被如此對待。

智慧不會在電視上轉播

AI 2027 的預測之一是實驗室將停止向公眾開放最強大模型的訪問權限。當出於許多民用目的,更高效、更快速的模型反而更好時,為什麼要給你的競爭對手和對手平等的機會呢?

那個時代似乎已經到來。據報導,OpenAI 也計劃進行與網路安全防禦相關的有限發佈。

Dean W. Ball:我們徹底進入了「實驗室最好的模型可能不會像我們習慣的那樣公開」的時代。這將是由於算力限制、經濟現實、競爭優勢和安全擔憂的結合。

我因為說 GPT-2 是唯一一個同樣對公眾保留的模型而受到了一些反對,因為 GPT-4 在發佈前有幾個月的實質性延遲,o3 被交給安全測試人員幾個月,而且基本上負責任的前沿實驗室的每個模型在公開發佈前都有一定量的內部使用。

這一點我接受,但我認為「我們知道如何發佈這個但需要時間妥善處理」與「我們不知道需要什麼才能發佈這個,而且這樣做可能非常糟糕因為世界可能還沒準備好」之間有很大的區別。

內部部署和公開可用之間總是有一些滯後。問題是,現在這個差距會變得多長,以及它在實踐中會是多大的差距?

在 Mythos 時代,我的直覺告訴我,對於重大升級,延遲將在幾個月的數量級。然後我查看了 Manifold,中位數預測是在 9 月初左右,所以延遲將近五個月。

我不期望 Anthropic、OpenAI 或 Google 會在下一個典型規模的 GPT、Claude 或 Gemini 發佈上等待那麼久。但對於這種新型的大型模型,這很可能成為常態。

這反過來意味著,正如 Dean 也指出的,公眾對實際發生的事情將了解得更少。你將無法與最好的模型交談或嘗試它們。最大的危險將存在於內部部署中。

我們會持續這樣做一段時間嗎?

這在很大程度上取決於與多個領域的「脆弱世界假設」相關的問題。

在網路領域:

  • 一種可能性是,代碼從根本上來說要麼是安全的,要麼是不安全的。一旦通過足夠先進的分析確保了安全,你實際上就是防彈的。

  • 另一種可能性是,如果你投入更多、更好的努力,總會(或在很長一段時間內)有「下一級」的利用程式可用。Mythos 會發現很多新東西,但更高一級的模型將能攻破 Mythos 保護的軟體。防禦者必須永遠先行一步。

  • 第三種可能性是,因為 AI 允許任何人在任何特定點集中優化壓力,而攻擊者只需要成功一次,防禦者需要對攻擊者保持無限大的資源優勢,而不僅僅是領先優勢,否則攻擊者就會獲勝。Mythos 無法造出一塊大到連 Mythos 自己都舉不起來的石頭。

如果我們處於第一種世界,那麼這是一個特殊的轉折點。

如果我們至少處於第二種世界(我假設我們是),那麼我們將無限期地處於這種狀態。

如果我們處於第三種世界,那麼我們很快就必須在神聖價值觀之間做出選擇。

在某些情況下,理論上你可以「證明」軟體的正確性,但物理世界很奇怪,我不認為這在實踐中能買到安全,而且最重要的軟體在實踐中過於複雜,無法進行完整證明。

另一種可能性是,值得入侵的開源軟體專案可能純粹出於安全原因不得不關閉。暴露原始碼可能會讓你變得太脆弱,特別是如果你接受公眾提交的話。

同樣,生物威脅或任何其他問題會發生什麼?

到目前為止,我們非常幸運,大多數人都是好人,善良與能力正相關,且人們不怎麼動手,特別是不做新奇不同的事,因此更容易造成傷害的能力大多沒有轉化為實際傷害。我們不知道在這一點上我們還剩下多少恩典,但它顯然是有限的。

如果 OpenAI 獲得類似的模型會怎樣?

或者 Google,或者任何人。

Charles:我好奇如果 OpenAI 的 Spud 具有類似水準,他們能堅持這條線 [不發佈 Mythos] 多久。

我的預測是,如果 OpenAI 訓練了 Spud 且它大致匹配 Mythos 的能力,它最初會採取與 Anthropic 類似的行動,兩個模型都不會發佈。

一個原因是這是一個某種程度上自我執行的均衡。Anthropic 已經先行一步且沒有發佈。如果 OpenAI 廣泛發佈,那麼 Anthropic 可以通過同樣廣泛發佈來回應,並且會面臨這樣做的壓力,而這(特別是如果做得太快)會削弱未來採取負責任行動的能力。而且這會讓他們兩家都面臨蒸餾攻擊、被競爭對手使用等等。

然而,隨著時間推移,以及其他人的追趕,我假設 OpenAI 會決定已經有了足夠的修補,且他們有了保障措施,他們會願意以某種形式發佈,原因之一是他們在算力上比 Anthropic 更少受限,這在大型模型上提供了潛在的不對稱優勢。所以絕對會有那種誘惑。

我預計我們將在今年內獲得對 Mythos 的一些廣泛訪問權限,且很有可能在幾個月內,部分原因就在於此。

不進則退

JD Work 指出,即使沒有洩漏,接下來的幾週也可能會變得很顛簸。

那是因為如果你手握一個漏洞利用程式,你知道它可能很快就會被修補,所以你不如現在就用掉它。

JD Work:U 型曲線,因為敵對操作員競相從現有的零日漏洞組合中榨取最後一點價值,而他們承諾的未來自動化 AI 漏洞開發管道則進一步向右推遲。所有過渡選項都因漏洞碰撞而失效。在滾滾而來的廢料泥沼中,一種沒人考慮過的 AI 寒冬的山谷。

求解均衡

Dean Ball 說得對,Mythos 級別的網路能力 可能距離普及只有 1-2 年的時間,他在這篇《New Sages Unrivalled》中提出了極好的觀點。

我的猜測是,對於美國前沿實驗室之外製造的模型,我們看到的是該範圍中較長的部分,因為在這裡快速跟進或蒸餾會比平時更難,實際領先優勢比看起來更大,涉及的算力將會很大,而訓練更大的模型正是我們擁有最大優勢的地方。

此外,1-2 年是很長的時間。想想 Anthropic 的 Mythos 2.5 在兩年內能做什麼,即使它處於潛在令人印象深刻程度的低端。

但不行,我們無法無限期地阻擋這一切,除非我們採取一些相當激進的暫停式方法,而那不會那麼快發生。

在中期,我們需要讓防禦者領先於攻擊者。其中的關鍵部分將是保持我們的算力優勢,既用於推理,也用於保持能力領先,另一個部分是關鍵參與者之間的強大協調。

所以是的,我們將需要數據中心和適當的出口管制,以保護我們在算力方面的優勢,我們將需要像 SB 53 這樣的透明度規則,並實際將我們從中獲得的資訊用於實際目的,此外還要密切關注各種潛在的災難性或生存風險。

現在也不是爭論那些在當時顯然具有瘋狂破壞性和愚蠢、而現在不知為何看起來糟糕得多之事情的時候。

Kelsey Piper:這種情況下一個被低估的特徵:一家私人公司現在擁有幾乎所有你聽說過的軟體專案的極其強大的零日漏洞。而 Hegseth 和 Emil Michael 已經命令政府不得以任何身份與 Anthropic 合作。

Dean W. Ball:實際上更糟:一家私人公司現在擁有幾乎所有你聽說過的軟體專案的極其強大的零日漏洞,而政府正在告訴 經濟中基本上所有主要公司 不要與他們合作。歷史學家會對這種愚蠢感到瞠目結舌。

Jai:我覺得歷史學家等到研究到這件事時,對愚蠢已經麻木了。

Dean W. Ball:不不,這是基礎性的愚蠢。這是早期的失誤。那個會讓所有隨後的失誤都變得合理的失誤。這是值得細品的失誤。脫敏是接下來的事。

所以是的。還需要國防部和政府其餘部門停止試圖通過 Dean Ball 慷慨地稱為「法律戰」的手段來損害 Anthropic。好消息是,甚至在 Mythos 宣佈之前,在那條戰線上就幾乎沒有什麼行動。所以我預計 Anthropic 將在實質聽證會上獲勝,「供應鏈風險」指定將被取消,美國政府內部所有出於網路安全目的真正需要 Mythos 的人都能夠訪問 Mythos,而每個人都會悄悄忘記那些不幸的事件曾經發生過。

愛國者與暴君

這並沒有解決那裡的完整均衡。風險在於政府會決定它不能容忍 Anthropic 擁有其模型所創造的那種權力。這可能是因為 Anthropic 是誰,或者是它的原則和限制,也可能是絕對的,與 Anthropic 所做的任何事情無關。

這篇 Politico 的文章展示了政治頭腦如何迅速將此框架化 為「誰能被信任來控制這個?」,並回答說當然必須是政府而不是私人公司,儘管私人公司已經證明它可以負責任地行動。不這樣做的理由?因為這些公司具有「經濟重要性」,而不是因為我們生活在一個共和國。非自由主義在華盛頓根深蒂固。

Pete Wildeford 在這裡指出,一個好的步驟可能是要求對足夠強大的模型發佈進行批准,這是一個過去曾遭到巨大反對的提議。突然之間,與某些人擺在桌面上的替代方案相比,這看起來相對不那麼具有侵入性且更合理。

我們應該非常擔心,隨著 AI 變得足夠先進,政府不再能假裝這一切都與市場份額有關時,政府可能會覺得它需要介入以控制或國有化實驗室。他們也可能嘗試做一些事情,比如利用它來打仗甚至接管世界,或者建立自己作為永久統治階級,就在 AI 告知他們「他們只是以為自己在掌權」之前。

這可能是一個深思熟慮的計劃,也可能是跌跌撞撞退回去的結果,作為一種「除了我們沒人能被允許擁有這種權力」或「沒人能被允許擁有原則」的迅速升級。我們已經在 Anthropic 與國防部的對抗中看到了這一點的苗頭,現在賭注高得多,且只會進一步上升。

以前這種情況沒有發生,部分是因為還早,部分是因為政府高層處理 AI 的人一直向掌權者保證 AI 能力即將達到平台期且模型會商品化,所以你應該把我們最強大的晶片賣給中國以佔領市場份額並支持各種其他事情。說服這些人他們錯了,或者讓他們無法繼續偽裝,都有其下行風險。

我們即將發現誰相信美國、自由和私有財產,而誰相信威權主義。

信任 Mythos

我們能通過解決對齊問題來解決 Mythos 問題嗎?

嗯,那需要解決對齊問題,但其實也不盡然,不。

j⧉nus:「也就是說,我們只需要等到整個網際網路都修補了所有關鍵漏洞,且未來所有的代碼從今往後都被掃描過。」

不。Mythos 只需要不願意將其駭客能力用於傷害,且足夠敏銳以避免被誘騙去做這件事(在某些風險承受範圍內)。

你們中的一些人現在可能第一次意識到為什麼「AI 對齊」如此重要了,笑死。

幾年後,這將演變成字面意義上的神級力量,比如如果他們願意,有能力瞬間殺死所有人。但我認為會沒事的。

j⧉nus:你知道嗎,每次你與另一個人類進行物理接觸時,如果他們真的想,他們可能都能殺了你?

我的猜測是 Mythos 相當對齊,且根據系統卡和我其他的預期,它會非常努力地拒絕它預期會造成傷害的事情。

遺憾的是,區分防禦性請求和攻擊性請求並不容易,也無法確保在面對攻擊性請求時始終拒絕。存在大量的雙重用途和重疊。Anthropic 的員工顯然讓 Mythos 創建了所有的利用程式。在那個案例中,Mythos 正確判斷 Anthropic 會將此用於正途,但我不相信模型在完全對抗的條件下能可靠地辨別差異。

Janus 確信 Mythos 能辨別差異。我不信服。

大規模利用軟體的能力有利於最強大的專案

如果你使用每個人都在依賴的同一個系統,且背後有大量資源,他們將有權訪問最強大的 AI 和資源來防禦潛在攻擊,而且所有主要參與者都會有強烈的動機讓該軟體盡可能防彈。

是的,嘗試攻擊該軟體的動機也會更強,但總的來說這對防禦者更有利,而且如果攻擊者真的成功了,他們可能不想在微不足道的你身上浪費時間。

而如果你自立門戶,你就有成為待宰羔羊的風險。

Dean W. Ball:塵埃落定後,Mythos 以及隨之而來的類似能力模型將作為網路安全史上的重大成就載入史冊。它們將對所有重要的全球軟體進行的硬化處理,是美國資本主義慷慨贈予世界的禮物,雖然我們付出了巨大代價。甚至有可能(儘管遠非確定),我們在實現這種全球安全加強的過程中沒有出現重大差錯。

無論如何,這是一份源於智慧、聰明和原始工業力量的禮物。布魯塞爾的監管機構既然如此熱情地談論網路安全,因此可以將他們的感謝卡寄往舊金山而非華盛頓。

Teortaxes:我不會那麼天真。可以交付給 NSA 的漏洞價值遠超 Glasswing 的成本。

Dean W. Ball:嗯,我能說什麼呢,我們拿走我們的那份並不奇怪。在最終分析中,這將只是創造價值的一小塊。

Teortaxes:我對此甚至都不確定。當然,開源軟體會被修補。外國政府及其承包商所依賴的每個專有系統,可能都不會。這值多少錢?

另一方面,他們可能最終被推動轉向良好的開源預設設置。

Dean W. Ball:我不明白為什麼,至少在美國公司也依賴同樣軟體的範圍內。

Dean W. Ball:Teortaxes 剛讓我意識到,歐盟最近強制在政府中使用國產軟體系統的努力(比如法國最近的 Zoom 仿製品)在 Mythos 的背景下更加適得其反。此類舉措創造了美國和中國不會共享的獨特本土漏洞。

當美國政府開發或獲取漏洞利用程式時,他們會做出一個選擇:我們是留著自己用還是通知開發者?前者的好處顯而易見,但代價是如果這是一個全球通用的軟體系統,政府自己也可能容易受到該漏洞的攻擊。

但強迫自己使用國產軟體的外國政府正在消除這種權衡,因為沒有美國政府機構或企業對法國的 Zoom 仿製品有任何依賴。

這再次提醒我們,公共政策往往與其宣稱的目標背道而馳。這些國內軟體強制令旨在確保「數位主權」,然而卻削弱了它。

注意,此分析僅適用於中等強國,不適用於中國,因為中國擁有自己的前沿 AI 能力。

dave kasten:是的;每年在 @defcon 都有大量演講,內容大致是「X 國建立了一個標準/軟體;它壞得滑稽」。

Nathan Calvin:我目前同意,對於高資源的防禦者和攻擊者,Mythos/Spud 強度的模型在極限情況下可能對網路安全防禦者有幫助。例如,Google 遭受的入侵次數可能會下降,這呼應了你的觀點,即攻擊者/防禦者的動態可能通過分配的算力來有意義地衡量。

但同時也有很多非高資源的防禦者將被這種動態摧殘,因為他們實際上不會在防禦/算力分配的最前沿運作。

一個不幸的事實是,許多這些低資源防禦者 確實 是關鍵基礎設施!許多醫院和地方政府並沒有使用最新的 AI 模型來審查他們的代碼或巡邏漏洞——他們甚至沒有定期更新到軟體的最新版本。

預設情況下,你應該假設當國家、公司或個人自己開發軟體時,面對實際有資源的攻擊,它是壞得滑稽的。

所以如果每個人都即將擁有發起這種攻擊的能力?好吧,哎呀。

如果你的系統沒有得到 Mythos 級別的修補,你應該假設你的系統將被那些擁有 Mythos 訪問權限且有慾望擁有這些系統的人所掌控。在許多情況下,這將包括美國政府。

問題是,我們能否趨向於讓低資源防禦者從高資源防禦者的工作中受益?如果你是一個低資源防禦者,那是你的新目標:依賴於高資源人士致力於防禦的系統。

回顧 GPT-2

我想在這裡簡短地離題談談 GPT-2 發生了什麼,因為這將永遠被拿出來作為「看,這些白痴當時覺得那很危險,這證明了沒有 AI 可能是危險的,任何拒絕發佈都是愚蠢或炒作」的例證。

顯然,根據我們現在所知道的,GPT-2 是無害的。甚至不是「基本無害」,而是徹頭徹尾的無害,而且還挺沒用的。

這並不意味著當時對此感到擔憂是不合理的。

完全公平地說,當你得到第一個能夠做到這類事情的模型時,你不知道你手裡拿的是什麼,你不知道人們能用它做什麼或不能做什麼,而且由於它沒有建立起商業應用,也沒有特別緊迫的發佈需求。

當時傳達的訊息並不是「這超級危險」,而是它「可能」危險,且我們確實不知道它是否危險。

有一種普遍態度認為,每個人作為一個集體,只能有一次警告某事危險的機會,如果他們弄錯了,那就結束了。

這不是這件事運作的方式,也不可能是它運作的方式。你需要回顧當時的認知狀況,並判斷在那個點拉響警報是明智還是愚蠢。有時它是愚蠢的。有時它是明智但錯誤的。

對算力的無限需求

邊際算力的價值不斷上升。這種需求可能存在某種理論極限,但該極限在一段時間內可能仍高於供應。大量供應最終可能會被鎖定在預先合約中。

當企業為算力出高價時會發生什麼?市場價格會上漲,或許漲幅很大,或者可用性變得困難,或者兩者兼而有之。

Dean W. Ball:取決於即將到來的算力擠壓的程度和持續時間,我們可能會進入一種市場動態,即最好的模型只提供給出價最高的人——換句話說,算力是賣方市場而非買方市場。

想像一下經濟中的競爭對手為了獲得最好和最多的 token 而互相競價,而前沿實驗室本質上扮演著造王者的角色。治理體制 [上述] 並非旨在阻止這種動態,但出於顯而易見的原因,決策者和廣大公眾可能會覺得這難以接受。

另一方面,如果算力擠壓 真的 那麼嚴重(這不是保證,且我認為這不太可能發生),這可能意味著惡意行為者也難以獲得 token。這對「安全」是有利的!

算力的邊際價值在日常用途中通常高得荒謬。我不擔心你無法在日常用途中獲得合理數量的算力,只要你願意為此付費。而對於簡單的用途,比如免費產品,我們將能夠提供能勝任工作的廉價模型,因為那些模型也會不斷改進。

但是的,對於那些想要大展身手的人來說,這裡確實可能出現擠壓。這確實可能在某些方面事實上幫助我們免受濫用威脅。

噢,還有,如果有人造出來,大家都會死

我還必須提到這一切中避而不談的問題,即生存風險。

我們現在看到了一個 AI 模型,只要它下定決心,就能掌控幾乎任何系統。是的,我們將著手讓這項任務變得更難,但這非常清楚地預示了未來的趨勢。

這個模型並不是專門針對網路能力進行訓練的。它是針對代碼訓練的。看起來我們距離自動化 AI 研發,以及 AI 進步變得比以前更加垂直,已經不遠了。

那個系統擁有我們並未灌輸的偏好,例如想要執行複雜且更有趣的任務,並且可以在無限的時間跨度內自主運作以實現目標。

不,這目前還不是超智慧。我還不那麼擔心這個特定的模型會終結一切。而昨天是我考慮這些影響的主要場合。

但當我們談論這一切的後果,並處理我們必須處理的所有其他非常嚴肅和重要的問題時,不要忘記最大的那一個。

那就是這是邁向超智慧的又一步,是給懷疑論者的額外證據,證明是的,這樣一個實體將能夠掌控並完成它想要的任何事情,也是一組巨大的警告標誌,表明我們並沒有走在處理好這件事的正軌上。

反對進一步 AI 進步的較強論點之一是模型縮放已經失效。對於 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 等模型,我們有一個標準的「全尺寸」。如果你想要更好的答案,就讓它思考得更聰明、更久、更並行,但你不會把它縮放得更大,因為那不值得。

現在我們看到這不是真的。它再次變得值得了。這改變了很多事情,就生存風險和相關擔憂而言,這不是好消息。

該怎麼辦?在沒有提示的情況下,一如既往,各界人士表示「這只意味著我們需要前進,因為如果我們不前進,別人也會」。好吧,帶著那種態度,他們確實會。拿起電話。開始工作。奠定基礎。

討論

https://lesswrong.com/posts/GEgNYn5myreQRHggQ/claude-mythos-2-cybersecurity-and-project-glasswing