為什麼大眾誤解了 Mythos 的重點？

Lesswrong·大約 4 小時前

我分析了為什麼 Anthropic 的新模型 Mythos 會面臨憤世嫉俗的批評，並指出 AI 安全倡導者必須透過提供更嚴謹的證據來管理我們的「別討人厭資本」。

我看到許多報導暗示，Claude 的新模型 Mythos 是 Anthropic 用來兜售炒作與末日論以籌集資金的工具。雖然其中有些觀點必然源於人們不願直視 AI 未來的深淵，但連許多原本理智的人也表達了這類憤世嫉俗的看法，這表明部分責任在於 Anthropic。

在這篇文章中，我想簡要分析人們誤解證據的方式、他們這樣做的正當理由，以及 Anthropic（以及更廣泛的 AI 安全社群）應該從中吸取的教訓。

特別是，既然未來不可避免地會自發湧現出其他危險能力，我們需要一套有效的發布協議。為此，我試圖提出以下觀點：

我們應該留意大眾對 AI 安全預言的同情心，並致力於增加這種同情，而非消耗它。我稱之為我們的「別煩人資本」（don't-be-annoying capital）。
人們有充分理由對 Anthropic 的說法持懷疑態度。要克服這一點，需要極高的證據門檻。
我們應該承認 Anthropic 在呈現末日觀點時存在利益衝突，並在未來對此進行說明。

1. 對 Mythos 的批評與抓錯重點

在《衛報》的一檔播客中，記者表示「這場 Mythos 慘劇 [導致] 國家元首們說：『這太危險了，它可能摧毀我們的基礎設施，文明末日近了！』」。她接著說，「接受這些公司正在創造『機器神』的前提」是在幫助這些公司推銷產品。

在另一檔播客中，卡爾·紐波特（Cal Newport，喬治城大學計算機科學教授！）在分析 Mythos 時總結道：「Mythos 獲得如此大量的恐懼報導是不對的；到目前為止，我們還沒有證據表明它在檢測或利用漏洞方面比之前的版本有顯著的飛躍。」此後，他還在其他播客中發表了這些觀點。

同樣地，YouTube 頻道 Internet of Bugs 發布了一段標題為「Anthropic 價值數億美元的營銷噱頭」的影片，稱「我們最近經常看到這種博眼球的手段。我敢肯定，隨著 AI 公司越來越渴望維持投資資金的流動，情況只會變得更糟。我們怎麼能相信這種鬼話？」

要明確的是，重點 不僅在於 Anthropic 擁有一個擅長網絡安全任務的模型。重點在於縮放定律（scaling laws）依然成立，且不可避免的加速仍在繼續。隨著每一個新模型的出現，我們都會解鎖必須應對的新且神祕的風險。在這次案例中是網絡安全，但實際上它可能是任何領域。這個更大的故事基本上在喧囂中被遺忘了。

2. 感覺人們是故意抓錯重點？

我理解當一家公司說它有一個可怕的大傢伙時，人們直覺會認為它在過度炒作。例如，山姆·阿特曼（Sam Altman）在 GPT-5 發布前推發的死星圖片。但我很驚訝於人們竟然如此傾向於尋找證據，來支持他們預設的「Anthropic 只是在搞企業權謀」的偏見。

例如，有一篇來自 LLMs-for-cybersecurity 組織的帖子稱，其他更小的模型也能找到 Mythos 發現的漏洞。他們寫道：「我們選取了 Anthropic 在公告中展示的特定漏洞，隔離了相關代碼，並通過小型、廉價的開源權重模型運行。這些模型得出了大部分相同的分析結果。」這被 HuggingFace 的 CEO 轉發，隨後被上述所有三個播客/影片用作證據。

是我瘋了嗎？這難道不是用來駁回 Anthropic 所有主張的極差證據嗎？正如其他人所說，這相當於從乾草堆中挑出一捆藏有針的草，交給一個小孩，然後說「哇，他也找到了針」。重點在於，定位那一捆草才是最難的部分！

3. 這裡一定有教訓。

如果我們忽略「加速我們走向機器神」這整件事，我認為 Anthropic 對 Mythos 的處理是負責任的。我也認為在宣傳方面有教訓值得吸取，因為理智的人始終抓不住重點就是明證。

Anthropic 從事的是製造極其不受歡迎的東西，並聲稱這些東西可能會毀掉我們所知的社會。他們還反覆說這些東西太危險，不能讓公眾接觸（我注意到謹慎通常是合理的）。

人們認為 Anthropic 在喊「狼來了」是合理的，特別是考慮到他們有望實現史上最大規模的 IPO，而這在一定程度上是通過預言實現的。

不幸的是，我屬於認為預言是真實的那一派。這意味著，對我來說，支持 Anthropic 世界觀的證據存在於疊加態中：它既是炒作又是負責，既是末日論又是恰如其分。

但正如我們所見，很難說服其他人這一切真的在發生。他們會（有充分理由地）認為這是自私自利的，並且（有充分理由地）不想面對現實。如果人們認為我們在喊「狼來了」，他們就會對我們狂熱的焦慮感到厭倦，我們的事業就會像大流行病預防工作一樣無疾而終。

因此，我認為 AI 安全是在利用一定數量的 「別煩人資本」^([1]) 運作。這是公眾對我們擔憂的同情程度。當 AI 導致事情出錯時（在公眾意識中，而非在我們意識中），這種資本就會積累。當我們提出人們不想相信的主張時，它就會被消耗。當 AI 公司提出看似自私自利的主張時，它也會被消耗。當這些主張缺乏充分證據時，消耗速度會更快。

我認為我們應該圍繞著如何增加這一資源來構建公眾互動。

4. 下次的幾種選擇

讓我們站在 Anthropic 的立場：你剛剛製造了最新的數位核彈。你必須對它做點什麼。你的選擇有哪些？

你可以悄悄壓下它。這顯然很糟糕，特別是如果它洩漏了。
你可以公開發布它。這有引發災難的風險。
你可以宣布它，並將其引導至防禦/政府用途。這就是他們對 Mythos 所做的。
你可以宣布你製造出了它，但在用它加固基礎設施後將其銷毀。這可能是最無私的選擇，但這樣你就無法利用它獲得相對於競爭對手的加速優勢。
你可以刪除它且不告訴任何人。如果洩漏，這也可能是一場公關災難。

我覺得你必須以某種方式宣布它。但是，如果你宣布它，你可能會消耗資本。如果你宣布的東西名不副實，你會消耗更多資本。而且我們已經看到，理智的人會尋找不理智的藉口來駁回你的主張，進一步耗盡你的資本。

為此，Anthropic 在發布 Mythos 時本應做更多的盡職調查：他們的模型卡（雖然詳盡）缺乏全面科學研究的嚴謹性。網絡安全評估僅佔 200 多頁系統卡的 6 頁（第 46-52 頁）；其中包含四個實驗，且僅與 Anthropic 系列模型進行對比。博客文章詳細介紹了他們如何發現零日漏洞，但同樣遺漏了一些盡職調查。例如，他們本可以評估能力光譜上的其他非 Anthropic 模型，以驗證 Mythos 是否具備執行這些任務的獨特能力。他們本可以設置一些對照組。非凡的主張需要非凡的證據。

我也認為 Anthropic 在發表末日言論時，應該更坦誠地說明其利益衝突。儘管我相信他們的意圖是好的，但這種利益衝突是真實存在的，人們察覺到這一點也是對的。避免這些觀感的簡單方法之一，是優先考慮來自獨立非營利評估機構的分析。公平地說：Anthropic 確實讓英國 AISI 為 Mythos 的能力提供了支持。在我看過的那些憤世嫉俗的觀點中，這份分析得到了更多的尊重。當然，即使是這也會遭遇憤世嫉俗，因為人們會開始認為非營利組織與公司勾結，最近《紐約時報》對 METR 的報導下方的評論就證明了這一點。

最後，儘管隨機的危險能力會湧現，但重點不在於任何一個特定的能力。我認為讓敘事導向 Mythos 的網絡安全元素是對公眾的一種誤導：我懷疑大多數人並沒有內化這次整體能力跨度有多大，也沒有意識到下一次這樣的跨度將帶來新的危害。

我也確信有些考量是我所不知道的，並且承認在我這個舒適的角落批評很容易，因為我做的任何事都不會影響股市。

儘管如此，Anthropic 在識別危險能力方面的先發優勢，也賦予了他們「先發末日論者」的責任。

感謝 Erin, Steven, Justin, Joseph 和 Li-lian 的評論。

[編輯日誌]：修改了一些措辭，並增加了關於紅隊博客文章的一句話。還修改了標題，使其更符合我想表達的意思；舊標題是「Anthropic 在 Mythos 上花費了太多的『別煩人資本』」，但回想起來，這並不能完全代表我的觀點。

^(^) 我稱之為「別煩人資本」，因為那是接收端的切身體驗，我認為從受眾的角度思考這個問題是有益的。我承認像「預警疲勞」之類的名稱可能更具代表性。

參與討論

— Lesswrong

其他收藏 · 0