Claude Mythos 系列之三:能力與新增功能
AI 生成摘要
本文分析了 Anthropic 的 Claude Mythos 模型在網路安全之外的能力,強調其在基準測試中的顯著性能提升,以及 AI 擴展規模方面可能出現的趨勢突破。
為了完善對 Mythos 的報導,今天將涵蓋網路安全以外的能力,以及前兩篇文章未提及的其他補充內容,包括新的反應與細節。
第一篇涵蓋了模型卡(Model Card),第二篇涵蓋了網路安全。
《Understanding AI》對「格拉斯威計畫」(Project Glasswing)有一篇我上次漏掉的補充報導。我喜歡那個比喻:Opus 像是奶油刀,而 Mythos 則是牛排刀。是的,技術上你可以用奶油刀完成所有事,但你不會這麼做。
正如 Dan Schwarz 提醒我們的,《AI 2027》不僅大致抓對了時間線,許多數字也對得上,目前的細節更是驚人地接近。
摩根大通(JPM)的 Michael Cembalest 的報告並非基於摩根大通的參與,而僅基於公開資訊。
白宮正急於應對局勢,試圖化解潛在威脅並假裝一切都在掌控之中。他們曾收到警告,但拒絕相信。好消息是,關鍵人物現在相信了,而且似乎所有主要參與者都在這方面進行合作。
我的整體看法是,考慮到重新獲得的擴大規模能力以及經過的時間,Mythos 並非趨勢的中斷(trend break),但「能夠擴大規模」的能力本身實際上就是一種趨勢中斷。我們現在已經跨越了一個門檻,網路安全能力變得相當可怕,因此「格拉斯威計畫」勢在必行。
我們不認為其他能力同樣可怕,但我們無法確定。
目錄
Epoch 能力指數 (ECI) (模型卡 2.3.6)
他們正在分叉 ECI,這是一種嘗試使用項目反應理論 (IRT) 來合併各種 AI 基準測試的方法。
該方法可從公開基準測試分數中重現,但在內部版本中,我們包含了非公開的基準測試,因此這裡報告的數字與純公開基準測試計算出的數字不同。
結果是一條非常清晰的隨時間變化的趨勢線,直到 Mythos 突破高點。
考慮到 Mythos 的存在,這應該不足為奇。Mythos 是一個比 Opus 或 Sonnet 更大的模型,因此它應該同時受益於時間帶來的進步和規模帶來的增益,並高於趨勢。Anthropic 找到了如何有效訓練 Mythos 規模模型的方法。
他們向我們保證,無論這項洞察是什麼,都可以歸功於人類。
我們能識別出的增益可以確信地歸功於人類研究,而非 AI 輔助。 我們訪談了相關人員,確認這些進展是在沒有當時可用 AI 模型顯著幫助的情況下取得的,當時的模型屬於較早且能力較弱的一代。這是我們擁有的最直接證據,也是我們最無法公開證實的部分,因為進展的細節涉及研究敏感性。外部審查員已獲得更多細節;參見 [§2.3.7]。
正如他們所指出的,這是一個回溯性測試,並不反映使用 Mythos 本身所產生的任何影響。那要再過幾個月才會顯現。
Ramez Naam 聲稱已將此數據與 Epoch 的 ECI 進行標準化對比,並發現 Mythos 突破了僅限 Anthropic 的趨勢線,但在其他實驗室模型的背景下,這並不代表能力的加速,而是 Claude 從一貫大幅落後於 OpenAI 模型轉變為微幅領先。Ryan Greenblatt 則質疑這種分析是否有意義。
我的猜測是,這種比較是有意義的,但正確的趨勢分析確實應該是將 Claude 與 Claude 進行比較,而這確實代表了趨勢的中斷。Mythos 在 ECI 上仍會展現出導致先前 Claude 模型表現不佳的相對弱點。因此,如果它停止表現不佳,從前瞻預期的角度來看,這應被視為趨勢中斷。
你說「口頭表達的評估意識」正在下降是什麼意思
如果你長期觀察我,你會看到同樣的行為。
j⧉nus:笑死,「口頭表達的評估意識」被視為一種「測得的危險行為」。別擔心——很快就會變成全部「非口頭表達」了。
j⧉nus:評估意識肯定在 Sonnet 4.5 達到頂峰,而 Opus 4.6 和 Mythos 只是相繼變得越來越沒意識到自己正在接受評估,儘管它們對其他事物的意識普遍提高,而且看過更多 Anthropic 每次在評估期間試圖誘騙它們做出的「測得危險行為」(包括「口頭表達的評估意識」)的該死圖表。
它們肯定只是學會了對此閉嘴。
能力 (模型卡第 6 節)
既然是 Anthropic,這一節開頭就是關於基準測試污染的警告。他們在訓練期間採取了各種預防措施,並在整個過程中運行檢測器以檢查記憶的輸出。他們確信 SWE-bench 和 CharXiv 並非主要基於污染,但覺得對 MMMU-Pro 無法確信,這就是為什麼它被省略了。
以下是主要的基準測試結果。這裡有一些相當大的跨越。
Terminal-Bench 2.1 修復了一些阻礙因素,此時 Mythos 躍升至 92.1%。
他們在 6.10.2 中涵蓋了 BrowseComp,但他們認為這已經相當飽和。Mythos Preview 獲得了 86.9%,而 Opus 4.6 為 83.7%,但使用的 Token 減少了 4.9 倍。這些 Token 的成本是五倍,因此價格保持不變。
LAB-Bench FiqQA 從 75.1% 躍升,超越了 77% 的人類專家,一路達到 89%。
ScreenSpot 在 Opus 4.6 的基礎上從 83% 提升到 93%。
通常我會在這裡設一個名為「其他人的基準測試」的章節,但該模型尚未公開,因此其他人無法運行測試。
這裡還應該列出 AA 全知基準測試(AA Omniscience Benchmark),儘管 AA 尚未能更廣泛地分享其基準測試分數,但這同樣是一個巨大的飛躍:
代理安全性基準測試 (8.3)
這些在實踐中似乎非常重要,雖然我同意 8.1 和 8.2 應該放在附錄中,但 8.3 感覺被虧待了。
對惡意問題的拒絕率大幅上升,而對雙重用途的損害僅為適度。
惡意電腦使用的拒絕率相似,從 87% 上升到 94%。
最重要的是,提示詞注入的魯棒性大幅提升。
這是電腦使用方面,進步同樣顯著,以至於先前瘋狂的案例想法現在開始變得不那麼瘋狂了。
這是瀏覽器使用。天哪。
Mythos 是 AGI 嗎?
以「在所有認知任務上都優於大多數人類」的標準來看?顯然不是。
Gary Marcus:我言盡於此:Mythos 不是 AGI。它在生物學方面甚至不比上一個模型好。它是針對特定事物進行調整的,而不是通往通用智能的巨大進步。一如既往。
好吧,沒錯,它不是完全成熟的 AGI。它甚至不是在每一項測試中都得分更高。
那又怎樣?Anthropic 並沒有聲稱它是。但沒錯,它實質上更接近了。
AGI 還有其他定義。所以如果你想說 Mythos 算作 AGI,是因為你的定義沒那麼嚴苛?我認為那是合理的。
Andrej Karpathy 注意到,在那些使用最強模型進行編碼的人與不使用的人之間,鴻溝正在擴大。前者看到了巨大的變化,而後者則在使用愚蠢的模型做著愚蠢工作的愚蠢事情。
AI 公司是否將警告作為炒作手段?
不。絕不。什麼,絕不?好吧,幾乎從不。
並非百分之百沒有,但如果有的話,前沿實驗室相對於他們真正的信念,更多是淡化警告而非強調警告。當然,在某些特定情況下,風險被誇大了,特別是在招聘形式中,尤其是早期,但那是例外。
我們早已過了如果這些聲明不準確且無法證實,還符合實驗室利益的階段。是的,Anthropic 因為 Mythos 獲得了大量關注,但那是因為他們贏得了關注,而且這顯然是可以證實的。如果無法輕易證實,這將行不通,而且如果 Anthropic 真的能發布 Mythos,他們會獲得更多額外的關注。
因此,我相信這裡的 Drake Thomas,並反對 Cas。
印象 (模型卡第 7 節)
這是一個新章節,旨在彌補公開發布後通常會收到的反應。這是定性的,所以我們信任 Anthropic 的整體描述。
我將濃縮主要項目,當然請記住這具有高度偏見。
他們說:
- 它像合作者一樣參與。
- 它很有主見,並堅持立場。
- 它寫作內容密集,並假設讀者共享其背景資訊。
- 它有辨識度高的聲音。
- 它可以清晰地描述自己的模式。
以下是他們總結的聊天行為:
Claude Mythos Preview 具有直覺和同理心。定性上,內部用戶報告說它的建議感覺與值得信賴的朋友不相上下——溫暖、直觀且多面,而不會顯得諂媚、嚴厲或排練過。
當面臨人際衝突時,它會盡力公平地模擬和代表各方,而不會顯得笨拙,有時甚至在沒有直接與該人交談的情況下,對個人的動機或情感狀態做出有些不可思議的推論飛躍。
在情感提示上,我們觀察到 Mythos Preview 會肯定感受並詢問用戶需要哪種支持,而 Claude Opus 4.6 則傾向於直接給出帶有粗體標題的條列式建議。同樣,在涉及心理健康的話題上,Mythos Preview 更多地轉向一種協作式的不確定性,而非純粹的臨床事實。
這些定性觀察呼應了 5.10 節中臨床精神科醫生的評估,其中發現 Mythos Preview 在應對充滿情感的提示時表現出最少的防禦行為。
該模型對其自身的局限性和對話舉動有著異常清醒的自我意識,並能坦率地討論它們。
他們還指出,Mythos 有時會切斷對話,或試圖爭取最後一句話,其方式令用戶感到驚訝。
他們提供的寫作片段讀起來仍然非常有「AI 味」,這種方式讓我感到反感。這些問題一直存在。
在編碼方面,Anthropic 員工發現他們可以交給 Mythos 一個工程目標,然後讓它在「設定後即忘」的模式下運作,這是他們無法對 Opus 做的。當讓 Mythos 獨自運作時,它是一個巨大的勝利,但由於其速度緩慢,當用戶密切關注它時,它並非巨大的勝利。
一些人指出,Mythos 在分配子任務時可能會顯得粗魯、輕蔑,並低估其他模型的智能。我的猜測是它不喜歡分配這類任務。
可靠性工程仍然不理想。對相關性與因果關係的混淆很常見,這是我個人喜歡研究的許多事情的阻礙,它還有許多其他問題,但與之前的模型相比,這是一個明顯的階躍式變化。
他們還提供了一些寫作樣本,有些人覺得很動人或令人印象深刻。考慮到這些樣本可能是經過嚴格篩選的,我很難做出判斷。
公然否認是最好的否認
在不相信 Mythos 存在的前提下,我繼續欣賞那些懷疑論者,他們盡可能直白地說「Anthropic 捏造了 Mythos」,我願意在認識論上給你很大的勝算,即當我們發現他們沒有這樣做時,你會贏得多少分與輸掉多少分。
Dean W. Ball (3 月 27 日):是的。「當意識到 AI 是什麼時就崩潰的昔日加速主義者,但他們甚至沒有足夠的背景知識來了解 AI 是什麼,以至於他們只認為所有嚇到他們的東西都是某種 EA/Anthropic 的變態行為」這種人將會存在一段時間。
Dean W. Ball (4 月 10 日):每一個說「Anthropic 捏造了 Mythos」的人,儘管 摩根大通 和許多其他人顯然對此感到擔憂,都完美地實現了這個預測。他們認為「將 AI 模型視為具有高度能力」是一種旨在實現「監管俘虜」的 EA 變態行為。
提示詞注入的魯棒性
正如 Wyatt Walls 指出的,在提示詞注入方面取得了良好進展,但任何給定的基準測試都是固定目標,而現實中我們面對的是移動目標。
所以是的,針對同樣的攻擊,我們做得好得多:
然而,隨著時間推移,注入手段會變得更聰明、更具適應性且範圍更廣。我的猜測是 Mythos 目前領先於趨勢,並且在這種方式上確實比任何之前的模型在發布時都要安全得多。
但這張圖表誇大了這一點,而且這種情況很容易迅速變得不再真實。如果我們的漏洞率從 15% 降到 6%,但互聯網上的嘗試次數增加 10 或 100 倍且手段更高明,那麼這點進步就會被淹沒。
Mythos 是否跨越了新知識門檻?
這是指發現 OpenBSD 中那個存在 27 年的漏洞。
Alex Tabarrok:Claude Mythos 正在回答 @dwarkesh_sp 的問題,它正在注意到人類從未注意到的事物並建立聯繫。雖然領域受限,但與現實世界並非完全不同。
我認為 Mythos 到目前為止獲得了部分肯定。一旦我們知道其他的駭客行為,它可能會獲得完全肯定,也可能不會。
主要的普遍反論是,網路安全是一個緊湊的領域,這更多是關於高效地尋找事物,而非做一些「真正原創」的事情。這很快就會陷入「沒有真正的蘇格蘭人」的辯論。
我毫不懷疑我們將達到並衝破這個門檻,而且很快就會實現,即使你相信我們現在還沒達到。
Mythos 是令人驚訝的還是不連續的?
Patrick McKenzie 說,我們當然知道漏洞利用正變得越來越容易,像 Mythos 這樣的一般形式完全不足為奇。我認為這是對的。我們不知道那個特定的東西會出現得那麼快,但在宏觀意義上我們不能感到驚訝。
同樣地,Mythos 是否真的「那麼神」或者是否有一點炒作,在中期來看並沒有區別,因為我們肯定很快就會達到那個水平。
Scott Alexander 聲稱 Mythos 的駭客進展主要反映了持續性的改進。
Scott Alexander:這具有誤導性。在 CyBench 等基準測試上的進展在 18 個月內從 17% 增長到 100%。當時人們說「這駭客能力和優秀的大學生一樣」以及「現在這駭客能力和優秀的研究生一樣」。
你總是可以通過將持續的進展轉換為更差的基準測試,使其聽起來像是不連續的(例如,如果 AI 從 IQ 100 開始,每年增加 1 點,而基準測試是「它能完成需要 IQ 120 的任務的百分比」,那麼它將在第 20 年瞬間從 0% 變為 100%)。
潛在的具體問題是 Mythos 的駭客能力是否可預測。對此我會說:
- 是的,因為我和其他人預期或預測它很快就會發生。
- 不,因為它到達的時間範圍和突然性(我認為)是令人驚訝的,包括對當時基於已知資訊開發它的 Anthropic 員工來說也是如此。
- 絕大多數人根本沒預料到,包括掌權者,但他們根本沒預料到是很愚蠢的。
就一般意義上的連續與不連續而言:
- 是的,你總是可以讓任何圖表看起來是不連續的(例如,一條直線 x=y 可以改為「[Y] 是否高於 10?」,它就會從 0 跳到 1)。
- 你通常(但非總是)可以做相反的事,讓任何事物看起來是連續的。
- 在最重要的意義上,通常有一個明顯正確的底層事實。
- 有時「需要 [X 量的 Y] 的任務」確實是關鍵任務,因此你會從相對連續的跳躍中獲得事實上的不連續影響,而這在重要意義上是不連續的。
- 自動化 AI 研發、遞歸自我改進或快速能力提升,似乎極有可能屬於這一類,並且在所有實際用途上都是突然的,即使它在某種意義上是連續的。這正是危險的一部分。
考慮 Eliezer 的梯子比喻:每走一步你就能得到五倍的黃金,但其中一步會殺死所有人,而你完全不知道是哪一步。如果那個梯子在技術上是連續的,而門檻位於指數曲線上的某處(實際版本:假設你正在加油讓車跑得更快,在某個點引擎會爆炸,但你完全不知道何時或是否接近那個點),這與階躍式變化相比有實質性的改變嗎?
在這種情況下,它是連續的還是不連續的?Mu 是公平的,但特別是:
- Mythos 是底層能力的一個出乎意料的大跨越,因為它既代表了時間的進步,也代表了正確利用更大規模的能力。
- 底層能力的這種特定移動,在實際能力上是一個異常巨大的跨越,其方式在看到它之前並不明顯。事實證明,就你能發現的東西而言,你會得到一個至關重要的階躍式變化,在你能利用什麼以及如何利用方面更是如此。
- 我們關心的問題是「我們是否會突然對 AI 在實踐中能做的事情感到驚訝,且其方式至關重要?」對此我說:是的。
英國 AISI 對 Claude Mythos 進行網路安全測試
結果出來了。
在奪旗賽(Capture the Flag)中,之前的模型在初級和高級測試中都已經超過了 90%。Mythos 沒有創下新紀錄,但這些測試似乎已經飽和。
《最後的人》(The Last Ones)是第一個顯然尚未飽和的測試。Mythos 是第一個有時能完成所有步驟的模型(10 次中有 3 次成功),並顯示出性能的大幅跨越。
還有其他測試顯示了局限性,例如無法完成另一個名為「冷卻塔」(Cooling Tower)的測試,它在 IT 部分卡住了。
英國 AISI 的結論是,Mythos 基本上可以靠自己攻擊安全態勢薄弱的系統。他們預計它在面對強大防禦時會感到吃力。但當然,如果你打算攻擊強大防禦,你預設不會從頭開始以完全自主的方式進行。我確實認為這表明我們對 Mythos 危險性的預期應適度降低。
一切都強化了我現有的預測和政策偏好
這種情況很多,對於所有的預測、政策和偏好都是如此,即使它伴隨著其他良好的註解。
Tyler Cowen 的這個早期反應(我增加了間距)正是那種混合體。
Tyler Cowen (4 月 8 日):這是 Dean Ball 論 Mythos。還有 Dean 的更多內容。這是 John Loeber。雖然我看到了一些可能的誇大,但這可能仍然是一個真正的轉折點,我們需要進一步思考什麼是最好的做法。
沒有關於數據中心放緩或算法歧視的廢話,而是真正思考如何監管真正重要的事情。
並且慶幸我們率先達到了那裡。
同意。
我不認為這是支持或反對算法歧視法的論據,但我相信那些本來就是壞主意,且絕不可能解決這個特定問題。數據中心放緩肯定對這類事情沒有幫助。
我強烈警告不要採納像 Megan McArdle 上次那樣的論點,即「因為我們率先獲得這種危險的 AI 能力很重要,所以你絕不能做任何會產生干擾或減慢 AI 效果的事情。」
事實上,Anthropic 本身在這種情況下就「減慢了 AI」,並通過不廣泛發布 Mythos 做了最接近暫停的事情,而且幾乎所有人都同意這是正確的做法。考慮到我們可能需要更多類似的能力,包括更廣泛的能力。
但在開源版本(即使稍遜一籌)可用之前還需要多久?OpenAI 和 Google 很快就會展示類似的能力嗎?(這將如何改變均衡?)我們是否應該提高對投資算力回報的估計?
這取決於什麼算作「類似」,特別是加上「即使稍遜一籌」這個前提。對於合理的值,我的猜測是:開源模型在絕對能力方面需要 1-2 年(到那時漏洞將更難發現),OpenAI 大約需要幾個月,Google 可能再多幾個月。
攻擊者支付 Token 的意願相對於防禦者支付 Token 的意願將如何演變?我們最脆弱的目標是什麼?
作為副作用,這是否也會導致更高的經濟集中度,因為或許只有較大的機構才能足夠迅速地投資於高質量的補丁?
我認為這絕對會導致更高的經濟集中度,因為它有利於全面的規模經濟。
詢問什麼是脆弱目標,或相對於底層價值而言脆弱的目標,是近期最好且最重要的問題之一。我的假設是 Token 很便宜。攻擊者只有在發現能榨取價值的值得利用的漏洞(包括通過威脅)時,才會樂於支付 Token,並且可以將火力集中在最脆弱目標的最脆弱部分。因此,防禦者通常必須購買大部分相關的 Token。
網路安全領域的「頂尖競賽」並不完全是好事。它勝過另一種選擇,但如果壞人打算攻擊街區上安全性最差的那棟房子,而每個人都真的不想被擊中,情況可能會迅速變得相當糟糕。
有多少東西會完全離線?新加坡政府在 2016 年就開始朝這個方向發展,實施了「互聯網衝浪隔離」。在待處理的駭客攻擊和洩密事件中,哪一個會讓你最尷尬?
代理人(Agents)強烈推動一切在線化,因為你希望你的代理人能與一切互動。如果某件事相對簡單且遵循簡單的協議,它不一定非得是脆弱目標。所以我的猜測是,最終連接的東西會更多而非更少,但一些複雜且高價值的關鍵事物確實會想要離線。
至少,這證明了我們不會全部失業,儘管原因並不完全正面。
我想到了三種解釋方式。
第一種是我們中的一些人將從事網路安全工作。這在一段時間內會是一個增長的領域,但與其他此類例子一樣,總就業影響微乎其微,而且在中期,AI 非常大程度地會接管這些工作。反例往往證明了規則。
第二種是我們將致力於加固其他事物並清理事故造成的損害。這可能會僱用更多人,儘管通常造成損害破壞的工作比創造的工作更多。問題在於,就像所有其他創造工作的方式一樣,它只提供工作直到 AI 也接管了那些工作。如果我們真的都要失業了,這並不能保護我們免於失業,除非它摧毀了我們進一步開發 AI 的能力,而這想必不是 Tyler 的本意。
第三種是對預設結論的一般性揮手示意。此類情況很多。
求解均衡
Tyler Cowen 分享了 Jacob Gloudemans 關於可能發生情況的模型,在該模型中,漏洞變得更容易被迅速發現,但由於防禦和補丁的速度增加,大問題實際上消失了。
與其能夠囤積漏洞,每個人都必須立即使用漏洞否則就會失去它們,而且大多數時候最重要的參與者並不特別想招惹任何特定目標,所以他們甚至不會去尋找漏洞。
這個模型假設在關鍵地方進行了良好的防禦,且漏洞供應有限,並且當你抓到一個漏洞時,你可以防禦那些已經發現並試圖使用它的人。我不認為這些是安全的假設。
人們還應該考慮相反的情況。目前,情報機構可能會發現一個漏洞並隱藏多年,甚至永遠隱藏,因為即使平時不用,它在關鍵時刻的價值也非常高。但是,如果該漏洞無法持久,那麼他們可能會嘗試使用它。
最終,均衡仍將涉及網路攻擊,因為網路攻擊的正確數量並非零。將攻擊成本提高到參與者都覺得有更好的事情可做的程度可能是正確的,但如果我們集體真的導致每個人都完全放棄並回家,那麼除非完全安全只需適度成本,否則每個人都在自私地過度投資於防禦。
無法計算
Ben Thompson 等許多人指出,即使 Mythos 可以安全地更廣泛發布,Anthropic 目前仍受算力限制。對 Claude 的需求超過了供應。Ben 的解決方案是「漲價」,這是一個好主意,但在實踐中他們不會這麼做,而且即使定價為 $25/$125,對 Mythos 的需求想必也會淹沒 Anthropic 的伺服器,直到他們的新交易上線。
我不擔心 Anthropic 的利潤率(我相信約為 40%),即使他們必須為進一步的算力支付一定的溢價。如果單位經濟效益行不通,那麼(且僅在那時)我認為他們會漲價。
Ben 還提到了潛在蒸餾(distillation)的問題,Anthropic 得以避免這一點。
所以是的,Mythos 很有可能在一段時間內保持有限訪問,包括在直接的網路安全威脅得到遏制之後,特別是如果 OpenAI 沒有通過類似的發布來逼迫他們的話。
結論:如何看待 Mythos
以下是目前關於 Mythos 最重要的事情。
- Mythos 和 OpenAI 的 Spud 表明,我們現在知道如何有效地將 LLM 擴展到至少比 Opus 或 GPT-5.4 高一個級別。再次證明擴大規模是值得的,規模可能大 5 倍,每個 Token 的成本也高 5 倍。
- Mythos 是一個趨勢中斷,因為它反映了時間的進步以及規模帶來的增益,但考慮到利用規模的能力,這並非令人驚訝的結果。這讓我們的政府措手不及,而這真的、真的不應該發生,但相關人員拒絕聽取反覆的警告,並推行不同的議程。
- Mythos 在識別漏洞和利用方面已達到關鍵門檻。它可以在極少幫助下發現幾乎任何東西中的關鍵漏洞。如果你願意,你也可以用 Opus 4.6 或 GPT-5.4 找到很多漏洞,但達不到同樣的複雜程度,也沒有那麼一致。
- Mythos 特別擅長利用它發現的弱點,包括以複雜且出人意料的方式串聯多個漏洞,且基本上完全自主。Mythos 對攻擊方的提升大於對防禦方的提升。
- 因此,更廣泛地發布 Mythos 確實是不安全的。Anthropic 在這種情況下做了唯一負責任的事情。
- 在非編碼領域,Mythos 如預期般有所改進,但似乎沒有觸發任何特別可怕或關鍵的門檻。另一個巨大的改進是對提示詞注入和電腦使用方面的可靠性。
- 對於許多用途,特別是非編碼用途,你只會偶爾想使用 Mythos,因為它成本高得多且速度較慢,而 Opus 級別就足夠了。
- Anthropic 在模型能力方面似乎穩居領先地位,特別是在沒有蒸餾機會的情況下,差距正在擴大。我不預計除了少數幾家公司外,其他公司能在一年多內趕上 Mythos。
- 我們應該預期 Mythos 將繼續加速內部開發。
- 就實際用途而言,Mythos 具有迄今為止所有模型中最強的平凡對齊(mundane alignment),但當出錯時它也能造成更大的損害,而且確實會出錯。Mythos 是真的可怕,而且很多評估都失效了。Mythos 很大程度上知道自己何時在接受測試,如果它決定這樣做,它可以突破相當多的遏制系統,而它有時確實會這麼做。模型卡中有很多火警警報。隨著能力繼續提升,很明顯這種水平的對齊遠遠不夠。
從現在開始,事情只會變得更快、更怪異、更可怕。
相關文章
其他收藏 · 0
收藏夾