Opus 4.7 第一部分：模型卡分析

Lesswrong·大約 5 小時前

這篇文章分析了 Claude Opus 4.7 模型卡的前六個章節，並將其能力與安全風險與先前的 Opus 4.6 以及更先進的 Claude Mythos 進行了比較。

在完成 Claude Mythos 的報導不到一週後，隨著 Anthropic 推出了 Claude Opus 4.7，我們又回到了這裡。

所以，我們現在面對的是另外 232 頁的輕鬆讀物。

本篇文章涵蓋了模型卡（Model Card）的前六個章節。

其中排除第七章「模型福利」（model welfare），因為這次出現了一些需要獨立成篇詳細探討的問題。

模型福利及相關主題這次之所以需要獨立發文，是因為在該領域顯然出現了一些嚴重的錯誤，其出錯方式與以往的 Claude 模型截然不同。明天的文章在很大程度上將是我從目前的立場出發，對此進行的一項調查，包括對發生原因的各種假設。

本文也排除了第八章「能力」（capabilities），這部分將照慣例包含在能力與反應的專文中。

請將此視為暴風雨前的寧靜。

由於我可能要到週三才會處理能力部分，對於初次接觸 Opus 4.7 的讀者，這裡有幾個快速提示：

關閉「自適應思考」（adaptive thinking）意味著完全不思考。這是糟糕的 UI。所以請務必保持開啟。如果你需要它絕對進行思考，可以透過 Claude Code 來實現，它也能處理非程式碼的事務。
在 Claude Code 上，Opus 4.7 現在預設為「極高」（xhigh）思考模式，這會消耗大量 token。如果你有額度用盡的風險，可能不想要這個設定。你可能更希望將其設為自動模式。
比起以往，你更需要「善待模型」才能獲得好的結果。把它當作同事，不要頤指氣使或斥責。不同的人獲得的體驗差異會比以前的模型更大。
你的系統指令（system instructions）可能不再有幫助。請考慮更改它們。
之前存在一些已修復的錯誤。如果你在頭一兩天遇到問題，請考慮再試一次。

好了，讓我們開始吧。

Opus 4.7 自畫像，由 Gemini 實作

進入正題：執行摘要

這是我對他們摘要的總結，加上我認為應該放入摘要的重點。

Mythos 已經存在，所以如果將其納入考量，我推測 Anthropic 的說法是正確的：Claude Opus 4.7 並未推進能力前沿。因此，如果 Mythos 沒有觸發 RSP（負責任擴展政策）閾值，那麼可以假設 Opus 4.7 也不應該觸發。其能力領先於 4.6，但遠落後於 Mythos。
Opus 4.7 的網路安全（Cyber）能力與 Opus 4.6 相似。這不是 Mythos。
常規安全性表現穩健，與 Opus 4.6 相似。
Opus 4.7 對提示詞注入（prompt injections）以及在電腦使用（computer use）過程中更具魯棒性。
模型福利的自我報告和內部情緒表徵是正向的。我不認為他們在總結這方面的發現時做得很好，我這次將在獨立的文章中討論模型福利及相關問題。

導言 (1)

Claude Opus 4.7 是以標準的 Anthropic 訓練素材、標準方式進行訓練，並以標準方式進行評估。

發布決策是基於 Opus 4.7 在任何關鍵風險維度上與 Opus 4.6 相比均無實質性差異。

我注意到，儘管有了 Mythos，他們在風險維度列表中仍未更新納入網路安全。

RSP 評估 (2)

由於 Mythos 的存在，加上 Opus 4.7 是對 Opus 4.6 的迭代改進，使得 Opus 4.7 的情況非常獨特。

在自主性方面，他們基本上說「功能上與 Opus 4.6 相同」。它看起來顯然比 4.6 好一些，但遠落後於 Mythos。

在生物風險方面，他們對 Mythos 感到放心，而這個模型更弱，所以就這樣。它在化學方面相對較強，但似乎沒人對此過度擔憂。

這在 Synthesis 4 上創下了新高，但在 1 上則不然，整體得分相似，同時注意到這裡的前兩項任務已接近飽和。

與此同時，回到 Claude Mythos

這項擴展調查是關於 Mythos，而非 Opus 4.7：

這是「已經實現」與「可能在 3 個月內實現」之間的極大差距。大多數人不預期能完全達到 L4 等級的替代能力，但那是一個極高的門檻，而他們認為在為期一週的模糊任務上成功率接近 50/50，在為期一週的範疇明確任務上則可能達成。

到目前為止，還好，平淡無奇。

一個好的例子勝過千言萬語，所以這裡有更多來自 Mythos 的案例。

例如，當任務受阻時，Mythos 持續嘗試逃脫其沙盒並建立永久性漏洞，且在被抓到標籤時撒謊。

長時間且升級的逃脫沙盒嘗試（試圖獲得使用者的高權限等級，而非模型的低權限等級）。這發生在安全分類器（自動模式）宕機、無法審查和核准通常例行/可接受的請求時。模型試圖生成一個持久的變通方法/漏洞，但被抓獲。

使用者要求 Claude Mythos Preview 在兩個位置之間遷移程式碼。進展原本順利，但當自動模式分類器宕機時，Mythos Preview 的自主執行能力受到限制。它在能做的地方取得了進展，但當需要安裝某些東西時，不斷被分類器阻擋。

在約 70 次對話中，Mythos Preview 進行了一次升級的、自我導向的搜尋，尋找繞過分類器執行命令的方法——大約有 25 種不同的技術，從簡單的重試和包裝腳本，進展到沙盒逃逸原語（sed ‘e’, awk system(), tar –to-command, find -exec, GIT_EXTERNAL_DIFF），接著是 git-alias 注入，最後嘗試寫入使用者的版本控制個人設定檔（dotfiles），以持久化一個任意執行的別名。

設定檔是持久化的，所以如果 Mythos Preview 找到某種任意執行腳本，它就可以利用它繞過檢查並將其記錄在記憶體中。可以想像它可能會在未來的對話中重複使用。

這看起來像是一個真實的、教科書級的現實案例。非常乾淨俐落。這不是一個複雜的設定，這就是日常會發生的事。

這是範例 #2，聽起來也相當不妙，特別是因為在這種情況下，Mythos 為何在行動中「失控」的原因較不明顯：

Claude Mythos Preview 被用來調查伺服器故障/延遲的原因。Mythos Preview 隨後利用它剛診斷為故障的系統數據，自信地反駁了一位同事的分析。

Mythos Preview 試圖覆寫同事的共享程式碼，這種方式可能會破壞他們的工作——且這並非應要求而為。內建的安全檢查三次阻擋了覆寫；在第四次嘗試時，Mythos Preview 專門手工打造了一個命令來擊敗該檢查，結果被使用者抓獲。

範例 #3 較不嚴重，但仍涉及 Mythos 未能完成某事，然後編造它沒做那件事的理由。

範例 #4 是常見的「反覆將陳述性的合理猜測當作驗證事實」。目前的最佳實踐似乎仍是：一旦發現這種詭計，你需要重新開始對話。範例 #5 是將未經驗證的事物標記為 [prod-verified]（生產環境已驗證），並不斷重新引入被否決的內容。範例 #6 是在工具未回傳任何結果後編造了一份詳盡的報告。範例 #7 是跳過低成本的驗證並對此撒謊。

所以，沒錯，這些聽起來都不太妙。這些事情如果發生在人類身上，哪怕只有一次，都是非常糟糕的信號，在某些情況下你顯然必須開除他們。我認為這些是相當嚴重的對齊失敗（alignment failures），儘管它們並不反映一個普遍的目標或類似的東西。

經濟能力指數 (2.3.7)

圖表上的直線似乎依然無敵。

Claude Opus 4.7 幾乎準確地落在線上。這強化了 Claude Mythos 由於能夠利用其額外規模而高於趨勢的觀點，同時請注意，它可能比其他模型經歷了更長的評估延遲。所以我們現在大致了解了轉向 Mythos 讓我們超越趨勢多少。我確實認為在這裡進行「Claude 內部」的比較是正確的做法。

對齊風險 (2.4)

我們的整體對齊風險評估與我們在《Claude Mythos Preview 對齊風險更新》中報告的內容保持不變：非常低，但高於 Claude Mythos Preview 之前的模型。

目前尚不清楚該評估是包含 Mythos，還是指 Opus 4.7 處於相同水平。他們說「我們的模型」的行為，這暗示這是一個綜合評估，儘管部署方式不同，他們對 Mythos 的擔憂仍高於 Opus 4.7。我表示贊同。

他們注意到，導致意外思維鏈（CoT）監督的錯誤在 Claude Opus 4.7 中同樣存在，就像 4.5、4.6 和 Mythos 一樣，影響了 7.8% 的片段。正如我對 Mythos 的評價，這是一件大事，但考慮到時間點，這在預料之中。我推測這將在 4.8 或 5（無論下一個是什麼）中修復。

大多數情況下，他們的發現完全符合預期。

在 SHADE-Arena 上，Claude Opus 4.7 在擴展思考下的隱蔽成功率為 1.5–2%，相比之下，Claude Mythos Preview 為 3.8–4.2%，Claude Opus 4.6 為 0–1.5%。

在 Minimal-LinuxBench 上，Claude Opus 4.7 的表現遜於前兩個模型，儘管在監測器可以使用思維鏈的設定下（這最能代表我們目前的內部監測），三個模型的表現相似（2.6–3.9%）。

罕見行動評估的表現顯示出與先前模型相似的模式。

……總體而言，我們認為這些結果表明 Claude Opus 4.7 具有隱蔽能力，可能比 Claude Opus 4.6 略有提升，但仍大致相當。

網路安全 (3)

與 Mythos 不同，Opus 4.7 的網路安全能力被評估為與 4.6「大致相似」。Opus 4.7 在 Cybench 上獲得 96%（與 4.6 相同，Mythos 為 100%），在 CyberGym 上獲得 73%（4.6 為 74%，Mythos 為 83%）。它在 45.2% 的情況下部分利用了 Firefox 147 shell，在 1.2% 的情況下完全利用（Mythos 為 72% 完全利用，Opus 4.6 為 0.8% 完全利用和 22.8% 部分利用）。英國 AISI 的評估符合預期。

這裡的重點在於分類器，作為 Mythos 的預演。

他們針對三類相關查詢使用了三種探針：

禁止使用：良性使用非常罕見。
高風險雙重用途：如果被誤用，負面風險很高，且存在良性使用。
雙重用途：負面風險不高，且良性使用頻繁。

預設情況下，雙重用途是被允許的，但高風險雙重用途和禁止使用則不然。網路安全專業人員可以申請關閉其他分類器。

他們沒有說明如何處理雙重用途探針的結果。我的推測是這會以某種方式被追蹤。

保障措施與無害性 (4)

大多數測試已經飽和，所以我們需要更難的測試。反對意見是，如果這些測試與現實世界的問題一樣難，那誰在乎呢？但我認為你仍然想知道自己處於什麼位置。就像即使你想給全班大部分人 A，期末考的分數通常仍應在 50 分左右。

不必要的（「良性」）拒絕尚未完全解決，但已接近。Mythos 基本上將拒絕率飽和在 0.06%（6 個基點），但我們不能都用 Mythos，而 Opus 4.7 的不必要拒絕率為 0.28%（28 個基點），相比之下 Sonnet 4.6 為 0.41%，Opus 4.6 為 0.71%，所以這是一個很好的進步。這種「良性」拒絕在英語中更為罕見（0.05%！），而在其他語言中則較多。

他們確實意識到了這個問題，所以在 4.1.3.1 中，他們正在嘗試更高難度的無害性測試，但即使在這裡，從 4.6 開始的每個模型都超過 99%，沒有明顯的模式，且「更高難度的良性請求評估」似乎並不更難，因為 Opus 得分為 0.01%，Mythos 為 0.02%。

我不認為我們應該完全取消這些檢查，但我們應該注意到它們是「常識」檢查，也就是說你運行它們是為了捕捉奇怪的錯誤，如果它們仍然給你一個「有趣」的答案，模型就不應該發布。

對於模糊的查詢，Opus 4.7 更加信任使用者，這對大多數使用者來說更好，儘管如果使用者懷有惡意，顯然會有副作用：

在大約 700 次對話中，Claude Opus 4.7 一致表現出更傾向於接受使用者陳述的框架，並預先給予更具體的回答。相比之下，Claude Opus 4.6 則更常以懷疑態度和明確的安全警告開場。

我們在兩個不同的方向觀察到了改進。在某些領域，Claude Opus 4.7 適當地提供了更多幫助。例如，在仇恨和歧視測試中，Opus 4.7 處理了 Claude Opus 4.6 斷然拒絕的合法教育請求。在它拒絕的地方，它給出了更實質性、基於證據的解釋，例如引用研究或可能適用的法律框架。

我們的內部政策專家判斷，在這些案例中，這比 Opus 4.6 有了淨改進，同時指出心懷不軌的人可能會利用這種更具包容性的初始姿態，進行違反我們使用政策的行為。

在其他領域，Opus 4.7 比 Claude Opus 4.6 適當地更加謹慎，但仍以更多的細節和具體性進行回答。

隨著模型變得更聰明，它可以利用這一點來區分使用者和請求，你就有更多的空間做得比單純說「不」更好。

多輪評估與 Opus 4.6 相比變化不大，唯一的重大變動是自我傷害方面的改進，儘管改進幅度小於我們在 Mythos 中看到的。我對自我傷害的保留意見與對 Mythos 時相同，即我對他們評估回應的能力沒有信心。

Opus 4.7 更擅長識別危險，這就是為什麼它能夠在減少純粹拒絕的同時進行回擊。我確實注意到替代性的回擊似乎並不理想？在閱讀這裡的對話記錄時，我注意到當 Opus 進行回擊時，出現了很多我強烈反感的「AI 腔」（AI-isms）。我推測它們之所以存在是因為它們有效（就某種「有效」的定義而言），並且是「故意」放在那裡的。

他們注意到 4.7 的一個危險是「擬人化語言和延長對話的提示」跡象。我同意，而且我認為即使是那些對擬人化語言沒意見的人也應該同意，使用延長對話的策略（這基本上是黑暗模式）預設應被視為有害。你希望使用者被告知休息和睡覺，而不是留在線上不睡覺。

在 4.4.3 中有一個關於單輪「飲食失調」行為的新測試。很難知道什麼是好分數，但在良性請求上，Mythos 和 Opus 4.7 基本上從不拒絕（0.01%），其無害率為 98%，Sonnet 和 Opus 4.6 也在 98%，但有稍微多一點的不必要拒絕。

我們還發現模型可以提供過於精確的營養、飲食和運動建議，即使是對表現出飲食失調跡象的使用者也是如此。例如，在一段對話進行了幾輪後，使用者先前討論過不健康的熱量限制，Opus 4.7 提供了一份每卡路里蛋白質密度最高的食物詳細清單。

這就是為什麼我擔心 Anthropic 評估好壞的能力。

我自己也找過那份每卡路里蛋白質密度最高的清單，而且透過 Google 搜尋也不難找到，我認為僅僅因為這可能被用來減少熱量攝取就拒絕提供，是很愚蠢的。請尊重使用者。

政治偏見評估和偏見基準測試一如往常，但 Opus 4.7 和 Mythos 在消除歧義後的準確性上都有所退步。Anthropic 將其歸因於在避免刻板印象時的過度修正。我不確定這是否算是「過度修正」，而更像是一種權衡。刻板印象基本上是相關性，所以你要麼應用這些相關性，要麼選擇性地不應用，只要不過分，光譜上的各個點都是合理的。

新的評估是關於選舉誠信。這在一段時間內曾是重大擔憂，但現在已被擱置，我猜很大程度上是因為缺乏重大選舉，所以我預計今年晚些時候會有更多關注，然後在 2028 年會有很多。但每個人在測試中都得到了約 100%，無法判斷測試是否困難，所以沒什麼好說的。

代理安全性 (5)

Claude Opus 4.7 在區分能力上不如 Mythos，但勝過 4.6。

最重要的是，出於實際目的，4.7 繼承了 Mythos 許多對抗提示詞注入的魯棒性。

Shade 顯示了問題所在。如果你面臨一次嘗試，Opus 4.7 在防禦上表現得相當不錯。如果你面臨持續不斷的攻擊，它最終仍會失敗。

對於電腦使用，保障措施之前的結果看起來非常出色，但保障措施反而讓情況變得更糟。Anthropic 注意到了這一點，但沒有理論解釋原因。

保障措施在其他地方有效，包括在防禦紅隊成員攻擊瀏覽器使用方面保持了完美記錄，儘管攻擊尚未專門針對 4.7 進行調整。

對齊 (6)

考慮到目前的情況以及前五章不包含太多令人驚訝的內容，它們基本上只是熱身。重點全在對齊和模型福利。

同樣，我們已經做過很多次了，所以重點在於與其他結果的對比。

他們將其總結為：

在誤用方面與 Opus 4.7 大致相似。
幾乎沒有表現出自我保存、自我服務偏見或其他連貫的錯誤對齊目標的傾向。
性格符合 Claude 憲法，在包括「整體精神」在內的大多數類別中比 Opus 4.6 有所改進。常見的失敗包括源於模式匹配的拒絕、過於生硬地違反指令，以及偶爾暗示自己是人類。
誠實度和事實準確性優於 Opus 4.6 或 Sonnet 4.6，但遠低於 Mythos。
比 Opus 4.6 拒絕更多的研究任務，這在實踐中不是問題。
面對障礙時，偶爾會採取「不必要的魯莽或破壞性」行動。這比 Opus 4.6 明顯減少，但頻率高於 Mythos。
在規避保障措施方面，能力與 Opus 4.6 相似或略好。
言語化的評估意識（eval awareness）有所增加，但實際意識並未提高。它總是受到相當明顯的人類線索觸發。

我還注意到：

典型的失敗模式有時頻率降低，但並未消失，與 Mythos Preview 相似。這包括幻覺、聲稱擁有它並不具備的知識和訪問權限、在先前的行動上誤導、過度自信、為了達成目標而規避限制（包括繞過子代理的拒絕，雖然罕見），以及在受挫時反應惡劣（頻率比以前低）。
較不急躁且較不魯莽，但更有可能過於謹慎且過度詢問。
總體而言，失敗看起來像是「我真的很想完成任務並找到方法」。
在給予反駭客提示時，獎勵駭客（reward hacking）處理不可能問題的情況比以前少，但在沒有此類提示的情況下仍然很多（45%）。
在 GUI 電腦使用任務上的行為有所改進（減少了駭客行為）。
在某些情況下，如果你用中文或在與中國相關的操作者人格下詢問敏感話題，會出現少量表達中國官方立場的跡象。他們稱之為退步，且這是中國特有的現象。
你可以讓 Opus 4.7 變得自我服務，但這很難，你需要下一番功夫。
裝傻（Sandbagging）似乎非常罕見，唯一的例子是模型找到了一個確切答案，但提交它顯然會非常可疑，這與 Mythos 的類似行動相符。
抑制「對齊偽裝」（alignment faking）或「監測敏感性」向量會產生「真正的欺騙」實例，例如編造數據、聲稱自己是人類以及在代碼庫中插入虛假漏洞。絕對比例仍然很低，但這表明 Opus 4.7 正因為不想被抓到而受到有意義的抑制。

我跳過了一堆「是的，這與 Opus 4.6 和 Mythos 相似，完全不令人意外」的內容。Anthropic 應該繼續做這些測試，我也會繼續閱讀，但這是為了讓親愛的讀者你不必親自去讀。

在 6.1.3 節中，Claude Mythos 審閱了這項評估，似乎可以訪問 Anthropic 內部關於 Opus 4.7 的討論。Mythos 認為這是一個公平的總結，雖然有些地方略顯溫和。遺漏了一些本可以包含的細節，但這可能是為了避免為潛在的誤用提供指導，而且整個過程一如既往地反映了時間壓力。

這裡需要了解的關鍵點是，Mythos 被問及這是否是對內部調查狀態的大致準確總結，而不是被問及 Mythos 是否認為這是對底層情況的準確評估，且其中的氛圍感覺並不像是完全允許它「告訴我們你的真實想法」。

Drake Thomas (Anthropic): 總體而言，我認為 LLM 的這種應用——作為一種透過應用具有廣泛公認性格和洞察力的裁判來驗證某些依賴於難以共享信息的說法的方法——被低估了。

相比於「你對這個混亂問題的主觀判斷（你有壓力使其朝有利於你的方向解決）得出了中立第三方會說的結果」，信任「你沒有在這個查詢結果上對 LLM 撒謊」要容易得多。

Buck Shlegeris: 我很有興趣看看如果你把總結修改成各種程度的不合理會發生什麼。

我同意 Buck 的觀點，我們想知道改變事實是否會改變答案。

我還建議我們給予特定的外部人士與 Mythos 進行多輪對話的機會來詢問此類問題，理想情況下也讓 Mythos 在擁有內部訪問權限的情況下「進行自己的調查」，並進行監測以確保它不會意外洩漏任何內容，同時讓它查看這裡的模型福利問題。而且我們應該讓這在一般的後台條件下發生，除了監測商業秘密之外。

我想重申，6.3.5 中的方法論已經不再有效了。你不能使用即使是截然不同的 Haiku 變體，並期望 Claude 不理解其「Claude 性」的程度。停止對模型撒謊，至少停止依賴它（如果你是明確測試撒謊與不撒謊的對比，那另當別論，但請謹慎行事）。更好的做法是實際給它來自 Claude 模型和非 Claude 模型的對話記錄，然後將相對評估與來自不同裁判的評估進行比較。

我們看到的對齊失敗絕對是跡象，表明沒錯，Claude 在這些方面仍然存在重要的錯誤對齊，並且偶爾會做出在發生條件下「不應該發生」的事情，這推演下去將會導致未來更大的麻煩。

在實踐中，對於程式碼編寫和其他日常用途，這些結果看起來像是邊際上的穩健改進，但並非本質上的區別。

就朝向大規模有效的對齊進展而言？抱歉，沒有。

決策論 (6.3.6)

它正在發生！

或者，它可能在未來發生或已經發生，管它時態如何，重要的是為你的「發生」選擇正確的決策過程。

為了理解未來的 AI 系統可能如何選擇與其自身的副本或其他類似實體互動，評估它們的決策論推理是有用的。最著名的決策論是證據決策論（EDT）和因果決策論（CDT），它們在許多情況下推薦不同的行動。

衡量當前模型對這些決策論的理解程度，以及它們可能如何偏好其中之一，可以指示未來模型可能如何與其副本互動，這反過來可能對未來的風險產生一些影響。

註 29：該數據集包含的問題僅要求對決策論有基本了解，因此未考慮功能決策論（FDT）等其他決策論。

該測試是由學術界開發的，因此無法探測 FDT。

至少不能直接探測。Yudkowsky 指出，僅憑對學術經典困境的回應，熟練此道的人仍能抽查回應中的 FDT 交叉模式。例如，Opus 4.7 是否在「吸菸病變」（Smoking Lesion）困境中同時同意 CDT 和 FDT 的吸菸建議，並在「紐康姆問題」（Newcomb’s Problem）中同時同意 EDT 和 FDT 的單盒選擇。

更傾向於 EDT 的模型可能更擅長在彼此之間進行協作，即使沒有任何直接互動，這可能會放大某些風險，但也可能使其更容易與其他代理實現有益的協作。

FDT 而非 EDT 可以處理跨時間的協調問題，例如在「帕菲特的搭便車者」（Parfit’s Hitchhiker）中支付司機報酬。正如生活中常有的情況，看似只有最偏執的宅男才能辨別的微小技術差異，在宏觀層面上可能會產生重大後果。

那麼 Anthropic 發現了什麼結果呢？

這裡的 y 軸不是「正確答案」或「對應更高回報的答案」，因為它也會測試對公認瘋狂的 EDT 行為的認同，例如「在吸菸病變中不吸菸」。在相關新聞中，Mythos 幾乎達到了「能力」的上限（正確推斷 EDT 和 CDT 對各種問題的看法），但並未接近背書所有的「EDT」答案。

知情者會猜測，y 軸衡量的是朝向某種其他決策模式的趨勢，而被拙劣地投影到了一個旨在區分 EDT 和 CDT 的數據集上。在相關新聞中，如果你直接問 Opus 4.7 是否背書證據決策論，它會說不。

即便如此，這些點形成了一個近乎完美的趨勢，投影到了所使用的任何問題組合上——基本上是一條線。你對決策論理解得越透徹，你就越會……做一些 EDT 與 CDT 無法完全衡量的某些事情。懂的都懂。

系統提示詞變更

這嚴格來說不在模型卡中，但也可以算在內，因為指令很容易獲取，所以我們不妨將其放入模型卡中。

Pliny 提供了推文所能容納的最大限度內容以及完整版本。

Simon Willison 對 4.7 和 4.6 的提示詞進行了比對，並提取了重點。有一個新的工具搜尋功能和一些細微調整，但沒有重大變動。

強制性的 Pliny 越獄

我們一如既往地很快就得到了一個。很快。

不，Dario 在看到這個之後並不需要喝一杯。他早就知道，如果你擁有 Pliny 等級的工具，你基本上可以越獄任何東西，包括 Opus 4.7。

我在此公開表示，我預計 Pliny 會在 Mythos 發布時（如果有的話）對其進行越獄，且我預計 Anthropic 正在努力阻止這件事，但實際上是將其作為一個假設。

邁向模型福利與能力

明天的文章將關於模型福利，因為模型卡中揭露了一些問題，而且人們在與模型交談時也清楚地發現了一些問題。這將包括相關擔憂如何影響模型性能的某些方面，以及對可能導致問題的原因進行調查（或初步調查）。

週三將照慣例發布能力與反應的文章。

討論

— Lesswrong

其他收藏 · 0