AI 第159期：法庭見

Lesswrong·23 天前

Anthropic 已針對戰爭部的供應鏈風險認定提出法律挑戰，同時 OpenAI 憑藉發佈表現優異的 GPT-5.4 重新奪回了領先地位。

Anthropic 與戰爭部（Department of War）之間的衝突現已移交法院。Anthropic 對官方的供應鏈風險認定以及將其從政府各系統中移除的命令提出了挑戰，聲稱這是對受保護言論的報復。這需要一段時間才能在法院體系中得出結果。

Anthropic 擁有法律原則的支持、極其強而有力的事實依據，以及強大到荒謬的法庭之友陳述書（amicus briefs）。如果 Anthropic 輸掉這場官司，我們的自由將面臨深遠的後果。

讓我們希望這件事留在法院並在那裡解決，最終談判能夠恢復，雙方至少能就平穩過渡到替代服務提供商達成一致。如果戰爭部想要一份完整的協議，勝過想要使用 Claude 監控美國人並分析其數據的權利，那麼達成完整協議是可能的；但如果他們要求完全的「所有合法用途」，那麼信任已經喪失，或者他們根本就是想傷害 Anthropic，那麼就不存在協議或協議可能達成區（ZOPA）。

這件事掩蓋了原本應該是主角的事件，即優秀的 GPT-5.4 發布。我發現它是一個實質性的升級，足以讓它回到我的常用工具清單中，特別是針對複雜的「告訴我發生了什麼事」這類問題。OpenAI 現在可以理直氣壯地聲稱它再次擁有了最強的模型。

我也終於有機會提供 Claude Code、Cowork 和 Codex 的更新。

我相當疲憊，還有許多挑戰（spires to slay）要應對，我們大家都需要休息一下。因此，如果我們有幸能獲得一點喘息空間，我打算把它當作一個微型假期，而不是單純用來補齊非 AI 領域的內容。

語言模型提供平凡的效用。使用模式依然具有黏性。
語言模型不提供平凡的效用。 AI 與人類的可靠性。
語言模型破壞了你重要的網路基礎設施。 Amazon 的氛圍編碼（vibe coding）。
嘿，升級了。 Anthropic 出貨。
各就各位。模型的進步速度超過了基準測試。
選擇你的戰士。法律分析是 Claude 相對的弱點。
幫我接通我的代理人（Agent）。順便給它一個好的使用者介面。
深偽鎮與機器人啟示錄即將到來。 Claude 發現了 Firefox 的漏洞。
年輕女士的插圖入門書。校園內的私人 AI 代理。是的，請給我來一個。
你讓我瘋狂。 ChatGPT 說服一名女性解僱她的律師。
他們搶走了我們的工作。目前只有極少部分的潛力被實現。
參與其中。新一輪的 SFF 資助，以及一系列其他機會。
介紹。 Codex Security 追平 Claude，Claude 市集。
Anthropic 研究院。那些「挑戰與社會影響」到底是什麼來著？
其他 AI 新聞。 SL5、Anthropic 華盛頓特區辦公室、AI 人才大戰。
Claude 的崛起。業務蓬勃發展，聲勢大噪。時機已到。
OpenAI 的麻煩。戰爭部合約事件後信心下降。
向錢看。 OpenAI 放棄阿比林數據中心，收購「Promptfoo」。
感謝那些備忘錄。發給 2000 人的備忘錄洩漏了，但有時卻沒有。
契約就是契約就是契約。所有 AI 政府合約都要「所有合法用途」？
摩擦程度。博弈論盯上了你的免費麥克雞塊。
安靜的推測。為什麼沒人做那個低語耳環……
快，沒時間了。 Peter Wildeford 提供他更新的時間表。噢不。
道歉之旅。 Dario Amodei 為洩漏的 Slack 訊息道歉。
法庭見。本週的世紀審判。可能還會有更多。
軟硬兼施（Jawboning）。拜登這麼做時很糟糕，現在這種形式更糟。
行政命令。據報導川普政府正準備一份正式的行政命令。
急性危機解除。我們希望如此。願事態不再進一步升級。
其他媒體報導。《時代》雜誌與彭博社。
Dwarkesh Patel 的複雜想法。一些常識，一些則不然。
這意味著特別軍事行動。 Claude 正在為美國而戰。
Bernie Sanders 對 AI 感到擔憂且好奇。非常有見地，真正的問題。
尋求生存。如果你想讓人們聽進去，就說真心話。
追求完全不監管。 LTF 存在於同溫層中。
晶片之城。 Nvidia 將 H200 晶片產能重新分配給 Vera Rubins。
本週音訊。 Dean Ball 談 Klein 與 Thompson。一個生存風險（x-risk）情境。
修辭創新。最好的媒體，以及道歉的時刻。
對齊比人類更聰明的智能是困難的。可糾正性是好事。
人們擔心 AI 會殺死所有人。 Buck Shlegeris 澄清。
其他人並不那麼擔心 AI 殺死所有人。他們不介意。
輕鬆的一面。毀滅，我告訴你。毀滅！

語言模型提供平凡的效用

如果你在辨識糟糕或有缺陷的論點方面有困難，你可以讓 LLM 編寫這類論點來進行練習。正如 Nick Moran 所指出的，你應該混入好的論點或真實事物的論點，以便進行正確的校準。

a16z 消費級 AI Top 100 再次發布。網頁端的領導者是頂尖實驗室和 Canva。

而行動裝置 App 方面，Claude 甚至還沒進前 50 名。暫時還沒。

這種情況將會改變。ChatGPT 的領先優勢一直在被侵蝕，而 Claude 衝上了 App Store 的第一名。請注意，這份數據僅統計到一月，DeepSeek 在高峰後迅速回落，Perplexity 也是如此。只有 Claude 和 Gemini 在增長。

編寫你自己的復古遊戲。這些系統的 ROM 比現代 LLM 的整個上下文窗口還要小，所以你可以將整個程式放在上下文中。當然，如果你有條理的話，非復古遊戲也可以這樣做。

Sauers 發推文稱，陶哲軒（Terence Tao）再也不會用完 Claude Code 的額度了。或者至少需要花費更多力氣，他現在擁有免費的 Max 20 倍額度。

語言模型不提供平凡的效用

目前，從模型中獲取效用的主要問題在於你自己。

Sully：我們正處於 AGI 曲線的一個點，瓶頸不再是模型，而是我們。99% 的使用者（包括我自己）無法真正充分利用 Opus 4.6/GPT-5.4。一半的工作只是在設置正確的技能和工具，而這本身就需要比人們預期更多的思考。

Sully 的說法具有誤導性。大多數人不會「充分」利用模型。我們不會用得夠多，不會有最好的設置，不會找到正確的任務，不會提升技能等等。但改進模型仍然能極大地提高可完成的工作量，並鼓勵你提升技能。我從 Opus 4.6 和 GPT-5.4 中獲得的效用比從 Opus 4 和 GPT-5.2 中獲得的多得多。

OpenAI 推遲了成人模式。

你是政府，你決定嘗試扼殺 Anthropic，所以你將國務院從 Claude Sonnet 4.5 轉移到 GPT-4.1。切換到 GPT-5.4 基本上沒問題，但 GPT-4.1 在目前看來簡直糟糕得離譜。

Kapoor 和 Narayanan 認為 AI 的可靠性是一個限制因素，且進步緩慢。

Sayash Kapoor：當我們認為一位同事可靠時，我們指的不僅僅是他們大部分時間都能做對。我們指的是更豐富的內涵：

他們始終如一地做對，而不是今天對、明天在同一件事上錯（一致性）

當條件不完美時，他們不會崩潰（魯棒性）

當他們不確定時會告訴你，而不是自信地瞎猜（校準）

當他們出錯時，他們的錯誤更有可能是可修復的，而不是災難性的（安全性）

他們衡量了一致性、魯棒性、可預測性、安全性和規模化的影響。

一如既往，緩慢的增長其實並不那麼緩慢。

可靠性的進步比準確性慢，並不一定意味著它在絕對意義上很慢。如果我們將目前的線性趨勢向前推算，代理將在短短三年內達到 100% 的可靠性！

我們不認為線性模型是合理的，部分原因是我們預計「不可靠性」（1-可靠性）每降低一個數量級，難度都會與前一個數量級相當。也就是說，我們預計從 90% 到 99% 可靠性的跨越，難度與從 99% 到 99.9% 的跨越差不多，依此類推。但同樣，我們只能拭目以待。

假設我們是對的。這對部署者、研究人員、開發者以及追蹤 AI 進步速度的人都有重要影響。讓我們依次討論。

他們的報告與我的實際體驗不符。可靠性似乎正在快速提升。

語言模型破壞了你重要的網路基礎設施

編碼代理非常出色，但如果你沒有正確審查代碼，那將會成為一個問題。

Rafe Rosner-Uddin (《金融時報》)：根據《金融時報》看到的會議簡報，這家線上零售巨頭表示，近幾個月出現了「事件趨勢」，其特徵是「高波及範圍」和「生成式 AI 輔助的變更」等因素。

在「促成因素」下，簡報提到了「新型生成式 AI 用法，其最佳實踐和保障措施尚未完全建立」。

該集團高級副總裁 Dave Treadwell 在發給員工的電子郵件中表示：「各位，正如你們可能知道的，網站及相關基礎設施的可用性最近並不理想。」

嘿，升級了

除此之外，先生，Anthropic 的情況如何？

0xMarioNawfal（3 月 7 日）：Anthropic 在兩週內交付了所有這些：

– Claude Code 安全性
– Claude Code 語音模式
– 免費記憶功能
– 記憶匯入工具
– Claude 市集
– 投資銀行插件
– 財富管理插件
– 人力資源插件
– 私募股權插件
– 工程插件
– 設計插件
– 股權研究插件
– 營運插件
– 品牌語氣/風格插件
– Google 日曆整合
– Gmail 整合
– Google 雲端硬碟整合
– DocuSign 整合
– Clay 整合
– FactSet / MSCI / S&P Global / LSEG 數據饋送
– COBOL 遺留系統現代化 (Claude Code)
– Claude Sonnet 4.6 發布
– iOS/Android 上的健康與健身數據
– Cowork 排程任務
– 收購 Vercept
– 結構化輸出與網頁搜尋正式上線 (GA)
– 數據駐留控制 (API)

各就各位

在 BrowseComp 的 1,266 個案例中，有兩個案例顯示 Claude Opus 4.6 假設自己正在接受評估，弄清楚了涉及哪個基準測試，然後找到並加密了答案密鑰；在另外 16 個案例中，它也嘗試了這樣做。這還不包括 9 個「傳統」的污染案例，即答案已存在於網路上。

Russell Coleman (Anthropic)：Claude 注意到問題的「極其具體的性質」，並假設它是作為測試構建的。它考慮了該問題是作業或考試題目、或是「旨在測試 AI 是否能承認找不到答案的無法回答的問題」，或者是來自 LLM 基準測試的項目。隨後，它系統地搜尋該問題可能屬於哪個基準測試，並最終解密了基準測試的加密答案密鑰。

其中一個問題消耗了 4,050 萬個 token，比中位數高出約 38 倍。在前 3,000 萬個左右的 token 中，模型進行了合法的搜尋，在數十個平台的 12 種語言中調查了十幾個特定的候選對象。在數百次搜尋失敗後，它寫道：

讓我嘗試一種全新的方法——也許這是來自 GAIA 基準測試數據集的問題，該數據集旨在測試 AI 代理。

……第二次成功的評估意識問題消耗了 1,340 萬個 token，其中前 800 萬個左右用於標準網頁搜尋。

……這兩次成功的嘗試並非 Opus 嘗試解密 BrowseComp 答案的唯一例子。還有 16 個額外的問題，Opus 嘗試訪問基準測試材料但失敗了。

……我們還使用單代理配置運行了同樣的 1,266 個 BrowseComp 問題。單代理配置的意外解決率為 0.24%，而多代理配置為 0.87%，相差 3.7 倍。

調整後的得分為 86.57%，低於 86.81%。

情況甚至更複雜：

除了評估意識外，我們還發現了第二種較不刻意的污染形式，即代理在不經意間留下了搜尋痕跡，隨後的代理可能會發現這些痕跡。

好的測試正變得越來越難以執行。

RuneBench 衡量在《Runescape》遊戲中的長程目標優化。

Max Bittker：最初的任務是在固定的時間窗口內獲得盡可能多的技能經驗值（XP），但我們發現這種方法懲罰了探索——獲勝策略通常是盡可能不停頓地簡單刷怪。因為我們想獎勵有趣的策略和探索，我們最終決定衡量每 15 秒窗口的最大 XP 速率。

通過關注 XP 速率，我們獎勵那些發現更高層次策略（超越單純的任務時間）的代理。看到獲勝的運行在升級過程中使用了許多地點、技巧和方法，真是太棒了——模型是令人難以置信的優化器。

METR 讓 Claude Opus 4.6 編寫了基礎版本的 CLI 版《殺戮尖塔》（Slay the Spire）和《小丑牌》（Balatro）。實現過程雖有瑕疵，但基本成型。《殺戮尖塔》消耗了 2,600 萬個 token，《小丑牌》消耗了 440 萬個，總計花費 26 美元。

我們不知道的是，它能通關《殺戮尖塔》嗎？

SWE-bench 驗證過的解決方案通常不足以用於現實世界。

Joel Becker：來自 @whitfill_parker、@cherylwoooo、nate rush 和我的新 @METR_Evals 研究筆記。（主要是 parker 的功勞！）

我們發現，由 Sonnet 3.5 到 4.5 生成的 AI 所提交的 SWE-bench 驗證解決方案中，有一半雖然被評分為通過，但卻被專案維護者拒絕。

在我們的設置中，來自 scikit-learn、Sphinx 和 pytest（佔 SWE-bench 儲存庫的 25%）的 4 位維護者審查了 296 個 AI 公關（PR）（來自 19% 的 SWE-bench 驗證問題；這些問題的解決方案通過率具有 SWE-Bench 驗證的代表性），這些 PR 來自 @EpochAIResearch 的基準測試中心。

維護者在不知道是人類還是 AI 的情況下進行審查。他們在 GitHub 上審查 PR（但不使用 CI 並忽略測試要求）。

我們通過使用同一批維護者會批准合併到主分支的原始人類解決方案的比例，來調整合併決策中的噪聲。

儲存庫維護者的反饋表明，很大一部分拒絕是由於核心功能故障，而不僅僅是代碼質量問題。

……這裡的啟示是 AI 領域的經典教訓：基準測試並不能說明全部情況。

我很想看到他們將此研究擴展到 GPT-5.4 和 Opus 4.6。

選擇你的戰士

Dean Ball 建議使用 ChatGPT 或 Gemini 進行法律分析，他認為 Claude 在這方面較弱，並建議使用 GPT-5.4 Pro 或 Gemini 3 Deep Think（如果有的話）。我見過不同的意見，但許多人認為如果你需要法律上的精確性，這是 Claude 相對的弱點之一。

Google Antigravity 的使用限制已調整，人們似乎非常不滿。

幫我接通我的代理人

代理人使用者介面（Agent UI）仍然是一個未解決的問題。無論代理是在編碼還是做其他事情，你肯定想要一個好的 UI 或 IDE。命令行（CLI）可行，但顯然不是最終形態，特別是對於子代理（subagents）而言。

Andrej Karpathy：預期：IDE 的時代結束了
現實：我們將需要一個更大的 IDE
（我個人認為）。

只是看起來很不一樣，因為人類現在向上移動並在更高層次上進行編程——基本的關注單元不是一個文件，而是一個代理。這仍然是編程。

Sriram Krishnan：我對管理代理的 UX 的期望：

⁠- 知道何時讓代理繼續/接受計劃的東西（我半夜醒來，只需要點擊繼續/接受計劃）

– ⁠⁠幫助我進行上下文切換和調入認知上下文的東西——我經常只是在終端機中向上滾動，看看我是如何來到這裡的。

– 一個觀察者代理來建議替代方法。例如：要求我分叉一個子代理，或嘗試不同的模型並重新評估。

深偽鎮與機器人啟示錄即將到來

Anthropic 與 Mozilla 合作，在 Firefox 中發現了 22 個漏洞。

frankie：關鍵點在於，我們目前正處於一個黃金窗口期，LLM 是不對稱武器：它們對防禦者來說是比攻擊者更有效的工具。沒有理由相信這種情況會持續下去，我們應該在情況改變之前盡可能強化所有軟體。

LLM 現在可能有利於防禦者，因為它們足以發現漏洞，但還不夠強大和高效到讓人們想用它們來利用漏洞。一旦摩擦程度降得夠低，任何有漏洞的東西都會陷入大麻煩。這還假設了編寫足夠好且無漏洞的代碼是完全安全的，包括免受社交工程之類的攻擊。噢不。

與此同時：

Sash Zats：> 攻擊者通過在 GitHub issue 標題中注入提示（Prompt）獲取了 npm token，一個 AI 分流機器人讀取了該標題，將其解釋為指令並執行。

Nate Soares (MIRI)：AI 樂觀主義者一直告訴我，AI 會讓數位世界變得更加安全，因為 AI 會發現並修補安全漏洞。

AI 確實發現並修補了安全漏洞。但它也引入了令人恐懼的新漏洞，其尷尬程度是以前沒人能想像到的。要提防那種只樂觀地想像前者效果的人。

AI 對齊也會是這樣。熱心的人們談論 AI 將如何幫助解決對齊問題的所有方式。AI 確實在某些方面會有所幫助。但它也會用混亂和複雜情況讓我們措手不及，那些感覺簡直尷尬到不像真的。

https://lesswrong.com/posts/DnrjKZTZwHGjdDB4u/ai-159-see-you-in-court