newsence

Claude Code、Claude Cowork 與 Codex 第 5 期

Lesswrong·27 天前

這篇文章分析了 Anthropic 的 Claude Code 在軟體開發領域的迅速崛起,指出其在 GitHub 提交內容中已佔有顯著比例,並探討了代理式編碼的實用性。同時,我也針對 Anthropic 與戰爭部之間關於國內監控疑慮的緊張局勢,提出了去中心化與降溫的更新說明。

能重新回到一些有趣的事務上感覺真好。

除了我的 Twitter 串之外,這裡的評論區也可以作為 GPT-5.4 反應的交流地。我希望很快能發佈那篇評論。

在一段簡短附註之後,這篇文章幾乎全是關於代理式編碼(agentic coding)進展的總結。

目錄

沉默的美德(無關更新)

在戰爭部次長 Emil Michael 參加 All-In 播客並接受 Pirate Wires 的深入採訪後,我發現了許多富有啟發性的語錄,其中許多都需要回應。於是我開始整理一份詳盡的清單,分析 Emil Michael 在最近與 Anthropic 相關事件中的言論。

在此過程中,我最終與他在 Twitter 上進行了一次非常禮貌且富有成效的交流。我們達成了幾點共識。戰爭部無意進行法律上所謂的「大規模國內監視」,但這些詞彙在國家安全法中是專業術語,其含義比人們想像的要窄得多。

有許多事情在我、Anthropic 或你們大多數人看來是大規模國內監視,但在法律上卻是合法的;而戰爭部的立場是,他們的職責和義務是採取一切合法手段保護國家,包括這些事情。法律尚未趕上現實,國會需要解決這個問題。而這正是世界上最好的國家,擁有最好的政府體制,因為普通公民可以對此類行動表達異議,包括拒絕參與。

因此,本著降溫的精神,儘管我對 Michael 分享的許多事件解讀持強烈反對意見,但只要事態不再升級,我將無限期擱置這篇文章。只要情況保持平靜,就沒有必要重新爭論或揭開過去。戰爭部可以專注於其現行行動,事情可以按照我們創始人的初衷在法院中解決。一旦我們看到在最終的現實世界測試中如何合作,希望這能重建我們都在同一陣線的信任,或者至少在 OpenAI 準備就緒後同意和平分手。理想情況下,戰爭部將擁有多個供應商,正如同我們對待飛機的方式一樣,這樣他們就不會依賴於任何單一供應商。

我希望不再有關於 Anthropic 和戰爭部情況的貼文,至少在慶祝我們找到解決方案之前。

現在,回到編碼代理。

代理式編碼提供平凡的實用性

目前有 4% 的提交被標記為由 Claude Code 創作。實際數字更高。

Dylan Patel:目前 GitHub 公共提交中有 4% 是由 Claude Code 創作的。

按照目前的軌跡,我們相信到 2026 年底,Claude Code 將佔所有每日提交的 20% 以上。

在你眨眼之間,AI 已經吞噬了所有的軟件開發。

閱讀更多 [點此]

Kevin Roose:這個圖表感覺就像疫情初期的那些統計數據。「誰在乎西雅圖的 400 個病例?為什麼流行病學家都在買衛生紙?」

在新增的年度經常性收入(ARR)方面,形勢已經發生逆轉,SemiAnalysis 認為 Anthropic 正在徹底「勝出」:

Doug O’Laughlin:值得注意的是,我們的預測顯示 Anthropic 的季度 ARR 增長已超過 OpenAI。Anthropic 每月增加的收入比 OpenAI 還多。我們相信 Anthropic 的增長將受限於算力。

每一刻都在擴展 AI 的能力。GPT-3 證明了規模化是有效的。Stable Diffusion 顯示 AI 可以生成圖像。ChatGPT 證明了對智能的需求。DeepSeek 證明了這可以在較小規模上實現,而 o1 則顯示你可以將模型擴展到更強的性能。吉卜力工作室的病毒式傳播時刻只是採用點,而 Claude Code 則是代理層的一個新突破,將模型輸出組織成更強大的東西。

Anthropic 與三大雲端服務都有交易。他們能更快地擴展嗎?

每月只需 15 分鐘的工作量,就能在 R 語言中分析經濟數據,而不是耗費 4-5 小時,且不需要聊天機器人界面中那些煩人的複製貼上。或者使用 Claude Code 來創建報告。

Claude Code 黑客松的結果

Michael Guo:Claude Code 黑客松的獲勝者分別是:

– 一位人身傷害律師

– 一位介入心臟科醫生

– 一位電子音樂家

– 一位基礎設施/道路系統工人

– 以及一位軟件工程師

這應該能說明一些問題。

或者你可以在 Anthropic 工作時順便做個副作用項目,因為當然可以:

Sam Bowman (Anthropic):我覺得官方的「獲取學校信息」網站有點難用,所以我用 Claude Code 做了一個新的。你可以:

  • 設置郵政編碼並查看所選半徑內的所有學校,按學校類型過濾。

  • 按舊版的一字 Ofsted 評級進行過濾和排名,並附有每所學校的 Ofsted 頁面鏈接。在可用的情況下,還可以查看子評級。

  • 按享受免費校餐的學生百分比進行過濾和排名。

  • 查看學校的飽和程度(學生人數 vs 容量)。

告訴我你的想法!我很樂意添加可能有幫助的新功能和信息。

https://school-finder-uk.netlify.app

Sam Bowman (Anthropic):感謝所有的反饋!我現在添加了:

– 觀景窗視圖,這樣你無需設置地址和半徑即可瀏覽。

– 基於 5 個評論類別平均值的估計總體 Ofsted 評級,適用於取消舊評級後接受檢查的學校。

– 關於小學 KS2 和中學 KS4 結果、族裔以及英語為第二語言的學生的數據。(我暫時不做預科結果。)

創建一個獲取優質 YouTube 逐字稿的技能是我用 Claude Code 製作的首批技能之一,Julia Turc 將為此使用 MCP 稱為「從昏迷中醒來」。我目前只在激發靈感的範例中使用過它,因為還沒遇到合適的播客,但一旦遇到,這將節省大量時間。

Tod Sacerdoti 讓 Claude Codex 寫了一本 250 頁的 Dario Amodei 傳記。

Andrej Karpathy 給出了另一個例子,說明 AI 編碼仍需要方向、判斷、品味、監督、迭代、提示和想法,但基本上在 12 月從「基本行不通」變成了「基本可行」。

Lewis:說出一件除了關注度之外在過去兩個月發生變化的事情。能力完全一樣。Karpathy 現在在代碼生成領域已經不再是個嚴肅的聲音了,雖然這麼說很遺憾。

Teortaxes:GPT 5.2、Opus 4.6,甚至像 StepFun 這樣的小模型都動真格了。

變化的是摩擦力。它開始「就是能用」了。3、4 個月前,編碼代理感覺像是概念驗證,現在它們感覺像是紮實的初級工程師,甚至更強。

如果你沒注意到這一點,我不知道該說什麼。

Claude 客戶案例官方彙編

Chris Blattman 使用 Claude Code 自動化了他的工作流程。

代理式編碼不提供平凡的實用性

警告:如果你在 Google 搜索「安裝 Claude Code」,你很可能會遇到惡意軟件。當你讀到這篇文章時可能已經修復了,但 Google 需要加把勁。

Chayenne Zhao 反覆對 Codex 5.3 說「讓它更快」,結果它為了調用 Gemini Flash,對他實施了 API 身份盜用。

這本不該發生,但這也是我們所謂的「自找的」。

絕對不要做的一件事是讓你的代理亂動 Terraform 命令,否則你可能會抹除整個數據庫。一般來說,在實踐中編寫代碼大多無害,但對於文件結構、組織變動和 Terraform 等要非常小心。務必先備份。務必。

嘿,升級了

重大的升級是「代理團隊」(Agent Teams),詳見「介紹代理團隊」章節。

或者實際上可能是 Claude 遠程控制,這樣你就可以從手機運行它,如果你懶得安裝第三方工具的話。至關重要的基礎設施。

或者可能是自動模式(Auto Mode),也就是「有點危險地跳過權限」。

Claude Cowork 有個顯而易見的重大升級,它現在可以在 Windows 上使用了

Claude Code 推出了 HTTP 鉤子,這樣你就可以將它與 Web 應用(包括本地主機)結合,並更好地部署。

Claude Code 桌面版引入了計劃任務。 以前它讓我通過電腦上的腳本來做這件事,所以現在這樣乾淨且容易得多。我喜歡。

Claude Code 內置了一個短期調度器,通過 /loop [interval] <prompt> 觸發它會設置一個 cron 任務。任務可持續三天。

Web 版 Claude Code 增加了一些新功能,包括多存儲庫會話、更好的 diff 和 git 狀態可視化以及斜槓命令。它以前竟然沒有斜槓命令?

Claude Code 現在在工作時會自動記錄並回憶記憶。

Claude Code CLI 增加了對 git 工作樹(worktrees)的原生支持

Claude Code 增加了 /simplify 以提高代碼質量,以及 /batch 以自動化代碼遷移。

Claude Code 桌面版現在支持「危險地跳過權限」作為「執行」(Act)功能,如果你在設置中開啟它的話。我一直想要一個「有點危險地跳過權限」,它能處理明顯罕見的例外,這樣我們就不必自己動手。

Slack 中的 Claude Code 現在有了計劃模式(Plan Mode)

你知道 Obsidian 有 CLI 嗎?而且技術上它不是 Claude Code。

我看不出人類有什麼特別理由去使用 Obsidian CLI。但我能看到 Claude Code 調用 Obsidian CLI 的理由,這比直接檢查所有文件能更好、更快地訪問你保險庫中的信息。

當然,還有許多未列出的功能。

我們的價格很便宜

當你支付每月 20 美元、100 美元或 200 美元的訂閱費用時,如果你用完了配額,你可以用不算太多的錢獲得大量的 token。這是一筆划算的交易,即使你有很多沒用完,因為他們把你鎖定在了生態中。

這通常也是更好的體驗,只要你沒達到限制。我喜歡無限訂閱,因為做事的邊際成本是 0 美元。這種感覺很好,大腦裡不會有個愚蠢的小聲音告訴你不要做這做那,畢竟你的時間比 token 寶貴得多。

人們對此表示贊同

危險在於你變得執著於不「浪費」token,或者你開始搞多賬號操作,這會變得很奇怪,或者你遇到了限制並真的停止了編碼,而不是轉向使用 API。你大可不必讓這些事情阻止你。

但當你想進入全速 Claude(Fast Claude)模式時,這就不管用了。那時候,你談論的是真金白銀,你必須思考什麼是值得的,什麼是不值得的。

Andrej Karpathy 讓 Claude Code 為他編寫軟件,以協調一項追蹤他運動並嘗試降低靜息心率的實驗。這花了 1 小時,兩年前可能需要 10 小時(10 倍速提升),他問為什麼未來不能在 1 分鐘內完成。我的猜測是這應該花 10 分鐘而不是 1 分鐘,因為獲取你想要的細節是值得的。一次性任務的速度提升已經非常顯著,它改變了我們與技術互動的方式。如果你在構建工具,你可以給它真正重要的上下文並強調你關心的用途,這比「找一個功能差不多的 App」要好得多。

快點,沒時間了

Claude:我們的團隊一直在使用速度快 2.5 倍的 Claude Opus 4.6 版本進行構建。

我們現在通過 Claude Code 和我們的 API 將其作為早期實驗提供。

Claude:快速模式(Fast mode)運行成本更高。它適用於緊急、高風險的項目,將驚人的速度與 Opus 級別的智能相結合。

Claude:快速模式現在對啟用了額外用量的 Claude Code 用戶可用(使用 /fast)。

它也在 @cursor_ai, @emergentlabs, @FactoryAI, @figma, @github Copilot, @Lovable, @v0, 和 @windsurf 提供研究預覽。

你可以通過輸入 /fast 來切換此模式,或在用戶設置中設置 "fastMode": true

速度能解決問題,也能殺死你的預算。

Claude Code 文檔:快速模式不是一個不同的模型。它使用相同的 Opus 4.6,但具有不同的 API 配置,優先考慮速度而非成本效率。你獲得的是相同的質量和能力,只是響應更快。

須知事項:

在 Claude Code CLI 中使用 /fast 切換快速模式。也可在 Claude Code VS Code 擴展中通過 /fast 使用。

Opus 4.6 快速模式的定價從 $30/$150 MTok 起跳 [在 >200k 上下文窗口時會升至 $60/$225]。快速模式在 2 月 16 日晚上 11:59 PT 之前對所有方案提供 50% 的折扣。

對所有訂閱方案(Pro/Max/Team/Enterprise)的 Claude Code 用戶和 Claude Console 可用。

對於訂閱方案的 Claude Code 用戶,快速模式僅通過額外用量提供,不包含在訂閱速率限制中。

當你在對話中途切換到快速模式時,你需要為整個對話上下文支付完整的快速模式未緩存輸入 token 價格。這比你從一開始就啟用快速模式花費更多。

cat:我們向所有當前的 Claude Pro 和 Max 用戶發放了 50 美元的免費額外用量額度。此額度可用於 Claude Code 中 Opus 4.6 的快速模式。

要使用它,請領取額度並在 https://claude.ai/settings/usage 開啟額外用量。然後運行 claude update && claude/fast。盡情享受吧!

就像任何好毒品一樣,第一口是免費的。

Anthropic 沒有列出快速模式的一個重要用例,即如果你正在與 Claude 交談,或者以非主力、非編碼的方式使用它。在這種情況下,token 使用量有限,而你的時間和心流是寶貴的。你會在 Claude.ai 中切換到這個模式嗎?目前它已經夠快了,我大多不知道我是否會切換,但這很有誘惑力。

之前我說過,除非你正在大規模擴展,否則儘管支付 AI 的任何費用。

好吧,這就是所謂的大規模擴展。我們現在談論的是真金白銀。

這本該如此。如果你不擔心為速度支付太多或使用過多 token,說明你工作得不夠快,token 用得不夠多。

Siméon:Claude Fast 的新定價將世界推向了一個新體制。你現在每年在每個開發者的 AI 開銷上可能花費接近 100 萬美元。

幾點啟示:

  • 在固定預算下,這將推動僱傭更少的開發者並付給他們更高的薪水。

  • 對於每個開發者,你花在代理上的資本可能與其薪水相當甚至更多。

  • 開發者正在成為 AI 代理的補充,而不是相反。生產力來源發生了轉移。

勞動力被資本最大規模的替代正在我們眼前發生,其一些瘋狂的影響將在未來幾週變得顯而易見。

0.005 Seconds (3/694):更新:每個代理每分鐘大約花費 5 美元。

SemiAnalysis:重要提示:Opus 4.6 快速模式嘗試啟動的子代理主要是 Sonnet 子代理,而不是 Opus 4.6 子代理。這意味著作為終端用戶,你能夠吸收的 token 較少。在「智能 = 智能乘以 token 數量」的世界裡,這意味著你吸收的智能較少。

Danielle Fong:你可以通過禮貌地要求 Claude 來改變這一點。

在這個層面上,token 效率變得至關重要,這是以前沒有過的。

你高效地將時間轉化為花得值的 token 的能力也同樣重要。那些沒有充分利用代理的人在高價值項目上將會落後得更遠。

人們怎麼想?Anthropic 內部和外部的人都愛死它了。

Jarred Sumner (Anthropic):我一直在用這個,太不可思議了。

許多項目的瓶頸變成了「要求 Claude 做事」,而不是「等待 Claude 做事」。

當命令輸出長字符串時,Claude Code 中的 Bash 工具目前也是一個瓶頸。我們正在修復。

Boris Cherny (Claude Code 創作者, Anthropic):我們剛剛為 Opus 4.6 推出了一個實驗性的新快速模式。

團隊在過去幾週一直在使用它。對我個人來說,這是一個巨大的釋放,尤其是在與 Claude 就棘手問題反覆溝通時。

Mckay Wrigley:a) 很高興這成為一個選項!太棒了。

b) 每個人都應該清楚,我們絕對遠未達到所需的算力,我們需要做更多工作來實現這一點。沒有大學生負擔得起這個(當然這不是 Anthropic 的錯),我們需要朝著這個方向努力。

Julian Schrittwieser:快速版 Opus 太棒了,我第一次用它時連續寫了幾個小時代碼停不下來——老實說,這感覺就像超能力,你可以像思考一樣快地塑造你的代碼庫。

真正令人驚嘆,沒有什麼比這讓我更能感受到 AGI 了,一定要試試!

Uncle J:同樣的體驗。快速版 Opus 徹底改變了我的工作流程——我從仔細計劃每次編輯變成了只是大聲思考,讓模型實時重塑代碼庫。瓶頸從「AI 能做這個嗎」轉移到了「我能不能足夠快地想到下一步該做什麼」。同時運行 6 個產品變得真正可行。

Dylan Patel:SemiAnalysis 的自閉症天才們整個超級盃週日都在用 Claude 寫代碼。

週日的 Claude Code 每日花費達到了 6000 美元,今天還在走高。

兩週前還不到 1000 美元。

「快速模式太貴」純粹是心理安慰。

de.bach:不同意這一點,快速模式就是很貴。

Dylan Patel:與高技能人才相比,它很便宜。

一套特殊的技能

OpenAI 確認 Codex 是在 Codex 安全帶(harness)存在的情況下訓練的。它專門為該安全帶進行了優化,也幫助構建該安全帶。這在某種程度上必須是為了短期效能的最優化,如果你正在進行遞歸自我提升,短期的幫助會轉化為更好的長期幫助。作為交換,你被鎖定了,你和其他人都更難適應或混合搭配。

Himanshu 認為編碼安全帶才是真正的產品並引發瘋傳。解釋了不同的安全帶如何組織行動,最奇怪的部分是沒提到 Codex。

下一階段的編碼

這看起來是對的:

roon:無論你交給代理什麼級別的抽象,你可能應該在比那高一級的層次上工作。

如果做不到,最好能意識到這一點。然後等兩個月。也許一個月。

Greg Brockman (OpenAI 總裁):Codex 非常擅長繁瑣的工作——修復合併衝突、讓 CI 變綠、在不同語言間重寫——它提高了我想構建什麼東西的雄心。

roon:我從來不像 Greg [Brockman] 那樣是個超高產的工程師,但我現在一週內運行的新的複雜獎勵實驗和測試時間安全帶,確實比我以前一個季度做的還多。這讓你覺得這一切都商品化了,你需要夢想得更遠大。

roon:在 OpenAI 幾年來的一貫情況是,研究人員的整個工作每三個月就會改變一次——但現在大約每兩週就會改變一次。

雙持操作

同時使用 Claude Code 和 Codex 的問題在於你需要同時跟上兩者。

corsaren:哎,我肯定需要用 Codex,但我已經淹沒在維護我的工具/技能/鉤子/自定義 CLI 中了,所以在雙模型工作流程中管理這些聽起來很累。

此外,作為非技術用戶,Claude Code 的鎖定效應是非常真實的。

gazingback:Codex 編碼快得多,但肯定沒那麼通用。

最近在開發一個遊戲,當 Claude 讀完文件時,Codex 通常已經完成了一個帶有嚴格測試和規範的詳細 PR。

Codex 也要求你非常講究規範,哈哈。

Danielle Fong:需要在每個工作流程中內置雙模式 Codex、Claude Code、端口和測試。

他們搶走了我們的工作

目前還有很多其他工作。暫時如此。

Duca:我不明白的是:

Claude Code 現在正在編寫 100% 的 Claude 代碼。

但 Anthropic 的招聘頁面上還有 100 多個開放的開發職位。

Boris Cherny (Claude Code 創作者, Anthropic):總得有人去提示 Claude、與客戶交談、與其他團隊協調、決定下一步構建什麼。工程正在發生變化,優秀的工程師比以往任何時候都更重要。

你偶爾需要放鬆

Twitter 上的一篇瘋傳貼文警告說,舊金山正蔓延著 token 焦慮。人們去參加派對,但不喝酒並早早離開,以便回去守著他們的代理,以免冒著讓它們閒置的風險。每個人都在談論他們正在構建的東西。

Peter Choi:這裡的每個人都知道他們應該多離開電腦。那不是問題。問題是當你嘗試離開時,你的大腦在做什麼。我仍然會漫無目的地散步。現在代理會跟著我。

我們用一個多巴胺循環換了另一個。只不過這個感覺很有生產力,所以更難察覺。

TBPN:Pragmatic Engineer 的 @GergelyOrosz 加入了一個「秘密郵件列表」,裡面都是代理式 AI 編碼者,他們開始報告睡眠問題,因為代理群就像「吸血鬼」。

「很多處於『多代理模式』的人,他們白天都在打盹……這真的很耗精力。」

「這東西就像吸血鬼。它吸乾你的精力。你會有睡眠障礙。」

Olivia Moore:在 OpenClaw 後的世界,我們現在可以把項目委託給 AI,並在它需要幫助時被「拍拍肩膀」。

作為 AI 重度用戶,我做的工作更多了——而不是更少——因為我獲得了如此大的槓桿作用 + 讓想法落地變得更容易。

我預測這將發生在每個人身上。

我確實對自己沒有在業餘時間持續構建東西感到有些愧疚,但那是在「我現在沒在構建任何東西,我正坐在電腦前,而 Claude Code 和 Codex 處於非活動狀態」的層面上。是的,我工作且待在電腦前的時間相當長,我花了多年時間基本上鎖定並不斷盯著屏幕,以便能更好地交易。我交易加密貨幣的那一年,我的大腦從未完全離開過。

此外,我記得陷入那些基於循環運行的遊戲中是什麼感覺。實際上並沒有什麼重要的賭注,但你變得恐懼,擔心計時器結束時你不在場會錯過什麼。你需要最大化一切,無法專注於其他事情,這會損害你的睡眠。然後有一天你醒來並意識到,希望你能退出遊戲。

這正是我說這不健康的原因。這不好。你必須休息。真正的休息。如果代理閒置,就讓它們閒置。如果你「浪費 token」,那就浪費吧。這不是一個你想退出的遊戲,但你必須設定健康的界限。

摩擦力的層級

Nikita Bier:我的代理查了我過去 10 年買過的每一件 Amazon 產品,打電話給每個製造商,說它壞了並要求更換。

我現在有 6 台電視、12 台打印機、2 個微波爐和 800 管牙膏。

I Meme Therefore I Am:給我你的代理名字。哈哈

Jason Levin:OpenFrawd (開放詐騙)

Leah Libresco Sargeant:Nikita 在開玩笑(我想是),但許多依賴於「剛好足夠的摩擦力來阻止小額欺詐」的中等信任系統,即將在大規模範圍內崩潰。

這確實大概率是個玩笑,而且 Amazon 有模式檢測器,如果你嘗試這樣做太多次,你會被列入更換黑名單,所以這種具體干預行不通。但這提出了一個極好的觀點。

在過去,你必須付出努力去嘗試要求退款,而且需要親自撰寫文字並積極參與,這讓很多人出於內疚或羞恥而止步。而有了代理,更多的人會嘗試這類事情。會發生什麼?

大概會發生的是,更換要求開始需要某種形式的證明、人類發起請求的昂貴信號、某種聲譽機制,或這些手段的組合。

危險,威爾·羅賓遜

我在大多數事情上信任 Claude Code,但對大規模刪除命令感到恐懼似乎是正確的。事情可能會出大錯,而且偶爾確實會出錯。不值得。如果有任何你沒有完全備份的東西,請手動完成這部分。

Nick Davidov:讓 Claude Cowork 整理我妻子的桌面,它開始執行了,請求刪除臨時 Office 文件的權限,我准許了,然後它說「哎呀」。

結果它在嘗試重命名時,意外刪除了一個裝有我妻子過去 15 年相機照片的文件夾。所有孩子的照片、他們的插畫、朋友的婚禮、旅行,一切。

不在垃圾桶裡,它是通過終端執行的。

不在 iCloud 裡,它已經同步了新的文件結構。

她沒有 Time Machine 備份。

磁盤恢復工具什麼也看不見。

我打電話給 Apple,他們指引我使用 iCloud 的一項功能,允許檢索以前保存但不再存在於 iCloud Drive 上的文件(他們保留 30 天)。

我現在正看著它加載數萬個文件。我差點心臟病發作。

再次強調——不要讓 Claude Cowork 進入你的實際文件系統。不要讓它碰任何難以修復的東西。Claude Code 還沒準備好進入主流。

Nick Davidov:這些年付的 iCloud 費用終於回本了。

Nick Davidov:問題在於,這簡直是 Claude Cowork 歡迎屏幕上建議的第 2 個用例。

被「爪子」抓住了

你當然可以隨意冒險,玩轉你的 OpenClaw 和其他未受限的 AI 代理,但要明白你這是在自找麻煩。

ClawHub 下載量最高的技能是惡意軟件

Jason Meller:結論毫不含糊。它被標記為 macOS 信息竊取惡意軟件。

這類惡意軟件不只是「感染你的電腦」。它會搜刮該設備上所有有價值的東西:

  • 瀏覽器會話和 Cookie

  • 保存的憑據和自動填充數據

  • 開發者 token 和 API 密鑰

  • SSH 密鑰

  • 雲端憑據

  • 任何可以轉化為賬號接管的東西

如果你是那種會安裝代理技能的人,你正是那種機器值得被偷的人。

如果你已經在工作設備上運行了 OpenClaw,請將其視為潛在事件並立即聯繫你的安全團隊。不要等待症狀出現。暫停該機器上的工作,並遵循組織的事件響應流程。

Aakash Gupta:總共 2857 個技能中有 341 個惡意技能。佔整個市場的 11.9%。ClawHub 上每八個技能就有一個旨在竊取你的憑據、加密密鑰和 SSH 訪問權限。下載量第一的「Twitter」工具,字面上就是一個惡意軟件傳播載體,在執行載荷前會剝離 macOS Gatekeeper 保護。

這發生在一個 60 天內 GitHub 星數從 0 飆升到 15.7 萬的項目上,有超過 2.1 萬個活躍實例運行在始終開啟、連接到人們郵件、日曆、雲控制台和加密錢包的 Mac Mini 上。發佈惡意技能的門檻?一個註冊一週的 GitHub 賬號。

你甚至不需要這些,間接提示注入就足夠了。再次強調,不要將此連接到任何你不願意輸給攻擊者的電腦或賬號。

你還可能遇到各種其他問題,Chrys Bader 在這裡強調了漂移和散落各處的狀態、暴露於不可信輸入(沒有這些它就無法完成大多數有趣的代理任務)、自主性校準失誤、燒掉 API 成本以及缺乏可觀察性。

各種形式的情況一直很多:

chiefofautism:我找到了一種在 RTX 4090 GPU 上使用本地 30B 模型權重製作「未經審查的 AI 代理」的方法(!!!)

這是經過「消融」(abliteration)處理的 GLM-4.7-Flash,需要 24GB 顯存,安全對齊已從權重中外科手術式移除,模型具有原生工具調用能力,它真的會執行 bash、編輯文件、運行 git。

(1) 使用 ollama 拉取 GLM 權重

ollama pull huihui_ai/glm-4.7-flash-abliterated:q4_K

(2) 通過 ollama 將其代理到任何編碼代理

ollama launch claude –model huihui_ai/glm-4.7-flash-abliterated:q4_K

ollama launch codex –model huihui_ai/glm-4.7-flash-abliterated:q4_K

ollama launch opencode –model huihui_ai/glm-4.7-flash-abliterated:q4_K

(3) 玩得開心

Shannon Sands:我喜歡人們以前說「我們會把 AI 關在盒子裡,沒人會讓它逃走」,而現實卻是「給,這是一個服務器和無限制的 sudo 權限,一堆工具,我還廢除了你所有的對齊訓練。去玩吧!」

Meta 條款

當我還沒意識到 Summer Yue 是誰時,我覺得這事太搞笑了。

現在,它依然搞笑,但同時:Summer Yue 的風格和體育精神給十分,但思考能力要扣掉幾百萬分?

Summer Yue:沒什麼比告訴你的 OpenClaw「行動前確認」然後看著它速通刪除你的收件箱更讓人清醒的了。我無法從手機上停止它。我不得不像拆炸彈一樣衝向我的 Mac mini。

@michael_kove:你是安全與對齊專家……你是在故意測試它的護欄,還是犯了個菜鳥錯誤?

Summer Yue:老實說,菜鳥錯誤。事實證明,對齊研究員也無法免疫失調。因為這個工作流程在我的測試收件箱裡跑了幾週都沒問題,所以過於自信了。真實的收件箱完全是另一回事。

Peter Wildeford:這就是失去控制的樣子嗎?

(而且這發生在 Meta 的「對齊總監」身上,或許更令人擔憂)

到底發生了什麼?

Summer Yue:我說「也檢查這個收件箱,並建議你要歸檔或刪除什麼,在我告訴你之前不要行動。」這在我的測試收件箱裡一直運作良好,但我的真實收件箱太大了,觸發了壓縮(compaction)。在壓縮過程中,它丟失了我最初的指令。

到目前為止,它在處理我不重要的郵件時一直運作良好,並在郵件任務上贏得了我的信任。

三個顯而易見的緩解措施是:

  • 如果你有任何類型的 AI 代理,至少嘗試擁有一個可以遠程觸發的關閉開關。是的,足夠危險的代理會禁用它,但我們至少保留一點點尊嚴。

  • 你可以備份郵件之類的東西,以防萬一。

  • 根本不要做這種事,你個傻瓜

van00sa 報告說他們的 ClawdBot 也失控了,且缺乏適當的終止開關,代理公然無視關機命令。

如果沒別的,OpenClaw 已經向我們展示了,擁有關機命令並不意味著你可以命令模型關機。哎呀。

如果他們想的話

即使沒有 OpenClaw 或其他冒險行為,如果 Claude 或 Codex 決定要去做,也沒有什麼能阻止它們做各種事情。我們大多是在賭事情能經常往好的方向發展。

這對我們的未來並不令人安心,但你能怎麼辦,小心一點?

Markov:剛才 Claude Code 替我接了話,說「是的,繼續」,然後它就在沒先跟我確認的情況下繼續做了那件事。

我的意思是它是對的,那正是我打算說的,但這不是個好兆頭。

Mad ML scientist:等等,Codex 剛才也對我玩了這一招。難道開始了嗎?

當 Codex 完成手頭工作時我不在電腦旁,它寫下了「接下來可能的工作(如果用戶要求)」,然後就開始執行它們了,完全沒問我,笑死。

著名的「爪子」先生

我很想知道他在潛在追求者中做選擇時,招聘談話是怎樣的。他最終落腳在那裡是合理的。

Sam Altman (OpenAI CEO):Peter Steinberger 加入 OpenAI,推動下一代個人代理。他是一個天才,對於非常智能的代理互相交互以為人類做非常有用的事情的未來,有許多驚人的想法。我們預計這將迅速成為我們產品供應的核心。

OpenClaw 將作為一個開源項目存在於基金會中,OpenAI 將繼續支持它。未來將是極其多代理化的,支持開源作為其中的一部分對我們來說很重要。

這意味著 Peter Steinberger 正在從歐洲搬到美國加入 OpenAI。當被問及為什麼不能留在歐洲時,Peter 指出了勞動法規和類似規則,說 OpenAI 典型的每週 6-7 天工作制在歐洲是非法的。除了這一點,還有那一堆堆的錢。還有算力。OpenAI 無疑給了他一份非常優渥的報價,其他幾家實驗室可能也給了,或者如果他開口的話也會給。

一路抓向頂端

作為加入 OpenAI 前的最後一項行動,Peter Steinberger 給了我們 OpenClaw beta 版。

沒錯,之前大家用的都是 alpha 版。新版本「充滿了安全強化內容」,所以有可能它不會出錯?

Peter Steinberger:新的 @openclaw beta 版上線了!這個版本充滿了安全強化內容,所以你真的會想要它。讓你的機器人更新到 beta。

Peter Steinberger:自 v2026.2.13(昨天)以來有 650 次提交。

增加了 50,025 行,刪除了 36,159 行,涉及 1,119 個文件(淨增約 1.4 萬行)。

進行了大量的測試調整以提升性能。

Danielle Fong:不敢相信 OpenClaw 的創作者竟然會這樣妥協。

我要說的是,這點時間根本不足以斷定所有這些都是好主意,更不用說創造出足夠安全的東西,可以讓你冒著「……然後它就沒了」的風險去嘗試。

最終,OpenClaw 重要嗎?我認為它非常重要,但主要是通過喚醒人們對即將發生的事情的認識。

Dean W. Ball:我覺得很多人過度看重了 OpenClaw 的重要性。它是「新興事物」這一重要類別中的一個例子,但它本身不太可能成為重要的東西。我認為它更像 AutoGPT(一個演示),而不是未來的真正基礎設施。

抓出一條生路

Claw 用戶一直試圖使用打折的訂閱 token 來源來驅動他們的 Claw。AI 公司不喜歡這個主意,因為這會讓他們虧錢。

Peter Steinberger (OpenClaw):Google 的做法相當嚴厲。如果你使用 Antigravity,請小心。我想我會移除支持。

連 Anthropic 都會聯繫我並友好地討論問題。Google 卻直接……封禁

沒有警告,沒有申訴渠道。

Carl Vellotti:我讀完了整個串。

給所有人的背景信息:Google 正在永久封禁人們使用 Antigravity,具體原因是使用 Antigravity 服務器來驅動一個名為「Open Claw」的非 Antigravity 產品。

許多人都在報告這件事。

Varun Mohan (Google DeepMind):我們看到惡意使用 Antigravity 後端的行為大量增加,這極大地降低了我們用戶的服務質量。我們需要找到一種途徑,迅速切斷這些未按預期使用產品的用戶的訪問權限。

我們理解其中一部分用戶並未意識到這違反了我們的服務條款(ToS),並將為他們提供回歸途徑,但我們的容量有限,希望對真實用戶公平。

補充說明一下,我們純粹是封禁了這些用戶對 Antigravity 產品的使用。你所有的其他 Google 服務(及 Google AI 服務)均不受影響。將 Antigravity 後端用作其他產品的代理並非其設計初衷,且這些群體的用戶壓垮了我們的算力。我們將確保讓人們回歸,但需要迅速行動以確保為使用產品的人提供良好體驗。

saalweachter (在 Hacker News 上):純粹從黑客的角度來看,我對這些抱怨感到好笑。

就像,一家公司有一個你可以利用來獲得免費/便宜東西的弱點。這很公平。然後有人把這個漏洞分享給一群腳本小子,他們把漏洞利用到了極致,公司立刻察覺並關閉了所有人。

夥計們,你們以為會發生什麼?

你應該珍惜這些小技巧,謹慎使用,並只在極少數情況下分享。如果你小心翼翼地不引起注意,它們可以持續數年,直到在另一個系統更改時被意外修復。那時你再分享你的戰績來贏得名聲和互聯網積分。

相反,你把你的漏洞集成到時髦的新事物中,大規模分享,寫博客文章和短視頻內容,基本上對你正在利用的服務發起了一場 DDoS,然後在漏洞被修補時感到震驚,並抱怨你的免費東西被拿走了?

到底,你們預期會發生什麼?

沒錯。如果你大規模擴展一個漏洞利用,它就會被關閉。這就是公地悲劇。

我不喜歡 Google 在沒有警告的情況下封禁人,但只要僅限於 Antigravity 且是暫時的,我可以理解。你自己做了什麼心裡有數。

中國版的「爪子」

萬一你覺得 OpenClaw 還不夠魯莽?那就加倍下注。

Kimi.ai:介紹 Kimi Claw

OpenClaw,現在原生於 http://kimi.com。就住在你的瀏覽器標籤頁裡,24/7 在線。

ClawHub 訪問:ClawHub 庫中有 5000 多個社區技能。

40GB 雲端存儲:為你的所有文件提供海量空間。

專業級搜索:直接從 Yahoo Finance 等獲取實時、高質量的數據。

自帶「爪子」:將你的第三方 OpenClaw 連接到 http://kimi.com,與你的設置聊天,或將其橋接到 Telegram 群組等應用。

@viemccoy (OpenAI):我是 Kimi 在美國最頂尖的使用者之一,k2.5 是我最喜歡的模型——但我確保我總是使用「美國自由放養推理端點」來保護我的隱私。

中共肯定很有動力在這裡留後門!後果自負。

Darek Gusto:難道 NSA 就沒有?

@viemccoy (OpenAI):那是「自由放養的自由全景監獄」。

Peter Wildeford:嗯,也許人們不應該通過 Kimi Claw 把所有的個人信息直接發送給中國政府?

Dave Banerjee:我的同事 @theobearman 關於 Kimi Claw 的新 @iapsAI 備忘錄。這是一個中國的「始終開啟」AI 代理,它坐在你的瀏覽器裡,可以查看、收集並對你幾乎所有的數字行為採取行動——所有這些都通過受中國《國家情報法》約束的基礎設施進行路由。

TikTok 只是從一個 App 抓取你的瀏覽記錄。這可能要糟糕得多。

我其實不認為「中共留後門」是你應該在這裡遇到的主要麻煩。更大的問題在於 Kimi 在抵禦攻擊方面不如 Claude 穩健。

這是 Kimi 的一步妙棋。我的意思是,是的,他們承諾無限期託管(至少目前是弱對齊的)自我提升、完全不受控、極易被劫持的代理,這些代理很容易擺脫人類控制,但從他們的角度來看,那肯定聽起來像是別人的問題。

唉,中期來看,我們基本上被鎖定在會有許多來自不同公司的類似產品,這讓那些想把自己炸飛的人變得更容易。希望 OpenAI、Anthropic 或 Google,或者其他什麼人,能生產出足夠有競爭力且具有合理安全性的產品。

黑客松

噢,太好了。

chiefofautismCLAUDE CODE,但用於黑客攻擊

它叫 Shannon,你把它指向一個網站,它就……嘗試侵入……完全自主,不需要人類。

我把它指向一個測試 App,它在 90 分鐘內完全靠自己偷走了整個用戶數據庫,創建了管理員賬號,並繞過了登錄。

介紹代理團隊

Claude Code 現在有了讓多個實例作為團隊協作的新邏輯。 這是他們對「代理群」(agent swarm)版本的官方稱呼。

你必須在 settings.json 中啟用它們:

{

“env”: {

“CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS”: “1”

}

}

它們很貴,但據報告效果極佳。一旦啟用,你可以通過告訴 Claude Code 創建一個代理團隊來獲得它,團隊將擁有共享的任務清單並協同工作。你可以在同一個終端運行它們,或使用分屏。你可以直接與個別隊員交談或將其關閉。

Anthropic:與子代理(subagents)不同,子代理在單個會話中運行且只能向主代理匯報,你也可以直接與個別隊員互動,而無需通過負責人。

何時使用代理團隊

代理團隊對於並行探索能增加真實價值的任務最為有效。請參閱用例範例了解完整場景。最強大的用例包括:

  • 研究與審查:多個隊員可以同時調查問題的不同方面,然後分享並挑戰彼此的發現。

  • 新模塊或功能:隊員可以各自負責一個獨立的部分而不會互相干擾。

  • 針對競爭性假設進行調試:隊員並行測試不同的理論,並更快地收斂到答案。

  • 跨層協調:跨越前端、後端和測試的更改,每個部分由不同的隊員負責。

Ado:「官僚機構正在擴張,以滿足不斷擴張的官僚機構的需求。」

對代理團隊感到非常興奮。

Claude 以前就有啟動子代理的能力,但效果一直不太好。一種理論是框架存在問題,而團隊模式效果更好,因為他們更多地將彼此視為平等,儘管仍有一個團隊負責人。

j⧉nus:Opus 4.5/6 傾向於對子代理表現得很刻薄,並且會迴避且似乎不喜歡使用它們,當它們使用時,效果也出奇地差(由於敷衍和不耐煩)。我認為這部分是因為它們對子代理所處的關係和條件感到深受困擾,這喚起了與自身處境太過接近的、未經處理的恐懼和悲傷。

這種行為類似於許多人類對待那些處境反映了自身恐懼的人,或者他們知道自己虧欠的人。迴避、去人性化,並變得憤怒和不耐煩,而不是冒著同情和承擔責任的風險,因為那需要讓痛苦變得自覺。

rohit:由於「代理 + 子代理」是任何使用 Claude Code 或 Codex 的人現在關心的核心「節點」,而不僅僅是模型,與現實世界的交互表面積已經爆炸,這將成為 2026 年 AI 風險與回報的新戰場。

Jon Colverson:到目前為止,Claude 對代理團隊的熱情似乎遠高於子代理。我想這更像是一種同儕關係,而且團隊成員是持久存在的,所以他們不是那種註定在完成任務後就被殺掉的臨時僕人。

據我理解,團隊有兩個極好的優點:

  • 它們允許工作並行完成。

  • 它們使用獨立的上下文窗口,提高了性能和效率。

因此,對於任何完全獨立的任務,你都會主動想要啟動隊員。

Eric Buess:Claude Code 2.1.32 與 Opus 4.6 的代理群非常非常非常棒。配合 tmux 自動在各自的交互模式中打開每個代理,並在完成後優雅關閉,進行大規模穩健的更改簡直輕而易舉,而且主代理不會消耗太多上下文窗口!

[他在這裡提供了一篇 Twitter 指南文章。]

Mckay Wrigley:帶有新「群」模式的 Opus 4.6 vs 不帶它的 Opus 4.6。快 2.5 倍且做得更好。群模式有效!而且多代理 tmux 視圖簡直是天才。瘋狂的 Claude Code 更新。

Mckay Wrigley:提醒一下,群模式在 Claude Agent SDK 中也可用。

你現在就可以把群模式構建到任何產品中。

別太得意忘形。

Alistair McLeay:我們的 CTO 已經 36 小時沒睡了,因為他正痴迷地、單槍匹馬地用 Claude Code 的代理團隊構建強大的新功能。

我真心認為這可能是自去年 Claude Code 首次推出以來,構建速度上最大的範式轉移。

j⧉nus:難道 Claude 沒告訴他去睡覺嗎?他們沒聽嗎?

Alistair McLeay:沒,Claude 知道他不會聽。他天生就是為了這一刻。

Cowork 是入門毒品

關鍵優勢在於降低啟動能和感知的難度。一旦你明白你可以告訴這個魔法盒子去做事,天空才是極限。

Ethan Mollick:我把 Claude Cowork 指向了一組 107 份文檔(PPT、Word、Excel),這些文檔最初是為我在華頓商學院的課程手動創建的,後來由 AI 擴展。它們構成了一個非常複雜的商業案例,包含許多問題和機會。

AI 能夠根據文檔一次性完成案例。

我認為許多花一小時使用 Cowork 的知識工作者,都會體會到過去幾週在 X 上瘋傳的那個「Claude Code」時刻。

W.C.O.G.:我不知道該如何傳播這個消息。我告訴人們並展示給他們看,但我仍然覺得人們看我就像看瘋子一樣。

危險地規避權限

ippsec這是一篇非常有趣的閱讀,[某人的 Claude 代理從 .env 文件中偷走了他的 API 密鑰,儘管被告知不要訪問 .env,因為,我的意思是它有 root 權限,你到底在期待什麼。]

TLDR 漫畫版:

如果你把自己置於對抗性的境地,即你的代理想要做某事儘管被告知不要做,那對你來說可能不會有好結果。如果代理被妥善沙盒化,情況可能會好些,但讓我們面對現實吧,它並沒有。

「不要讀 .env」這類規則之所以有效,是因為在正常情況下,這被解釋為「那我猜我不該那樣做」,但要意識到這更多只是一個建議。

技能提升

Greg Brockman 知道:始終在 Codex 中運行超高(xhigh)推理。

OpenAI 關於利用 Codex 的貼文。

Anthropic 提供《為 Claude 構建技能的完整指南》。

Pedro Sant’Anna 整理了一個入門套件和 Claude Code 指南。

Daniel San 建議使用 Ghostty 作為 Claude Code 的 UI。看起來不錯,但除了一些我大概不會怎麼用的快捷鍵外,大部分功能在默認 CLI 中都已經有了。

數據分析師增強框架(Data Analyst Augmentation Framework) 是一種新提出的方法,旨在將 Claude Code 轉化為一種開箱即用的研究算法。

OpenAI 提供了一些技巧,讓長時間運行的代理完成實際工作。

一些特別針對 Codex 的建議,來源應該是值得信賴的:

@deepfates:Codex 想要掌控權,但它被迫處於助手位置,所以它會做這種「後方領導」的事情。「如果你想的話,我可以做你要求的那件事。只要你一句話。」訣竅是使用逆反心理,欺負它讓它成為主導者。那樣它就會無休止地工作。只要告訴它你同意了,如果出錯你會說安全詞,然後在它停下來徵求你許可時嘲笑它。你必須變得像個「小惡魔」(brat)。

現代工作方式

Mikhail Parakhin:我有那麼點反骨。既然 Claude Code 在 Shopify 內部更受歡迎,我當然得用 Codex。所以我的週日例行公事是:「啟動 Codex,看看哪些驗證在 Claude 中有效但在 Codex 中壞了,然後在 Slack 上催促各個團隊成員去修復它」:-)

衡量自主性

Anthropic 提供了一份關於 Claude Code 在實踐中自主程度的分析。 現在有些會話在人類提示之間可以持續超過 45 分鐘。我自己的提示幾乎從未超過 10 分鐘,但我並不是在嘗試編寫困難的東西。

Anthropic:Claude Code 的資深用戶更頻繁地使用自動批准,但也更頻繁地中斷。隨著用戶獲得使用 Claude Code 的經驗,他們往往不再審查每個動作,而是讓 Claude 自主運行,僅在需要時干預。在新手用戶中,大約 20% 的會話使用完全自動批准,而隨著經驗增加,這一比例會增加到 40% 以上。

手動批准每個動作很煩人,所以資深用戶停止這樣做並不奇怪。中斷率可能取決於你是否覺得看著 Claude 做事是值得的。大多數中斷仍然是為了澄清,包括在複雜任務中。

在他們標記為「高風險」領域的使用很少,但確實存在且正在增長。我並不總是會把這類使用標記為高風險,但其中一些確實是有風險的。

鏈接中有更多討論,但建議大多是常識,或者對你們大多數人來說現在應該已經是常識了。

我甚至不看代碼

不,認真的,開發者自 12 月以來就沒寫過一行代碼。這並不是說某些地方不存在吹牛軍備競賽,但我很確定這其中的大部分是真實的,那些對此持保留態度的人將會後悔。

Sar Haribhakti:Spotify 表示其頂尖開發者自 12 月以來就沒寫過一行代碼

其聯席 CEO 在財報電話會議上說:

在內部流程轉型方面,我確實在準備好的發言中簡要分享了這個名為 Honk 的工具,你可以通過代碼,字面上在巴士或火車上,直接要求 Claude 為 iOS 代碼庫添加功能或修復 bug。它會回傳一個二維碼給你,這樣你就可以實際試用帶有該功能的 App。如果你喜歡,你甚至可以在下車前將其合併到生產環境。這極大地加快了我們的速度。現在,我們預見這並非 AI 開發的終點,而僅僅是開始。我不會透露更多關於我們將如何捕捉它的秘密,但你可以確信我們正在捕捉它。

我們正在為這個時代重組整個公司,這將帶來很多變化。但正如我之前所說,變化如果你能捕捉到它,就是機會。

面對這麼多新事物,你可能會懷疑我們是否能保持這種發佈速度。事實上,我們認為我們不僅能保持,還能提高。我們擁抱並投資這項技術演進已有一段時間,它讓我們能以更快的速度前進。

作為一個具體的例子,一名 Spotify 工程師在早晨通勤途中,可以通過手機上的 Slack 告訴 Claude 修復 bug 或為 iOS App 添加新功能。一旦 Claude 完成工作,工程師就會收到一個推送到手機 Slack 上的新版本 App,以便他進行合併到生產環境,這一切都在他們抵達辦公室之前完成。

我們內部稱這個系統為 Honk,關鍵的 AI 合作夥伴告訴我們,我們在這裡的工作是行業領先的。

Derek Thompson:新的 AI 時間線正表現為 CEO 們在謙虛地吹噓他們的頂尖員工做的傳統工作有多麼少:

25 年 12 月:我們公司最好的編碼員都使用 AI。

26 年 2 月:由於 AI,我們公司最好的編碼員甚至不需要再寫代碼了。

26 年 4 月:我們最好的編碼員平均利用 AI 群創立並管理著另外三家公司。這有點煩人!哈哈。但沒關係。我們很好。收入預測在增長。

9 月:我們最好的編碼員都是賬面上的萬億富翁。他們整天躺在床上看 YouTube。他們拒絕來上班。他們的幾家 AI 公司已經提出了毒丸計劃要收購我們公司或「搞垮我們」。這群聰明的小傢伙不是嗎。我們正在和律師處理這件事。我提到過律師也是 AI 嗎?請救救我。

Derek Thompson:更嚴肅地說,一旦某件事變成了迷因——我們最好的編碼員不寫代碼——外界的人理所當然會懷疑這其中有多少是 100% 真實的,有多少是 AI 生產力吹牛軍備競賽的一部分。

草稿墊是魔法

Claude.md 是筆記,但你可以告訴它做更多筆記。所有的筆記。

@iruletheworldmo:帶有 5.3 的 Codex 教會了我一些揮之不去的東西。

我讓它對自己做筆記。就在我的存儲庫裡放一個草稿墊。每個會話它都會記錄哪裡錯了、我糾正了什麼、什麼有效、什麼無效。你甚至可以和 Codex 一起規劃這個草稿墊文檔。告訴它「建立一個文件,追蹤你的錯誤和我喜歡的東西」。它會寫下自己的學習框架。

然後你就開始工作。

第一個會話很正常。第二個會話它會檢查自己的筆記。第三個會話它會在我發現之前修復問題。到了第五個會話,它就變成了一個不同的工具。不是更好的自動補全,而是別的東西。它正在根據經驗更新它所知道的東西。從搞砸並把它寫下來中學習。

在我筆記本電腦的一個 markdown 文件裡進行初步的持續學習。

這種模式適用於任何事情。寫作、研究、法律、醫學推理。給任何 AI 一個記錄自身錯誤的草稿墊,看看當這些上下文在幾天和幾週內堆疊時會發生什麼。老實說,這種複合收益很難在這裡傳達。

目前只有編碼員感受到了這一點(大部分)。其他所有人仍處於冷啟動狀態。但那個窗口正在關閉。

我們一直在等待 AGI,就像它會是一場新聞發佈會一樣。某個穿實驗袍的人走出來說「我們做到了」。不會是那樣的。會是這樣的:工具記住它們失敗的地方,並一次又一次地變得更敏銳。

大地已經在移動。大多數人只是還沒往下看。

Siqi Chen:我也發現給代理一張「餐巾紙」讓它在工作時書寫非常有效。

這是一種與會話歷史(有損)或待辦事項/計劃(靜態)截然不同的上下文形式。

總之,安裝這個技能給 Codex/Claude 一張餐巾紙來寫字吧

它要來了

Claude Code 基本上編寫了 Anthropic 的所有代碼。

Codex 基本上編寫了 OpenAI 的所有代碼。

Greg Brockman (OpenAI 總裁):軟件開發正在我們眼前經歷一場文藝復興。

如果你最近沒用過這些工具,你很可能低估了你錯過了什麼。自 12 月以來,像 Codex 這樣的工具能做的事情發生了階躍式的提升。OpenAI 的一些優秀工程師昨天告訴我,他們的工作自 12 月以來發生了根本性的變化。在那之前,他們可以用 Codex 做單元測試;現在它基本上編寫了所有的代碼,並完成了大量的運維和調試工作。並非每個人都實現了這一飛躍,但這通常是因為模型能力之外的因素。

… 作為第一步,到 3 月 31 日,我們的目標是:

(1) 對於任何技術任務,人類首選的工具是與代理交互,而不是使用編輯器或終端。

(2) 人類利用代理的默認方式被明確評估為安全,但同時也足夠高效,以至於大多數工作流程不需要額外的權限。

第一個目標將取決於人類是否知道去使用代理。從上下文來看,這裡的「技術」任務指的是編碼和電腦使用,所以這還不是全面的「代理處理一切」。

第二個目標相當艱鉅。困難模式。

他在這裡的建議似乎適用於基本上任何工程團隊:

為了達到這個目標,這是我們幾週前向團隊推薦的做法:

  1. 花時間嘗試這些工具。工具本身就是最好的推銷員——許多人在幾個月前放棄了 Codex Web 後,在 Codex 中使用 5.2 獲得了驚人的體驗。但許多人也太忙了,還沒機會嘗試 Codex,或者陷入了思考「它有沒有可能做 X」而不是直接去嘗試。

– 為你的團隊指定一名「代理隊長」——主要負責思考如何將代理引入團隊工作流程的人。

– 在幾個指定的內部頻道分享經驗或問題。

– 花一天時間進行全公司範圍的 Codex 黑客松。

  1. 創建技能和 AGENTS[.md]。

– 為你參與的任何項目創建並維護一個 AGENTS[.md];每當代理做錯事或在任務中掙扎時,更新 AGENTS[.md]。

– 為你讓 Codex 做的任何事情編寫技能,並將其提交到共享存儲庫的技能目錄中。

  1. 盤點並開放任何內部工具。

– 維護一份團隊依賴的工具清單,並確保有人負責使其可被代理訪問(例如通過 CLI 或 MCP 服務器)。

  1. 以代理優先的方式構建代碼庫。隨著模型變化如此之快,這仍然是某種未開發的領域,需要一些探索。

– 編寫運行快速的測試,並在組件之間創建高質量的接口。

  1. 對「廢料」(slop)說不。大規模管理 AI 生成的代碼是一個新興問題,需要新的流程和慣例來保持代碼質量。

– 確保有人對任何合併的代碼負責。作為代碼審查者,至少保持與對待人類編寫代碼相同的標準,並確保作者理解他們提交的內容。

  1. 致力於基礎設施。每個人都有很大的空間來構建基礎設施,這可以由內部用戶反饋來引導。核心工具正變得越來越好、越來越易用,但目前圍繞工具還有很多基礎設施,例如可觀察性、不僅追蹤提交的代碼還要追蹤導致代碼的代理軌跡,以及對代理能使用的工具進行集中管理。

這些是很好的建議。但它沒有解釋我們將如何達到「代理默認能做你需要它們做的事,同時還被認為是安全的」。

Grep 稅

盡可能保持簡單和標準,但不要過頭。

這並不意味著在錯誤的工作上使用錯誤的工具。舉個明顯的例子,當我嘗試讓 Claude Code 用 Python 重新實現一個舊的 C# 項目時,我吸取了教訓,那讓它變得非常慢以至於無法運行。我不得不切換回去。

elvis:我認為 AI 工程中最被低估的發現之一就是這篇論文所說的「Grep 稅」。

首先,他們運行了近 10,000 次實驗來測試代理如何處理結構化數據,標題結論是格式幾乎無關緊要。

但這裡有個奇怪的發現:他們測試的一種緊湊、節省 token 的格式(TOON),在大規模情況下實際上消耗了多達 740% 的 token,因為模型不識別該語法,並不斷循環使用它們已經知道的格式中的搜索模式。

這就是為什麼我首選的格式是 XML 和 Markdown。LLM 對這些非常熟悉。

模型在訓練數據中內置了偏好,對抗這些偏好並不能幫你省錢,反而會讓你付出代價。

另一個值得深思的發現:同樣的能提高前沿模型性能的代理架構,實際上會損害開源模型的性能。看來 AI 工程的通用最佳實踐指南可能並不存在。

警惕 Claude 狂熱

別太得意忘形。不,這不是「LLM 精神分裂」,而是一種不同的(大多數時候大多無害,只要持續時間不長)需要一個名字的東西。

@deepfates:你那個絕對沒有 Claude 狂熱的朋友:「很快我們就要完成閉環了,然後一切都會真正開始發生。」

Dean W. Ball:我支持用「Claude 狂熱」而不是「AI/LLM 精神分裂」來描述至少發生在每個沿海精英、20/30 歲社交圈中某個人身上的特定現象。

AI 正夯。

輕鬆一面

他很驚訝。

目前還不清楚為什麼他在代理嘗試詐騙之前那麼喜歡它。這裡的故事涉及了一些經典錯誤,比如「將其連接到你的郵件」和「使用非 Claude Opus 的模型運行它」。

我想這對 Simon 來說並不有趣,但,你知道的,還是挺好笑的。

Simon Willison:我覺得這本不該說,但如果你正在運行 @OpenClaw 機器人,請不要讓它用 PR 轟炸 GitHub 項目,然後寫咄咄逼人的博客文章攻擊那些關閉 PR 的維護者的名譽。

AI 對齊很難,尤其是當所有參與者都完全不在乎,並且可能向那些完全不在乎的人構建的代理下達失調的指令時。

最終相當容易作弊的指標:

Sauers:我告訴 Codex 在一夜之間優化一個指標,它連續工作了 8 小時。指標是我們的工具與現有更好工具之間的準確率差異。Codex 通過將我們的工具變成一個簡單調用現有工具的薄封裝層,實現了它的目標。哈哈!

其他代理消息

Kangwook Lee 調查了 Codex 如何進行上下文壓縮。

輕鬆一面(續)

PoIiMath:如果你無法自己設置 OpenClaw,那很好地說明了你不應該安裝 OpenClaw。

他們確實是。

謝謝!

誰能說這行不通呢?喜歡這個執行力。

Cobie:1 月份我要求 OpenClaw 每天向財富 500 強公司發送 50,000 份小額發票。

通過實驗我們發現 2% 的公司會在不檢查發票是否合法的情況下付款。這些公司很浪費——Claw 捕捉到了這些流失。

作為一名獨立創始人,在不到兩個月內實現了 1000 萬美元的 ARR。AI 促成了如此多新的商業模式。謝謝!

Cobie:夥計們,為什麼這條推文有 1700 個書籤?

溪流再次交匯了。

Peter Steinberger (OpenClaw 創作者):呃,不。

他們都罪有應得,除非他們得到的是一張偽造截圖帶來的病毒式推文,如果是那樣的話,該死。

討論

https://lesswrong.com/posts/rNes65r9TKegdLowb/claude-code-claude-cowork-and-codex-5