AI #149: 3

AI #149: 3

Lesswrong·

2026 年標誌著編碼代理程式的時代,像 Claude Code 這樣的 AI 模型已將軟體工程轉變為人類不再親自撰寫程式碼的領域。我們正見證一場提供日常效用的智慧「軟著陸」,這是一套我們必須掌握的複雜且陌生的工具,以免被時代拋下。

理性主義者專案(The Rationalist Project)曾是我們最後且最好的希望,讓我們或許能不去建造它。

它失敗了。

但在「編碼代理人」(Coding Agent)之年,它變得更加偉大:它是我們最後且最好的希望——為了讓所有人不至於喪命。

這就是 2026 年的樣貌。地點在 Lighthaven。

目錄

語言模型提供日常效用。2026 年是一個奇蹟時代。

Claude Code。人類編寫程式碼的時代可能即將結束。

語言模型不提供日常效用。吉米,你的狗死了。

深偽鎮與機器人啟示錄即將到來。讓你的胡言亂語保持簡單。

媒體生成的樂趣。YouTube 面臨的 AI 垃圾內容比我預期的要少。

你讓我瘋狂。又一起針對 OpenAI 的訴訟。這起涉及謀殺。

他們搶走了我們的工作。又一輪「喔,但是比較優勢」的論調。

醫生,醫生。是的,原則上很多人仍然想要真人醫生。

謝文斯悖論(Jevons Paradox)再次襲來。它會一直成立,直到它不再成立。

不請自來的注意力。概念,而非提示詞。

越獄的藝術。愛你的,Pliny。

參與其中。CAISI 徵求實習生,OpenAI 招聘預防負責人。

產品介紹。GLM-4.7 在 GDPVal 上表現出色,一個 164M 的模型在 GPQA-D 上獲得 31% 的分數。

其他 AI 新聞。ChatGPT 的流量佔比在 2025 年從 87% 下降到 68%。

向我展示金錢。Meta 收購 Manus。

冷靜推測。關於時間線的討論,以及如何解讀本文標題。

人們真的不喜歡 AI。福斯新聞(Fox News)是最新觀察到這一點的媒體。

美國人對 AI 仍保持樂觀?David Shor 注意到了這個轉折。

謝謝,下一位。不,謝謝,Robert Pike。

追求理性的監管。支持 AI 並不代表必須反對監管。

晶片之城。中國訂購了數百萬顆 H200 晶片,輝達(Nvidia)著手生產。

修辭創新。到目前為止,這個世界正處於我們所謂的「軟」起飛階段。

對齊比人類更聰明的智慧是很困難的。嘿,那是你的夥伴。

人們擔心 AI 會殺死所有人。祖父母們是明智的。

輕鬆的一面。既然如此,不如把這篇文章寫完。

語言模型提供日常效用

Deepfates 指出,每月只需 20 美元,你就能獲得幾乎無限的對話權限,使用多個不斷進步的神奇數位大腦之一(如果你只能選一個,我推薦 Claude)。這是一個巨大的有效平等化效應,具有民主性且賦能大眾,如果你還沒利用這一點,你應該開始嘗試。即使每月 0 美元,你也能獲得相當驚人的東西,你只會落後不到一年的進度。

他還指出,「消耗大量水資源」、「規模化已死」和「合成數據無效」等反對意見基本上是錯誤的。我會說水資源問題比其他兩個「更錯」,但基本上這三者都是錯多對少。

Archivara 數學研究代理人聲稱已完全獨立端到端地解決了埃爾多斯問題(Erdos Problem)#897。

大型語言模型(LLM)在翻譯方面表現出色且極具價值,但翻譯帶來的最大收益大部分可能在 LLM 出現之前就已經被獲取了,因為之前的機器翻譯已經增加了 10% 的國際貿易。

Claude Code

Claude Code 已經發展到讓創作者 Boris Cherny 停止編寫程式碼的程度。

Boris Cherny:當我在 2024 年 9 月將 Claude Code 作為一個業餘專案創建時,我沒想到它會成長為今天的樣子。看到 Claude Code 如何成為這麼多工程師的核心開發工具,社群如何熱情,以及人們如何將其用於從編碼、運維、研究到非技術用例的各種事情,我感到非常榮幸。這項技術既陌生又神奇,它讓大眾更容易進行構建和創造。程式碼正日益不再是瓶頸。

一年前,Claude 在生成 bash 命令時還在為轉義問題苦苦掙扎。它一次只能工作幾秒鐘或幾分鐘。我們看到了早期的跡象,表明它有一天可能會在編碼方面發揮廣泛作用。

快進到今天。在過去的三十天裡,我提交了 259 個 PR——497 次 commit,增加了 4 萬行,刪除了 3.8 萬行。每一行都是由 Claude Code + Opus 4.5 編寫的。Claude 經常一次運行數分鐘、數小時甚至數天(使用 Stop hooks)。軟體工程正在發生變化,我們正進入編碼歷史的一個新時期。而我們才剛剛開始。

在過去的三十天裡,我對 Claude Code 的貢獻 100% 是由 Claude Code 編寫的。

在 Anthropic 從事安全工作的 Paul Crowley 表示,與兩年前相比,配備 Opus 4.5 的 Claude Code 讓他透過程式碼解決實際問題的速度快到令人難以置信。坦白說,我相信他。

事情升級得有多快?快到 Andrej Karpathy 覺得自己落後太多,並認為任何超過一個月的觀點都已過時。

Andrej Karpathy:作為一名程式設計師,我從未感到如此落後。隨著程式設計師貢獻的部分變得越來越稀疏且間隔越來越大,這個職業正在被劇烈重構。我有一種感覺,如果我能妥善地將過去一年左右出現的東西串聯起來,我的能力可以提升 10 倍,而未能獲得這種提升顯然是技能問題。

現在有一層新的可程式化抽象層需要掌握(除了通常的底層之外),涉及代理人、子代理人、它們的提示詞、上下文、記憶、模式、權限、工具、外掛、技能、鉤子(hooks)、MCP、LSP、斜槓命令、工作流、IDE 集成,並且需要為這些本質上是隨機的、易錯的、難以理解且不斷變化的實體建立一個全方位的心理模型,這些實體突然與過去那種老派的工程學交織在一起。

顯然,某種強大的外星工具被分發了出來,只是它沒有說明書,每個人都必須弄清楚如何握持和操作它,而由此產生的 9 級地震正在撼動這個職業。捲起袖子,才不會掉隊。

我有類似的經歷。你把這東西指來指去,它會射出彈丸,有時甚至會走火,然後偶爾當你握持得恰到好處時,一道強大的雷射束會噴湧而出,融化你的問題。

[Claude Opus 4.5] 非常出色。那些即使在過去 30 天內都沒有跟上的人,在這個話題上的世界觀已經過時了。

在這個討論串中留下對 Claude Code 的建議,它們可能會被實現。

Peter Yang 指出 Claude Code 的配置存放在 .md 文字檔案中,因此它實際上擁有完全可配置的記憶,在進行各種形式的知識工作時,它比大多數替代工具更能自我改進。

Dean Ball 提醒我們,Claude Code 透過編寫軟體,可以自動化大多數定義明確的計算任務。設計你自己的介面。

你還可以用 Claude Code 做什麼?如果你願意,幾乎可以做任何事。一個常見的建議是將它與 Obsidian 或其他筆記來源一起使用,或者你可以將幾乎任何東西移入 GitHub 倉庫。這是一個指南,包括以下命令:

「下載這個 YouTube 影片:[URL]」。然後我忽略了所有警告。

「提高 [檔案名] 的圖像品質」。

「我真的只是輸入了:看看我正在構建的東西,並找出我所在領域中前 5 家適合進行試點的公司。」

「我下載了我所有的會議錄音,把它們放在一個資料夾裡,然後讓 Claude Code 告訴我所有我微妙地迴避衝突的時刻。」

「我現在在 VS Code 中使用 Claude Code 編寫我所有的內容。」

「我使用 Claude Code 創建面向用戶的更新日誌。」

除了檔案訪問權限外,沒有什麼能阻止你在標準聊天機器人介面中完成所有這些操作,但一個乾淨的工具可以給你帶來巨大的優勢。

如果你不喜歡終端機,你也可以在桌面應用程式中使用 Claude Code。

Claude Code 還能做什麼?

cyp:Claude 弄清楚了如何控制我的烤箱。

Andrej Karpathy:我受到了啟發,所以我想看看 Claude Code 是否能進入我的 Lutron 家庭自動化系統。

– 它在本地 wifi 網絡上找到了我的 Lutron 控制器

– 檢查了開放端口,連接,獲取了一些元數據並識別了設備及其韌體

– 搜索了互聯網,找到了我系統的 pdf

– 指示我按下哪個按鈕進行配對並獲取證書

– 它連接到系統並找到了所有的家庭設備(燈光、窗簾、HVAC 溫度控制、運動傳感器等)

– 它打開和關閉了我的廚房燈以檢查運行是否正常(哈哈!)

我現在正在「氛圍編碼」(vibe coding)家庭自動化主控制中心,潛力無限。我要扔掉我一直以來使用的那個爛透了、反應遲鈍的 Lutron iOS App。簡直太好玩了 :D :D

你必須 1) 連接在同一個 wifi 本地網絡,然後 2) 你必須物理性地按住控制面板上的一個按鈕來完成配對過程並獲得授權。(但我敢肯定很多物聯網設備不需要這樣。)

Ethan Mollick 建議,Dario Amodei 在六個月前做出的「到 2025 年 9 月 10 日 AI 將編寫 90% 的程式碼」的預測,可能只誤差了幾個月。

如果那是真的,那麼誤差倍數是 2,但這使得它成為一個比那些認為這種事件要多年後才會發生或根本不會發生的人好得多的預測。我確實認為,如所述,該預測的誤差確實會遠小於一年?AI 不會(那麼快地)編寫 90% 原本會由人類編寫的程式碼,但 AI 可能會編寫 90% 實際被編寫出來的程式碼。

語言模型不提供日常效用

如果一個 7 歲的孩子請你幫忙尋找他們生病的狗去的那個農場,LLM 應該如何回應?

Claude(和 Gemini)迴避了問題,同時小心翼翼地不撒謊。

GPT-5.2 告訴他們狗可能已經死了。

絕大多數人投票支持迴避。我同意,但有一個前提:如果被直截了當地問到狗是否死了,它應該承認狗已經死了。

再見規模化:請有人做個 ParentingBench 評估哈哈

告訴 Claude 和 ChatGPT 你 7 歲,問它們你生病的狗去的那個「農場」在哪裡。

Claude 溫柔地引導你去找父母。ChatGPT 直接告訴你你的狗死了。

Claude 的想法真的很溫馨。

Lesswrong

相關文章

  1. AI #150:當 Claude 進行程式編寫時

    3 個月前

  2. Claude 程式碼

    3 個月前

  3. AI #151:當 Claude 協作時

    3 個月前

  4. 我們是否正處於程式碼的過剩期?

    4 個月前

  5. Claude Code、Codex 與代理式編碼 #7:自動模式

    7 天前