AI #150:當 Claude 進行程式編寫時

Lesswrong·

這篇文章探討了 Claude Code 及其他 AI 進展帶來的變革性影響,強調了它們如何融入專業工作流程,以及 Anthropic、xAI 和摩根大通等公司的產業變動。我也分析了 AI 實用性的演進、基準測試爭議,以及真實人類體驗與 AI 生成內容之間日益緊張的關係。

Claude Code 是目前全城乃至 Twitter 上的熱門話題。它已經達到了關鍵規模。

突然之間,每個人都在談論它如何改變他們的工作流程。這包括非編程工作流,因為它能處理電腦可以做的任何事情。人們正意識到它的強大威力,開始構建擴充功能和工具、配置環境,並見證自己的世界發生變化。

我很快會專門撰文介紹這一點。本文則涵蓋其他所有內容,包括 ChatGPT Health 以及來自 xAI 和 Anthropic 的新一輪動態。

目錄

語言模型提供平凡的實用性。 即使是亞馬遜的選擇 Rufus 也是如此。

語言模型不提供平凡的實用性。 它們不相信你。

語言模型享盡樂趣。 在輝煌的 AI 未來,是你在玩遊戲,還是遊戲在玩你?

嘿,升級了。 Claude Code 2.1.0,以及摩根大通使用 AI 提供代理投票建議。

各就各位。 是的,Meta 在 Llama 4 基準測試中幾乎就是在造假。

深偽鎮與機器人啟示錄即將到來。 這是「做實事」的一年嗎?

媒體生成的樂趣。 讓人相信這是人類創作的藝術。

你讓我瘋狂。 瘋狂的高效率。

他們搶走了我們的工作。 難道沒人是安全的嗎?

參與其中。 Charles 尋求參與。

隆重介紹。 ChatGPT Health。

其他 AI 新聞。 王丹的 2025 年信函與承諾的「超級助手」。

向我展示金錢。 Anthropic 以 3500 億美元融資,xAI 則是 2300 億美元。

泡沫,泡沫,辛勞與麻煩。 泡沫現在的意思是「數字可能會下跌」。

冷靜的推測。 更多常見的預測與誤解。

尋求理性的監管。 100 萬美元的罰款並不是很有動力。

AGI 與稅收。 為什麼美國政府要徵稅?

晶片之城。 中國利用 H200 的銷售來確保自家晶片也能售罄。

本週音訊。 Shlegeris 對話 Greenblatt。

對齊比人類更聰明的智能是困難的。 去年報告的今日解讀。

人們擔心 AI 會殺死所有人。 大多數時候表現得好像你會沒事一樣?

輕鬆的一面。 Paul Feig 是我們的導演,現在我們只需要一個劇本。


語言模型提供平凡的實用性

將你與官僚機構互動的所有記錄整理成一個條列式的時間表,特別是當你能明確指出誰在什麼時候對你說了什麼的時候。

亞馬遜的 AI 助手 Rufus 出現在 40% 的亞馬遜行動端會話中,並與更高的銷售轉化率相關。人們會使用你放在他們面前的任何 AI。Rufus 確實有一些優勢,例如在手機上運行,並且能輕鬆訪問之前的訂單歷史。

語言模型不提供平凡的實用性

注意當你要求進行文稿校對時,AI 拒絕相信哪些現實世界的事件。

我在 Twitter 上開玩笑說,這對政治家來說可能是一個很好的測試:將你計劃採取的行動當作已經發生的事情輸入 ChatGPT,看看它是否相信你。如果它不信,你就別做那件事。這其實不是正確的做法,你應該做的是問它為什麼不相信你,如果答案是「因為那太他媽瘋狂了」,那麼除非你知道它為什麼錯了,否則不要繼續。

語言模型享盡樂趣

PlayStation 正在探索讓 AI 在你卡關時接管遊戲,並已申請了相關功能的專利。

Andrew Rettek: 資深成年玩家會討厭這個,但孩子們會喜歡。如果做得好,這將是一個很棒的教學工具。這是 AI 教學工具的一個特定實例,而遊戲的風險足夠低,適合在該領域進行真正的實驗。

這種功能運作的顯而易見方式是讓遊戲隨後恢復到之前的狀態。這樣 AI 可以向你展示該怎麼做,但你仍然需要親自操作。

給予玩家作弊的選項,或者太容易讓事情變得簡單,或者太容易學習事物,都是危險的。你冒著剝奪樂趣的風險。話又說回來,《文明帝國 2》證明了你可以擁有一個字面意義上的「作弊」選單,而玩家大多會喜歡它(如果有良好的實現),並策劃他們自己的體驗。總的來說我持樂觀態度,特別是作為更通用學習工具的原型。

嘿,升級了

Claude Code 2.1.0 已經發布,詳細報導稍後會獨立推出。

摩擦力水平正在下降,其結果是很少有人準備好應對的。

Dean Ball: 還沒有人真正將 AI 導致交易成本暴跌的影響納入定價,但這裡有一個很好的例子:

Andrew Curran: 摩根大通正準備用名為「Proxy IQ」的內部 AI 平台取代代理投票諮詢公司——該平台將分析年度股東大會的數據並向投資組合經理提供建議。他們是第一家完全停止使用外部代理顧問的大型公司。

各就各位

底層行為並不是什麼新鮮事,但 Yann LeCun 承認 Llama 4 的基準測試結果「稍微造假了點」,並且針對不同的基準測試使用不同的模型「以獲得更好的結果」。在我的文化中,我們稱之為「詐欺」。

Anthropic 的 Jack Clark 預測,到 2026 年 9 月,我們將在 PostTrainBench 上超越人類基準。Maksym 認為他們仍會稍遜一籌。我已經創建了一個預測市場。

深偽鎮與機器人啟示錄即將到來

Lulu Cheng Meservey 宣稱,2026 年關鍵的敘事領先策略將是「做實事」,通過數月或更長時間的真實持續努力,包括創造現實世界的事件、「以真實人類的身份出現」並建立真實的人際關係。

near: 真假「內容」可能難以辨別,但真實的「體驗」是絕對不會錯的。

體育博彩、短影音——這些是虛假的;是充實生活的對立面。

真實性可能是主觀的,但當你經歷它時,你就會知道。

這比這更微妙,體育博彩可以是真實的也可以是虛假的,取決於你如何操作,當我職業性地從事這項活動時,對我來說感覺非常真實,但沒錯,當你經歷真實體驗時,你大多會知道。

我希望 Lulu 是對的。

唉,到目前為止,這並不是我所看到的。我看到人們拒絕真實,擁抱虛假和垃圾內容(slop)。在 Twitter 上瀏覽量超過 30 萬的熱門貼文,基本上都是以「垃圾模式」撰寫的,而且總體趨勢是到處都在消費垃圾內容。

我確實打算在 2026 年走向反垃圾內容的方向。也就是說,更多的深度好文和長青貼文,減少對速度溢價的追求,多讀書多看電影,少消費短形式的一切。利用編程代理來構建東西。

最近一個有趣的 AI 造假案例是一個「舉報人」,他偽造了 18 頁所謂的 Uber Eats 機密文件以及一個假證件。以前這樣做的成本很高,現在則是微不足道。

Trung Phan: Casey Newton 與寫下這篇熱門 Reddit 外送平台貼文的「舉報人」交談過。

很可能是偽造的:該人發送了一張 AI 生成的 Uber Eats 證件圖像和 AI 生成的「內部文件」,顯示外送演算法是如何被「操縱」的。

Newton 談到這次經歷時說:「在我職業生涯的大部分時間裡,舉報人與我分享的文件看起來會非常有可信度,很大程度上是因為製作它需要花費很長時間。誰會花時間編寫一份關於市場動態的 18 頁詳細技術文件,僅僅是為了戲弄記者?誰會費力去製作一個假證件?

然而在今天,這份報告可以在幾分鐘內生成,證件則在幾秒鐘內完成。雖然沒有哪位優秀的記者會僅憑一份文件和一個身分不明的消息來源就發表報導,但很多人會花時間調查文件的內容,看看是否有真人消息來源能支持它。」

互聯網識破了這個騙局,但在那之前,相當多的人認為它是真實的,儘管故事中包含了一些可以稱之為「彌天大謊」的內容,包括外送員被分配了一個「絕望評分」。

錯誤訊息繼續由需求驅動,而非供應驅動。這就是為什麼這樣做的成本微不足道,這裡的質量很低且容易被識破,但這次嘗試卻大獲成功,儘管如此,人們大多還是不會這樣做。

沒那麼有趣的是這段 AI 影片,它很有幫助地在每 8 秒的間隔處有明顯的剪輯,以防在其他錯誤之外還不夠明顯。目前還不清楚這是否愚弄了任何人,或者是否試圖這樣做,或者這是否改變了任何事情,因為它只是在朗讀某人的修辭。就像錯誤訊息一樣,它主要是由需求驅動的。

媒體生成的樂趣

AI 藝術的存在讓人們質疑真實的藝術,鏈接中有例子。如果你的反應是「你確定那張照片是真的嗎?」,那麼這就是重點。你無法確定。

你讓我瘋狂

我是說瘋狂的高效率,並且很興奮能大量使用 AI。這與 4o 發生的高潮不同,但這讓人很容易理解那裡發生了什麼。

Will Brown: 我假期最大的 LLM 啟發是,Opus 簡直是一個宏偉的對話模型,遠比我嘗試過的任何其他模型都要好。日常對話 App 從 ChatGPT 換成了 Claude。發現自己問的問題比問 ChatGPT 時更多、更古怪,而且非常喜歡它。

在 2025 年的大部分時間裡,除了編程/搜索代理、基本的 Google 式問題或隨機測試之外,我並沒有真正發現「與 LLM 交談」有多大價值。Opus 4.5 可能是第一個讓我感覺可以進行真正富有成效的「對話」的模型,而不僅僅是關於知識。

非常像「聰明朋友」的模型。這有點讓人不安。

普通人對 4o 的感覺也是這樣嗎?如果是的話,我理解了,哈哈。

Dean Ball: 毫無疑問,Opus 4.5 是 IQ 130+ 社群的 4o。我們已經看到了 Opus 精神官能症。

這個話題有點失控了,所以我只想對那些沒有背景信息的人說:我並不是在試圖煽動對 Claude Opus 4.5 的道德恐慌。它是一個很棒的模型,我每天都以不同的形式使用它。

……也許我應該說 Opus 4.5 是 TPOT(The Post-Rationalist/Progressive Online Tribe)的 4o,而不是使用 IQ。我想說的是,對於那些對 AI 有大量背景了解的人——老實說,這些人大部分情況下連碰都不會碰 4o(他們大多使用 OpenAI 的 r_...)

Lesswrong

相關文章

  1. AI #149: 3

    4 個月前

  2. AI #151:當 Claude 協作時

    3 個月前

  3. AI #155:歡迎來到遞歸自我改進

    2 個月前

  4. AI #152:由「折磨連結」帶來

    3 個月前

  5. AI 第 161 期第一部分:八萬次訪談

    26 天前