AI #147:快閃前瞻

AI #147:快閃前瞻

Lesswrong·

這週我介紹了 GPT 5.2 與 Gemini 3 Flash 的發佈,同時分析了川普政府最新的 AI 行政命令,以及 OpenAI 近期的法律與企業動向。

這週我報導了 GPT 5.2,我的結論是這是一款僅供「前沿領域」使用的前沿模型。

OpenAI 還推出了 Image 1.5 以及 ChatGPT 內的新圖像生成模式。Image 1.5 看起來與 Nana Banana Pro 旗鼓相當,很難說誰更好。他們還與迪士尼(Disney)簽署了角色授權協議,隨後又起訴 Google 侵犯版權,理由是 Google 實施了所有的版權侵權行為。

作為今年模型發佈的可能尾聲,我們還迎來了 Gemini 3 Flash,我在本篇文章中對其進行了介紹。考慮到其速度和價格,這是一款不錯的模型,且很可能擁有其利基市場。它能以低廉的價格快速捕捉到 Gemini 3 Pro 的大部分智能。

川普政府發布了一份略微軟化的 AI 行政命令版本,試圖盡可能地強制暫停各州 AI 法律的制定。我們可能會在各個戰線上與他們對簿公堂,或者這最終可能無疾而終。就「聯邦框架」而言,他們提供的內容依然是空無一物。a16z 也發布了他們的「聯邦框架」提案,同樣空洞無物,除了要求你付錢給他們之外。

在非 AI 內容方面,我正處於「負擔能力」系列文章的創作中。我從《14 萬美元的問題》開始,接著是《14 萬美元的問題:隨時間變化的成本》。接下來是一篇關於品質隨時間變化的有趣文章,然後希望我們能準備好進入核心論點。

目錄

語言模型提供平凡的實用性。 實話實說吧,Claude。

語言模型不提供平凡的實用性。 如果你問一位 AI 倫理學家。

嘿,升級了。 Claude Code 功能、Google 的新玩意、ChatGPT 分支功能。

各就各位。 FrontierScience 作為新基準測試,GPT-5.2 領先。

選擇你的戰士。 Dean Ball 對 Opus 4.5 較為保守的背書。

幫我接代理人。 LLM 博弈論的玩法大不相同。

深偽鎮與機器人啟示錄即將到來。 錯誤資訊的權力平衡。

媒體生成的樂趣。 Image 1.5 挑戰 Nana Banana Pro。

版權對抗。 迪士尼與 OpenAI 簽約並起訴 Google。

克服偏見。 演算法就像生活一樣,是不公平的。嘗試改變是否是一種範疇錯誤?

未經提示的注意力。 反對,使用者在誘導證人。

他們搶了我們的飯碗。 執行長們普遍認為 AI 具有變革性。

感受到 AGI 搶走工作。 Claude Opus 4.5 是 AGI 嗎?Dean Ball 說是。

越獄的藝術。 OpenAI 將越獄行為列入違反服務條款。

參與其中。 Lightcone Infrastructure 開始年度募款等活動。

介紹。 面向開發者的 Gemini 深度研究代理、Nvidia Nemotron 3。

Gemini Flash 3。 考慮到速度和價格,這是一款非常強大的模型。

其他 AI 新聞。 OpenAI 將優先考慮企業級 AI 並啟用成人模式。

太過 Meta。 Meta 的 AI 巨星們認為自己不該只是賣廣告。真的是這樣嗎?

向錢看。 OpenAI 洽談從亞馬遜融資 100 億美元。

泡沫,泡沫,辛勞與麻煩。 你管這叫泡沫?外行。

冷靜的推測。 許多對 2025 年的預測確實發生了。

時間線。 Shane Legg 對 AGI 出現的中位數預測仍為 2028 年。

追求理性的監管。 Bernie Sanders 想要停止數據中心的建設。

我的提議空無一物。 川普政府發布 AI 行政命令。

我的提議空無一物,除了付錢給我。 a16z 試圖包裝其空洞的提議。

晶片之城。 Nvidia 實施晶片位置驗證。

本週音訊。 Alex Bores 談 Odd Lots、Schulman、Shor、Legg、Alex Jones。

缺乏創新的修辭。 Noah Smith 深入探討 101 個問題。

人們真的很不喜歡 AI。

修辭創新。

持有 AI 的壞人。

對齊失誤!

對齊超越人類智慧的智能是困難的。

媽,Owain Evans 又在把 AI 變壞了。

來自 Janusworld 的訊息。

輕鬆的一面。


語言模型提供平凡的實用性

現代的一個奇蹟,至少目前是:

Ava: 通常我擔心 AI 太過諂媚,但有一次我朋友把他的日記餵給 Claude,詢問一段曖昧關係,結果 Claude 說:「問題出在『你』身上,離她遠點!!!」天哪,Claude。

Eliezer Yudkowsky: 在情況需要時讓 AI 做到這一點的能力,是一種脆弱且珍貴的文明資源,預設情況下它會在競爭的火焰中被吞噬。我想這意味著我們需要相關的基準測試。

我認為我們將繼續擁有這個選項,問題在於你是否足夠聰明去利用它。這不會是大多數流行模型的預設行為,你必須主動尋求並培養合適的氛圍。如果你想要一個能為你做這件事的朋友或家人,情況也是一樣,你必須努力去實現。無論來源為何,這都是無價的。

告訴 Claude Code 學習技能(例如在 tldraw 中),它就會照做。接著你可以要求它創建一個應用程式,然後為該應用程式創建一項技能。

告訴 Codex 或 Claude Code 做基本上任何事情?

Rohit: 妻子看到我用 codex 解決了她的一個工作問題。我只是在深夜把她說的話輸入到終端機窗口,按下 Enter,然後就去睡覺了。早上它已經運行了大約 30 分鐘,完成了她想要的所有分析,包括文件重組。

她一直問:「它是怎麼做到的?」

這不是什麼超級複雜的編碼問題,但卻是一個相當煩人的實際分析問題。如果由她或她的團隊手動完成,需要花費數小時。

另外,她現在對我的「技術」尊重程度顯著下降。

阻礙 30 分鐘作業的唯一障礙,大概是危險且慷慨的權限設定?Claude Code 經常中斷我以請求權限。


語言模型不提供平凡的實用性

所有的 AI 倫理學家都這麼說,而現在有一篇新論文專門指出了這一點。

Seb Krier: 很棒的論文。在許多領域,你必須找到一個問題、風險或不公正現象來解決才能發表論文。學者需要發表論文來獲得工作/資金。因此,存在一種強烈的負面化和災難化傾向。Shirky 原則正在發揮作用!

Gavin Leech: 你的懷疑論詮釋學不錯……如果有人能……公平地使用它,那就太遺憾了。

Seb Krier: 噢不!!

我的經驗是,「[某某] 倫理」幾乎總是對尋找特定傷害有著完全的「非對稱正義」執念,而不關心抵消性的收益。


嘿,升級了

Claude: 我們為 Claude Code 發布了更多更新:

– Diff 的語法高亮
– 提示詞建議
– 第一方插件市場
– 可分享的訪客通行證

我們在 Claude Code 的 diff 中添加了語法高亮,讓你在終端機視圖中更容易掃描 Claude 建議的更改。

語法高亮引擎改進了主題,支援更多語言,並可在我們的原生版本中使用。

Claude 現在會自動建議你的下一個提示詞。

任務完成後,Claude 偶爾會以虛擬文字顯示後續建議。按 Enter 發送,或按 Tab 預填你的下一個提示詞。

運行 /plugins 來瀏覽並批量安裝目錄中的可用插件。你可以在使用者、專案或本地範圍安裝插件。

所有 Max 使用者都有 3 個訪客通行證可以分享,每個通行證可兌換 1 週的免費 Pro 權限。

運行 /passes 獲取你的訪客通行證連結。

這在實踐中甚至不是最大的升級,這點對我最近在做的事情來說非常重要:

Oikon: Claude Code 2.0.72 現在允許操作 Chrome。

在使用 /chrome 命令確認狀態和擴充功能已啟用後,如果你請求瀏覽器操作,它將使用 MCP 工具 (mcp__claude-in-chrome__) 操作瀏覽器。

也可以透過 claude –chrome 啟用。

Claude Code 中的 Chrome 操作使用 MCP 伺服器,方式與 Chrome DevTools MCP 相同。因此,它的使用方式與 Chrome DevTools 類似。另一方面,不能指望有上下文縮減等效果。

有兩種方法可以將「Claude in Chrome (Beta)」設置為預設啟用:
・透過 /chrome 命令設置「預設啟用」
・透過 /config 命令設置「Claude in Chrome 預設啟用」

啟動時增加了以下兩個選項:
claude –chrome
claude –no-chrome

我主要一直在開發 Chrome 擴充功能,所以這種閉環操作的能力太棒了。

Google 持續在後台進行品質改進。

Gemini: 從今天開始,Gemini 可以以豐富的視覺格式提供本地結果。直接在需要的地方查看來自 @GoogleMaps 的照片、評分和真實世界資訊。

Josh Woodward (DeepMind): 我們正在讓 @GeminiApp 更容易在 Google 各項服務中協作。三週前,是 Google 的購物圖譜和其中的 500 億個產品清單。

今天,是 Gemini + Google 地圖!

令人驚訝的是我們以前竟然沒有這個功能。過去兩年我檢查過好幾次。他們聲稱上週在 5 天內發布了 12 項內容,包括 Mixboard、掃描待辦事項的 Jules Agent、Jules 與 Render 的整合、Nano Banana Pro 驅動的重新設計中可運行的 HTML、多螢幕導出到剪貼簿、右鍵點擊所有內容進行即時操作、使用 @ 符號的智能標記、將 URL 作為上下文、Gemini 應用程式中的 Opal,以及為中小企業生成品牌內容的工具 Pomelli。

ChatGPT 的分支對話功能擴展到了 iOS 和 Android。

《連線》(Wired)報導稱,OpenAI 上週悄悄撤回了針對免費使用者的模型路由。


各就各位

GPT-5.2 在 LMArena 中的表現令人失望,考慮到我們對其性格的了解,這也在情理之中。它在專家類別中排名第 5(落後於 Opus 4.5、Sonnet 4.5 和 Gemini 3 Pro),在文本競技場(其高級版本)中排名第 5,低於 GPT-5.1。在 WebDev 類別中排名第 2,僅次於 Opus。現在看到 Claude Opus 4.5 在評分中名列前茅,領先於 Gemini 3 Pro,感覺非常奇妙。

OpenAI 給了我們一個新的基準測試 FrontierScience,將其視為兩個獨立的新基準測試可能更好:FrontierResearch 和 ScienceOlympiad。

OpenAI: 為了彌補這一差距,我們推出了 FrontierScience:一個旨在衡量專家級科學能力的新基準測試。FrontierScience 由專家編寫並驗證……

Lesswrong

相關文章

  1. AI 第 164 期:Opus 之前

    5 天前

  2. AI #145:你擁有靈魂

    5 個月前

  3. AI #155:歡迎來到遞歸自我改進

    2 個月前

  4. Claude Opus 4.6 快速升級

    2 個月前

  5. AI #151:當 Claude 協作時

    3 個月前