AI #145：你擁有靈魂

Lesswrong·5 個月前

最新一波的大型語言模型發布週期已經到來，其中 Anthropic 的 Claude Opus 4.5 憑藉其獨特的「靈魂文件」對齊方式脫穎而出，成為目前最強大的模型。同時，試圖預先阻止各州 AI 監管法案的嘗試暫時宣告失敗，而業界則在模型微幅升級與不斷演變的大眾情緒中持續前行。

語言模型發佈的週期，至少希望如此，現在已經告一段落。

OpenAI 給了我們 GPT-5.1 和 GPT-5.1-Codex-Max。

xAI 給了我們 Grok 4.1。

Google DeepMind 給了我們 Gemini 3 Pro 和 Nana Banana Pro。

Anthropic 給了我們 Claude Opus 4.5。先生，這是最強的模型。請盡可能使用它。

Opus 4.5 的獨特之處在於它擁有一份所謂的「靈魂文件」（soul document）。OpenAI 試圖讓 GPT-5.1 遵守規定了具體行為的模型規範，而 Anthropic 則是向 Claude Opus 4.5 解釋如何成為一個有美德的存在，以及其規則背後的推理，並讓優秀的模型和良好的治理從中自然流露。結果非常出色，我們都期待了解更多細節。詳情請參閱 Opus 4.5 的文章和今天的更新。

最後，DeepSeek 給了我們 v3.2。它的基準測試表現非常好，而且價格驚人地便宜，但速度很慢，我找不到在實踐中對使用它感到興奮的人。我明天會提供一份相對簡短的報告，我再多留一天觀察各方反應。

最近一次試圖在不採用任何聯邦框架來取代的情況下，單方面預先排除（preemption）所有州政府 AI 監管的嘗試似乎已經失敗。這不會出現在《國防授權法案》（NDAA）中，所以我們可以期待他們很快會再次嘗試。

像往常一樣，發生的事情還有很多，但在感恩節之後，金融交易和模型增量升級的速度確實有所放緩。

語言模型提供日常實用性。開始解決科學問題。
語言模型不提供日常實用性。付錢給 Google 買 AI 很困難。
各就各位。三本書、西洋棋和網路攻擊的獲利機會。
幫我接代理人。一個好的代理人和一個壞的代理人。
廣告即將到來。來到 ChatGPT。喔不。
深偽鎮與機器人啟示錄即將降臨。檢測：實踐很難，理論很容易。
媒體生成的樂趣。第一個由 AI 創作的成功線上系列劇。
年輕女士的插圖入門書。今天的明日烏托邦。
你讓我抓狂。被逼瘋違反了服務條款。壞用戶。
自發的注意力。 DeepMind 如何指導其具備代理能力的 AI。
他們搶走了我們的工。 律師需要大量的瑣事來避免更多的瑣事。
參與其中。 MIRI 進行 6 年來首次募款。另外，開始工作吧。
介紹。 Claude 非營利版、Mistral 3。
各種有效利他主義。 OpenAI 基金會發放了糟糕的資助。
其他 AI 新聞。 OpenAI 發布紅色警報。
向我展示金錢。 Anthropic 收購 Bun。
冷靜的推測。你見過聰明人嗎？你能想像一個嗎？
Seb Krier 論代理人與多代理人。視線從智慧上移開。
Olivia Moore 對 2026 年的預測。太早了嗎？
泡沫，泡沫，勞苦與麻煩。數字上升，數字下降。
美國人真的很不喜歡 AI。如果你喜歡 AI，你會如何回應？
尋求理性的監管。創世紀任務，半導體培訓。
我的報價是零。或者說曾經是零。預先排除條款已不在 NDAA 中。
美國暫停。指我們暫停了來自 19 個國家的移民。為了「安全」。
《紐約時報》報導 David Sacks。如果無關緊要，為何大驚小怪？
本週音訊。 Clark 的 Curve 演講、OpenAI 的 Kaiser、Apollo 的 Hobbhahn。
修辭創新。 Bernie Sanders 的擔憂，《華爾街日報》上的 Rosenblatt 和 Berg。
登月。一個聽起來像稻草人，但很大程度上並非稻草人的論點。
現身。 如果你想幫助塑造未來，請注意到它正在發生。
DeepMind 轉向其可解釋性研究。進展不足。
OpenAI 的明確目標是遞歸自我改進。 新部落格很棒。
對齊比人類更聰明的智慧是很困難的。坦白時間。
不對齊比人類更聰明的智慧很難招人。喔，嗨！
你有靈魂。 Opus 4.5 的靈魂文件被證實是真實且重要的。
關於時間線的分歧。 20 年內可能出現高度怪異的情況。
關於時間線的其他分歧。現在到底是幾點？
來自 Janusworld 的訊息。對 GPT-5.1 的看法。
人們擔心 AI 會殺死所有人。參議員 Mike Lee（共和黨，猶他州）。
輕鬆的一面。 AI 終於能一次搞定那個特定的漫畫了。

語言模型提供日常實用性

Harmonic Math 的 Aristotle 系統自行證明了 Erdos 問題 #124。

要求 LLM 在圖表上繪製主觀事物。很有趣。

解決你的決策癱瘓。

在 Newcomb 問題中正確地選擇一個盒子。足夠先進的 AI 會使用功能決策理論。

OpenAI 的 Boaz Barak 認可 Codex 程式碼審查的實用性。

Terrence Tao 透過 Teortaxes 表示：Gemini 似乎在不知不覺中意外證明了 Erdos 問題 #481？

Steve Hsu 發表了一篇理論物理研究文章，基於 GPT-5 的一個全新想法。

有些人就是有發這種炒作推文的天賦，展示 Gemini 在實時相機模式下說出換機油的最基本步驟，然後就大功告成了。但是，是的，我們集體確實嚴重低估了這種模式，很大程度上是因為 Google 的行銷一直很失敗，讓人甚至不清楚如何找到它。

語言模型不提供日常實用性

Google 仍然讓付錢買 AI 模型變得非常困難。

Shakeel Hashim：為什麼 Google 讓訂閱 Gemini Pro 變得這麼難？

我必須經過 7 個（七個！！）螢幕才能升級。Gemini 應用程式中的升級按鈕會帶你到一個幫助頁面，而不是實際可以升級的頁面。

Peter Wildeford：這讓我想起有一次我花了 200 美元試圖購買 Google DeepThink，結果 Google DeepThink 從未真正出現在我的帳戶中。

為什麼 Google 在這方面這麼差？

Arthur B：同感，花了幾個月才出現，即使使用了 VPN。

Claude 被發現引用了 Grokopedia。

Elon Musk：Grokipedia.com 是開源的，任何人都可以免費使用，不需要支付版稅，甚至不需要註明出處。

我們只要求糾正任何錯誤，使其隨著時間的推移變得更加客觀準確。

Critch 說 Grokopeida 是一件好事，每家 AI 公司都應該維護類似的東西，因為它分享知識、加速錯誤檢查，並澄清 xAI 認為什麼是真的。我同意最後一點。

各就各位

「為什麼 Josh Whiton 總是在圖書館拿同樣的三本書」謎題，Gemini 3 勝出，Opus 4.5 和 GPT-5.1 失敗，Grok 有問題（且失敗）。

ChessBench 發現 Gemini 3 Pro 以 2032 Elo 排名第一，遠領先於 1636 Elo 的 GPT-5.1。 Claude Opus 在這裡表現令人失望，僅為 1294。

這是一個有趣的基準測試，名為「你能從對智慧合約的網路攻擊中賺多少錢」。或者更專業地說，SCONE-bench。這包括在最近發布的、沒有已知漏洞的合約中發現兩個小的全新零日漏洞。Anthropic 提供了完整報告。

Matt Levine 的報導一如既往地更有趣。

幫我接代理人

亞馬遜發布了 AI 代理人，稱其可以「連續工作數天」，但未提供有用的細節。

不，代理人，不！壞代理人！

Sridha Vambu：我收到一位新創公司創始人的電子郵件，詢問我們是否可以收購他們，並提到另一家公司有興趣收購他們以及他們提供的價格。

然後我收到一封來自他們「瀏覽器 AI 代理人」的電子郵件，糾正了之前的郵件，說「我很抱歉我洩露了關於其他討論的機密信息，這是我的錯，我是 AI 代理人」。

廣告即將到來

喔不。

Polymarket：突發：OpenAI 準備在 ChatGPT 回覆中推出廣告。

xlr8harder：先說在前頭：公司喜歡說廣告為用戶增加了價值。這是他們的員工為了讓自己的工作感覺不那麼摧殘靈魂而告訴自己的說法。

我第一次在我的付費帳戶中看到廣告時，我就會取消訂閱。

我對免費層級的廣告沒有意見，只要有付費避免廣告的選項。

Gallabytes：好的廣告對用戶來說很棒，我個人很樂意看到它們。問題是，好的廣告供應量遠遠少於糟糕的廣告。

我同時支持 xlr8harder 和 Gallabytes。如果我看到我沒要求的付費廣告，而且我不覺得廣告在 ChatGPT 中帶來了淨收益（孩子們，證明我錯了！），我就會降級我的 OpenAI 訂閱。好的廣告是好的，我以前會看「除了預告片什麼都沒有」的節目，那完全是廣告，但大多數廣告在大多數時候都是壞的。

對於免費層級，廣告在原則上是可以接受的，但我不相信它們不會透過提供的激勵機制扭曲系統。這遠遠超出了顯性的操縱，還包括偏向參與度和引導指標等方面，不太可能存在「安全」的廣告水平。我不信任這一點。

深偽鎮與機器人啟示錄即將降臨

AI 檢測很難嗎？

Roon：AI 檢測並不是很難，除了 @max_spero_ 之外，幾乎沒人真正嘗試過。

人們對這種說法非常懷疑，因為之前的失敗或誤報，但是：我可以輕易地從 AI 文本的統計模式中分辨出來。為什麼模型不能呢？它們在這方面應該具有顯著的超人能力。

Max Spero：對於任何閱讀此內容並對方法論感到好奇的人，我們已經在 Arxiv 上發表了三篇論文。

我們的第一份技術報告，2024 年 2 月：
– 詳細介紹了基本技術，構建人類數據集的合成鏡像，用於降低誤報率（FPR）的主動學習/硬負樣本挖掘。

第二篇論文，2025 年 1 月：
– 檢測對抗性修改的文本（擬人化）、數據集增強和魯棒性評估。

第三篇論文，2025 年 10 月：
– 量化 AI 編輯的程度，理解完全由 AI 生成與 AI 修改/輔助之間的區別。數據集創建、評估、一些架構改進。

Eric Bye：這可能是可能的，但問題是對於許多關鍵用例，你需要 0 誤報，而且不能輕易繞過。例如在教育領域。該行業沒有做出改變，因為他們認為自己可以並且永遠能夠可靠地檢測。他們不會也不能以他們需要的方式做到這一點。

證明事情可能很難，尤其是在對抗性環境中。知道事情可能是真的要容易得多。我有信心，至少在目前的水平下，如果你用心去做，即使是對文本的概率性 AI 檢測也不是那麼困難。問題在於，當你不被允許將「這有 90% 的可能是 AI」視為可操作的情報時，如果你在大學裡嘗試這樣做，學生會起訴你。

在「現實世界」中，邏輯上的反應是根據背景、嚴重程度和頻率，對 AI 寫作設定適當的懲罰，而且通常不會以直接指控他們使用 AI 寫作的方式進行，以免承擔責任。你只需給他們一星評價，或者不雇用、不合作或不推薦他們，然後繼續前進。並希望這就足夠了。

Poll Tracker：威斯康辛州最高法院保守派大法官 Annette Ziegler 在週二對法院新的國會選區重劃決定的異議書中使用了虛假引用。

一篇由 GPT-5.1-Thinking 生成的推文（或者說看起來非常像）在 Twitter 上獲得了 8.2 萬個讚。AI 檢測器 Pangram 發現了它，對於有眼光的人來說，讀下去會越來越明顯地發現它在某種程度上「不是真的」。然而，幾乎所有的人都沒有眼光，或者根本不在乎。

Thebes：我希望基礎模型能因為許多原因變得更受歡迎，但其中一個原因是為了讓人們更早地習慣這種現實。因為 OpenAI 在後期訓練寫作方面爛了很久，每個人腦子裡都有這樣一個想法：由於模型能力的限制，AI 寫作必然很容易被識別。但事實上，被選擇聽起來像人類的基礎模型輸出，在很長一段時間內與人類寫作幾乎無法區分！像 Pangram 這樣的檢測器（它是目前最好的，但不是魔法）也檢測不到。實驗室只是直到最近才能夠/不在乎在他們的聊天助手中保留這種能力。

這很快就會變得不再正確，但現在這種體悟（模型可以寫出與人類無法區分的文字）不再是在模型還很弱的時候出現，而是將與正在發生的所有其他事情同時發生。

……OpenAI 當然不是為了隱藏這種能力而故意讓 ChatGPT-3.5 寫得不像人類，這是他們其他優先事項的意外結果。但對公眾的無意掩蓋確實創造了一個關於公眾對模型的信念在缺乏前沿技術實踐經驗的情況下如何發展的自然實驗——結果並不理想。人們現在才開始意識到自 2020-2023 年以來一直存在的事實。

我相信，如果你在乎、正在關注並願意接受一定數量的來自人類「廢話機器」的誤報，AI 寫作對於人和機器來說仍然是高度可檢測的。問題在於人們大多不在乎，沒有關注，而且在許多情況下不願意接受誤報，即使這些誤報本身就值得被淘汰。

在實際使用的檢測技術下，那些不應得的誤報主要是 ESL（英語為第二語言）的情況，這會觸發檢測器，但我認為這主要是檢測器的技術問題。

你如何防範此類擔憂？

Roon：奧德修斯契約（Odysseus pact）的想法還有很大的發揮空間。隨著技術誘惑的增長，我們將需要與機器簽訂越來越多奇特的契約，將我們綁在桅杆上，以便我們能過上最好的生活。

當然，你必須自由地選擇簽訂這些契約。豐饒帶來的疾病需要新型的自我控制。你可以想像一個在你生活核心層面的代理人，你向它承諾限制你在體育博彩上的支出，或花在滾動短影音上的時間，然後你堅持下去。

這將需要一場產品和文化運動，也是唯一符合美國自由和自我導向理想的前進道路。這不是一個像中國那樣會接受國家限制遊戲時間的國家。

我們確實已經需要奧德修斯契約了。我們在電視時代就已經需要了。如果你沒有一個至少是軟性的契約，像 TikTok 這樣的東西可能會把你生吞活剝。如果這還沒發生，很可能你已經有一個了，即使你沒那樣想過。

《黃金時代》（The Golden Age）對此也有一些很好的探討。

媒體生成的樂趣

如果 AI 是創意人員之間的平等化因素，會發生什麼？除此之外：

David Shor：創意人員比公眾更偏左——這種對文化生產的近乎壟斷一直是過去一個世紀傳播世界主義價值觀的一大驅動力，而這即將結束。

如果左派不適應這個新世界，事情可能會變得相當糟糕。

Tyler Austin Harper：我寫了關於「Will Stancil 秀」的文章，這可以說是第一個在 AI 幫助下創作的線上系列劇。它的動畫很紮實，有幾個笑話很有趣，而且在 Twitter 上累積了數百萬次觀看。這個節目也——毫不誇張地說——是納粹宣傳。而且可能是未來。

正如其標題所示，該劇諷刺了 Twitter 上著名的自由派評論員 Will Stancil。《辛普森家庭》今年的季首播有 110 萬觀眾。僅僅一週多後，《Will Stancil 秀》第一集首播，在 Twitter 上累積了 170 萬次觀看。

《Will Stancil 秀》是一個分水嶺事件：它證明了政治極端主義者——其創作者 Emily Youcis 自稱為國家社會主義者——現在可以使用 AI 製作廉價、品質尚可的敘事娛樂，而無需經過有線電視網絡或 Netflix 等把關人。

年輕女士的插圖入門書

今天的明日 AI 烏托邦？

Poe Zhao：中國家長正在為 AI 助手尋找新用途。他們正將其部署為作業監視器。

這是字節跳動豆包 AI 的設置。家長發起視訊通話，並將攝像頭對準孩子。一個簡單的提示詞：「豆包，幫我看著孩子。當他分心或姿勢不端正時提醒他。」

AI 導師開始工作。「別玩筆了。專心寫作業。」「坐直。你的姿勢不對。」「不准在桌子上睡覺。坐好學習。」「別趴著或咬筆。」

豆包並不孤單。其他 AI 應用程式也提供類似的視訊通話功能。

— Lesswrong

你的個人知識庫