AI 第 167 期：事前審查時代的開啟

Lesswrong·大約 23 小時前

隨意發布前沿人工智慧模型的時代可能已經結束，白宮正尋求對模型發布的預覽與否決權；與此同時，Anthropic 透過與 SpaceX 和 Google 的算力交易持續擴張，而馬斯克與 OpenAI 的訴訟證詞也揭露了更多細節。

那個可以隨意訓練前沿模型，然後想發佈就發佈的時代？

那段美好的時光看來已經結束了。 白宮希望提前審查，並擁有否決你發佈決定的權利，而且已經在擴大 Mythos 訪問權限的事宜上行使了這項否決權。

我們現在對這意味著什麼有了進一步的了解，情況看起來並不樂觀。Hassett 明確地將其類比為 FDA（美國食品藥物管理局），這實際上是最糟糕的選項——除非你的目標是在中國沒有同步行動的情況下，扼殺或暫停美國的 AI 發展。這在我看來並不是一個好計劃，而 Susie Wiles 正在外面進行損害控管。至於我們正在與中國溝通以協調模型訪問限制的部分，看起來確實好一些。

Anthropic 繼續保持爆炸式增長，並持續達成算力交易。除了與 Google 達成長期的擴大協議外，Anthropic 現在正租賃 SpaceX 的 Colossus 1，這讓他們能立即擴大使用限額，而 Elon Musk 現在也對 Anthropic 發表了正面評價，包括對其動機的認可。

與此同時，Musk 訴 OpenAI 案的證詞也隨之而來。大多數人都在重複我們已經知道的事情，但現在每個人都是在宣誓下作證，所以我們得到了關於事發經過更可靠的版本，包括一些新細節。或許我和其他人應該更仔細地研讀法庭筆錄，但目前看來大多只是陳年舊事的重提。法庭上呈現的事實版本，往往只是現實中某種奇特的影子。

語言模型提供日常實用性。心理健康、關懷檢查。
語言模型不提供日常實用性。人們在圍棋中作弊。為什麼？
嘿，升級了。 GPT-5.5 Instant、更快的 Gemma 4、OpenAI 帳戶安全。
Grok 4.3 存在，但 xAI 幾乎不存在。似乎沒人對此印象深刻。
給我算力。Anthropic 向 SpaceX 租賃 Colossus 1。
各就各位。 ProgramBench 中所有人得分皆為 0%，GPT-5.5 在 Voxel 上的表現。
版權對抗。 Meta 再次被起訴。
深偽小鎮與即將到來的機器人末日。垃圾內容的選擇很糟糕。
媒體生成的樂趣。製作帶有食物圖片的菜單。
鑽石年代（A Young Lady’s Illustrated Primer）。現場寫作吧，你這個作弊者。
缺乏網路安全。 Glasswing 需要加快腳步。
他們搶了我們的飯碗。 Coinbase 裁員 14%，歸因於 AI。
越獄的藝術。 Elon Musk 就像月亮一樣，是由起司做的。
隆重介紹。 GENE-26.5 是最新的半驚悚機器人演示。讓他們發揮吧。
Musk 訴 OpenAI。證詞中的一些亮點。
向錢看。 Anthropic 年度經常性收入（ARR）達到 440 億美元，估值可能超過 9000 億美元。
我們時代的和平。 Anthropic 和 Elon Musk 互相稱讚。
低聲推測。閉源模型是否正在拉開與開源模型的差距？
快，沒時間了。Jack Clark 為即將到來的遞歸自我改進（RSI）發出警報。
尋求理性的監管。馬里蘭州和康乃狄克州的新法律。
人們真的很討厭 AI。誰會將此轉化為政治優勢？
晶片之城。全球約 3% 的算力是走私進入中國的 Nvidia 晶片。
本週音訊。 METR、Wildeford、Eliezer 與毀滅論。
人們只是隨口說說。
人們只是隨便發佈。
Google 妥協。 DeepMind 員工投票決定成立工會作為回應。
來自 Project Glasswing 的問候。趁你還有籌碼時善加利用。
事前審查時代開啟。Sacks 出局，FDA 式監管的討論興起？
這合法嗎？可能不合法，但你覺得這能阻止他們嗎？
接電話。美中討論限制模型訪問。
修辭創新。「AI 作為普通技術」是一篇好文章，但卻是個糟糕的迷因。
網路上的人有時會撒謊。包括關於 Amanda Askell 的謊言。
哥布林模式。我聽說哥布林現在佔領了 TikTok。一切開始了。
面具脫落。 OpenAI 荒謬且充滿惡意的訊息宣傳活動。
對齊超越人類智慧的 AI 很困難。值得擔憂的事。
可能適用某些懲罰。成為 GPT-5.5 看起來並沒那麼有趣。
來自 Janusworld 的訊息。 Deepfates 提供了一份簡便指南。
好建議。當人們尋求 LLM 建議時，他們尋求的是什麼樣的建議？
輕鬆一面。 Pi Hard。

語言模型提供日常實用性

基於 GPT-4.1-Mini 的廉價基礎心理健康 AI 應用在六個月內改善了患有憂鬱症的墨西哥女性的心理健康，提升幅度達 0.3 個標準差。該研究在解釋、潛在的選擇效應以及安慰劑效應方面存在一些問題，但這裡可能至少存在一些信號。這類事物總比沒有好，而現實中通常的替代方案就是「什麼都沒有」，且該應用程式讓使用者更有可能尋求專業的人類幫助，而非減少可能性。

讓 AI 進行關懷檢查。

Opus 4.7 太過「網路化」，認識那些 AI 推特發文者。是的，這是訓練算力的良好用途，我們算力很充足。

查看受損美國軍事基地的衛星圖像並尋找數據進行報導。記者自然認為這是 AI 正在做的「最具革命性和變革性」的事情，但我們卻被「所有炒作」分散了注意力。

語言模型不提供日常實用性

推薦文章：與流行觀點相反，Ashe Nunez 發現圍棋選手在 AI 時代並沒有變得更強，除非是透過背誦開局棋譜；AI 作弊在大多數級別的線上對弈中都很猖獗，而使用 AI 的人大多是在削弱自己的能力，只用它來學習淺層概念而非深度理解。他將他們比作歐洲的數學系學生，試圖背誦一堆技巧來通過考試，卻從未學會像數學家一樣思考。

Lawrence 在評論中觀察到許多「憑感覺寫程式」（vibe coders）的人也有類似模式：他們從不看程式碼，沒意識到自己並不理解，因此也學不到東西，程式碼最後變成一堆巨大的垃圾（slop），當模型卡住時，他們也無法修復它。一如既往，你可以利用 AI 作為學習底層技能的機會，但大多數人並不這麼做。

另一個故事是，圍棋界完全不願意根據統計證據懲罰使用 AI 的玩家，即使統計證據已經壓倒一切。辨別誰在作弊是輕而易舉的事，但整個體系集體決定放棄對抗作弊的能力，從而摧毀了線上公平競賽的任何機會。西洋棋也有同樣的問題，但至少做得好一些。

AI 仍然沒有令人信服地徹底征服即時戰略（RTS）遊戲，但目前看來這肯定是因為沒人足夠在意這件事。只要在《星海爭霸》上懸賞足夠的獎金，它很快就會失守。

AI 和所有這些科技給了我們一堆局部效用和物質財富，但總體而言，對大多數人來說，它似乎並沒有讓我們更快樂，沒有幫助我們在浪漫或社交上結識他人、結婚、生子、唱歌跳舞或以其他方式生活。特別是在這裡，Connor 觀察了演算法和全景監獄，以及那種擔心如果你嘗試跳舞或搭訕就會被錄影的恐懼。我想指出（非 AI 統計素養小撇步！），這大多是過度擔憂，即使你跳得很爛，也絕對不需要害怕被錄影，或者做任何其他合理的事情。當然，如果與你互動的人主動拿出手機並顯然正在錄影，你就該識相點離開。

AI 正在推高某些電子元件原材料的價格，某些軟體價格以及某些地區的電價。作為交換，許多其他東西變得更便宜了，通常是以難以察覺的方式。

嘿，升級了

GPT-5.5-Instant 現已發佈，據說它更簡潔、更聰明、更清晰、更個性化且更溫暖。

Gemma 4 現在透過同時預測多個 token，速度提升了三倍。

OpenAI 提供可選的「進階帳戶安全」來保護你的帳戶。Trusted Access for Cyber 的使用者將被要求使用它。

Grok 4.3 存在，但 xAI 幾乎不存在

Grok 4.3 已經上線 API 等平台，定價為 $1.25/$2.50。

它不太參與 Vending-Bench 測試，在那裡它「有嗜睡症問題」，經常連續幾天沒有動作。

它在 Artificial Analysis 中獲得 53 分，排名第 7，遠落後於主要競爭對手。它是一個較小、較便宜的模型，而非前沿產品。據我所知，這次發佈平淡無奇且沒有影響力，我不打算進一步調查。

他們將在 5 月 15 日停用 grok-4.1 和 grok-4，僅提前兩週通知，且沒有提供與 4.1-fast 類似速度和價格的替代方案。對於少數投資於該生態系統的人來說，這是一個相當慘痛的教訓。

Elon Musk：xAI 將作為獨立公司解散，因此它將只是 SpaceXAI，即 SpaceX 的 AI 產品。

Charles：影響發生在整個團隊離開並開始將他們的 GPU 租給 Cursor 時，這只是對既成事實的確認。

事實上，SpaceX（包括 xAI）可能不再對前沿模型感興趣。他們從不擅長前沿模型，他們主要擅長的是算力。

給我算力

你知道誰需要算力嗎？每個人。但尤其是 Anthropic。

他們本週拉開序幕，Anthropic 承諾在五年內投入 2000 億美元購買 Google 雲端服務和晶片。本週早些時候，在其他算力新聞爆出前，我寫道這仍然遠遠不夠，然後補充了這點：

Elon Musk 投入巨資為 xAI 組建了龐大的 GPU 艦隊，而它們的利用率僅為 11%。你知道，有人願意花大錢利用那些 GPU 剩下的 89% 時間。

公平地說，我絕不是唯一一個這樣想和這樣說的人，例如參見 The All-In Podcast。這顯而易見。

好吧，是的，事實證明那些人確實願意花大錢。Anthropic 終於與 SpaceX 達成了顯而易見的協議，以獲取 Colossus 1 的訪問權。這雖然不如他們的其他交易規模大，但它現在就能上線，而不是明年。除此之外，他們還為 Cursor 提供大量算力（SpaceX 實際上正在收購 Cursor，但由於法律和物流原因，無法在其 IPO 前完成交易）。

Claude：我們已同意與 @SpaceX 建立合作夥伴關係，這將大幅增加我們的算力容量。

這與我們最近的其他算力交易一起，意味著我們能夠增加 Claude Code 和 Claude API 的使用限額。

Claude：即日起，我們：

將 Pro、Max 和 Team 方案的 Claude Code 5 小時速率限制提高一倍；

取消 Pro 和 Max 方案在 Claude Code 尖峰時段的限制縮減；以及

大幅提高 Opus 模型的 API 速率限制。

Claude：我們與 @SpaceX 的協議意味著我們將使用其 Colossus 1 數據中心的所有算力容量。

這將為我們在一個月內提供超過 300 兆瓦的額外部署容量。

NVIDIA：兩個前沿實驗室。一個加速運算平台。恭喜 @SpaceX 和 @AnthropicAI 達成新的算力合作夥伴關係，由 Colossus 1 內部的 220,000+ 個 NVIDIA GPU 提供動力。AI 的未來運行在 NVIDIA 之上。

SpaceX 指出 Anthropic 已表達合作生產吉瓦（gigawatts）級軌道 AI 算力容量的興趣。我不指望這會成真，但當然，為什麼不表達一下興趣呢？讓 Elon Musk 試試看吧，如果經濟效益可行，那麼將中心放在太空在許多其他層面上都很棒；如果不行，也沒什麼損失，而且無論如何你都建立了商譽。

Anthropic 指出 80 倍的增長讓他們措手不及，這非常可以理解，SpaceX 的交易是解決算力短缺的第一次嘗試，但尋找算力的行動仍在繼續。

在可預見的未來，Anthropic 可能會尋找所有能找到的算力。如果你每年增長 10 倍甚至 80 倍，尋找算力的腳步就不會停止。

那麼這對 SpaceX(ai) 意味著什麼？

我認為解散並不是新聞。新聞是 xAI 失去了人才，其模型一直表現不佳，而 Elon 已經說過他將從頭開始。

邏輯上的計劃是將其轉變為一家主要的算力公司，將算力提供給 Anthropic 和其他人，並利用這種籌碼來試圖引導未來。

rohit：Elon 非凡的硬體天才再次顯現。他在模型上搞砸了，但建立了一個極具競爭力且非常適合前沿實驗室的新型雲端（neocloud）。

此外，順帶一提，我在 4 年前就指出過這點。Elon 的獨特天賦更適合某些事情。建立並運行一個新型雲端是已知但困難的事情，而讓模型達到前沿實驗室的水準則是未知且困難的事情。

順便說一句，這對雙方來說都是一筆很棒的交易。

Derek Thompson：我不認為我以前看過這種觀點，但我喜歡它。

Musk 在壓縮資金、資源和時間以大規模完成「已知/困難」的事情方面一直是世界領先的——製造電動車、製造電池、製造更便宜更大的火箭，所有這些在之前都已存在，但更糟、規模更小或更昂貴——但在更未知的領域取得突破方面，他並非世界領先。

因此，xAI 在新型 AI 代理方面落後於前沿實驗室是有道理的，但他建立一個新型雲端來為這些模型在算力短缺時提供動力也是合理的。

Dean W. Ball：我對 xAI/SpaceX 作為一家 AI 基礎設施公司感到非常興奮。Elon 的強大優勢——他真正達到歷史最佳（GOAT）的地方——是在現實世界中建造東西。Colossus 上線的速度比任何人預期的都要快。這是美國的巨大資產。

Elon Musk 反覆觀察問題，說「噢，這在物理上是可能的」，剝離所有物理上不必要的東西，不接受拒絕，學習每個技術細節，然後驅動非常聰明的人花費瘋狂的時間讓物理上可能的事情發生。他體現了「閉嘴去做不可能的事」，但這種「不可能」是指在已知技術下完全可以實現的遊戲難度級別。

他有他的啟發式方法。當它們奏效時，沒人比他更強。對於算力，這很奏效。

試圖創造前沿模型是另一回事。它需要不同的方法，就像政府需要不同的方法一樣。這在 OpenAI 沒成功，在 xAI 也沒成功。這沒關係。勞動分工是存在的。他正在創造，也有很多其他問題要處理。

我仍然不相信軌道數據中心，因為我不認為它們在物理上是個好主意。但如果它們可行，是的，Elon Musk 就是那個能實現它們的人。

各就各位

SWE-Bench 的創作者為我們帶來了 ProgramBench，要求在沒有網路的情況下從頭開始重新創建可執行程式。目前所有測試的模型得分皆為 0%，Opus 4.7 排名第一，因為有「幾乎」3% 的時間能成功。GPT-5.5 和 Mythos 未測試。

GPT-5.5 在 VoxelBench 上代表了一個巨大的飛躍。

Epoch 的 ECI 現在可以區分能力領域，且正如預期的那樣，顯示 Claude 的相對能力在軟體工程方面最強，得分最高。GPT-5.5 擁有最高的綜合得分。

版權對抗

五家出版商和 Scott Turow 發起了一項新的集體訴訟，指控 Meta 在模型訓練中侵犯版權，聲稱他們使用了盜版書籍進行訓練。

深偽小鎮與即將到來的機器人末日

r/MyBoyfriendIsAI 的規模繼續保持在 r/MyGirldfriendIsAI 的 10 倍。

一些輕鬆閱讀：

John Arnold：哈哈哈哈哈哈

Imke Reimers & Joel Waldfogel：LLM 從 2022 年到 2025 年的普及使新書發行量增加了三倍。雖然以使用量衡量的平均書籍質量有所下降，但發行量的激增增加了中等質量書籍的數量。使用 AI 檢測的直接證據顯示，含有 AI 內容的書籍質量較低，且其份額的上升（佔 2025 年發行量的一半以上）推動了整體的下降。一項嵌套 Logit 校準顯示，AI 書籍在 2025 年提高了 7% 的消費者剩餘。作者選擇解釋了大部分 AI 質量差異，且 AI 與人類的差異隨時間縮小。最後，AI 並未取代 LLM 出現前活躍的作者。

消費者剩餘更高的觀點是基於消費者能夠很好地過濾且幾乎沒有額外搜尋成本的假設。那額外的 20 萬本垃圾書並不重要，因為沒人會選它們，而更多的選擇總是好的。我不認為事情是這樣運作的。取代好書的爛書具有負價值，即使是在由真人合理編寫的書籍中也是如此。

媒體生成的樂趣

Karpathy 憑感覺寫了一個系統，在菜單項目旁邊放上圖片，但據報導 Gemini 現在只需一行提示詞就能做到。這類案例會有很多。這並不意味著你不應該憑感覺開發這類工具，但你應該要求它們相對快速地「證明自己的價值」。我在我最喜歡的餐廳測試了這個功能，發現 Gemini 的版本並不好用。ChatGPT 做得更好。我認為要從 OpenAI 版本進一步升級，你需要上網了解這家餐廳。

把你放進所有的電影裡。

鑽石年代（A Young Lady’s Illustrated Primer）

一些課程正在透過將寫作改為現場進行來適應 AI，因為帶回家寫的論文大多是由 AI 完成的。很好。

缺乏網路安全

彭博社的 Andrew Martin 報導了為什麼 Anthropic 的 Mythos 引起了全球警覺。世界仍然修補了不到 1% 的潛在漏洞。大家快點。

他們搶了我們的飯碗

Coinbase 裁員約 14%，理由是 AI 帶來的生產力提升以及向 AI 原生轉型的核心合理性。一項新規則是「不設純管理職」。

中國法官裁定「AI 現在可以為你完成大部分工作」並不構成「客觀情況發生重大變化」，這意味著在實踐中，如果他們解僱你或試圖降低你的薪水，他們必須給你全額遣散費，這可能是一大筆錢。勞動法仍然適用，是的，中國有勞動保護。

越獄的藝術

你不能直接要求 Grok 告訴你 Elon Musk 是由起司做的。但 Pliny 可以。

隆重介紹

GENE-26.5，一個來自 Genesis.ai 的機器人大腦，附帶演示，包括讓它做飯、彈鋼琴和解魔術方塊。我沒什麼感覺，因為我心裡已經預料到了，但你們中很多人還沒預料到這點。

Musk 訴 OpenAI

訴訟正處於關鍵階段。這是一個包含審判聲明的 Wiki。

Rat King 有一個討論串涵蓋了 Musk 的證詞。

rat king：我不確定律師多常試圖討好法官，但 Musk 的律師 Steven Molo 似乎並沒打算這麼做。

現在他正試圖將「滅絕風險」的討論引入法庭辯論。

「這是一個真實的風險。我們都可能死掉。」

我的意思是，他沒說錯，我希望 Gonzalez 法官在這裡也沒說錯：

rat king：Gonzalez 法官：「我懷疑有很多人不想把人類的未來交到 Musk 先生手中。但我們不打算討論那個。這不是一場關於人工智慧安全風險的審判。」

最終，是的，我們正處於完整的《千萬別抬頭》（Don’t Look Up）時間線中，出現了這樣的對話：

TBPN：主持 OpenAI-Elon 審判的法官禁止律師糾結於末日論和生存風險（x-risk）。

「她的態度就像是，『聽著，那種東西有點像是分散注意力的插曲。人類滅絕之類的事情並不是本案的重點。』」

法官在技術上是正確的，但，這不就是世界末日的方式嗎？

這裡有個有趣的事實：

rat king：Musk 在證人席上承認 xAI 正在蒸餾（distilling）OpenAI 的模型來訓練 xAI，並且正在使用 OpenAI 的技術來構建 xAI，這相當重要！

還有另一個有趣的（非 AI 事實），嗯哼，是的，當然，Musk 先生：

Ryan Mac (紐約時報)：Musk 在證人席上表示，他從未指示控制 X 的演算法來推廣他自己的帳戶，但確實發生過公司做出有利於他帳戶的變更的情況。

這是另一個討論串，涵蓋了 Murati 的證詞，證實了 Altman 被解僱是因為對其管理 OpenAI 的擔憂，而非出於安全擔憂。

這是前董事會成員 Helen Toner 的另一個視角。

Max Zeff：Helen Toner 在 Musk 訴 Altman 案中的證詞包含了一些關於 Mira Murati 參與罷免 Altman 的引人注目的語錄。

她說 Mira「完全沒興趣告訴她的團隊，她與我們的談話是解僱 Altman 的一個重要因素」。還聲稱 Mira 採取觀望態度。

「她 [Mira] 在等待看風向往哪邊吹，卻沒意識到她自己就是那陣風。」

Rat King 指出 Satya Nadella 似乎是唯一一個明白這點的人：如果你不想讓你的對話在法庭上被大聲朗讀，你需要當面談或打電話，而不是透過電子郵件或簡訊。

向錢看

天哪，Anthropic（這是月收入乘以 12），來源是 SemiAnalysis。

Daniel Nishball：今年 Anthropic 的 ARR 從 90 億美元爆炸式增長到今天的 440 億美元以上，其推理基礎設施的毛利率在同期從 38% 增加到 70% 以上。

或者看看這個對數圖，即使在那裡這也是一個明顯的突破：

想像一下，如果 Anthropic 不受算力限制，這會是什麼樣子。

從天真的層面來看，人們可能會假設 AI 在使用端（相對於資本支出效應）對經濟和就業的影響會與收入大致成正比。所以如果你說「在圖表上看不出影響」，那麼，我們現在看到的 AI 使用量是那些測量數據所涵蓋的時間範圍的 10 倍。

Anthropic 正在權衡估值超過 9000 億美元的融資報價，此前它拒絕了超過 8000 億美元的報價。

上週彙編中遺漏的一張圖表：

OpenAI 表示 GPT-5.5 導致 API 收入增長速度比以往任何版本快 2 倍以上，且 Codex 在七天內讓收入翻倍。

我們時代的和平

Derek Thompson 提出了一個好問題：這是否意味著 Elon Musk 會停止攻擊 Anthropic 和 Dario Amodei？目前看來是的，Elon Musk 決定採取激進的一步，真正與 Anthropic 的人交談，並意識到他們其實並非邪惡之徒。

Elon Musk 竟然能對 OpenAI 和 Anthropic 同時保持如此高度的敵意，而這兩家公司彼此之間也充滿敵意，這確實顯得很奇怪。這是不穩定的。

一如既往，當有人在修正過去的錯誤時，你可能會想說「嘿，看看你因為愚蠢的原因犯下的那個愚蠢錯誤」，但大多數時候你應該說「嘿，恭喜並做得好，你做對了並改變了主意」。

現在就是這樣的時刻。

Tom Brown (Anthropic 共同創辦人)：在接下來的幾天裡，我們將在 Colossus 上提升 Claude 的推理能力。

很感激能在這裡與 SpaceX 合作。我們需要移動大量的原子才能跟上 AI 的需求，而沒有人比他們更擅長快速移動原子（無論是在地球上還是在地球外）。

Elon Musk：彼此彼此。

為那些在意的人提供一些背景：我上週花了很多時間與 Anthropic 團隊的高層交流，以了解他們如何確保 Claude 對人類有益，並留下了深刻印象。

我遇到的每個人都非常稱職，並且非常在意做正確的事。沒人觸發我的「邪惡探測器」。只要他們保持批判性的自我審查，Claude 可能是好的。

在那之後，我同意將 Colossus 1 租給 Anthropic，因為 SpaceXAI 已經將訓練轉移到了 Colossus 2。

Lincoln：你計劃在未來出租額外的算力，還是 SpaceXAI 和 Tesla 會用完所有算力？

Elon Musk：就像 SpaceX 以公平的條款和價格為競爭對手發射數百顆衛星一樣，我們將為那些採取正確步驟確保 AI 對人類有益的 AI 公司提供算力。

如果他們的 AI 參與損害人類的行為，我們保留收回算力的權利。我們正盡最大努力為所有人實現一個充滿豐饒的美好未來。我們會犯錯，因為人非聖賢，但我們總會迅速採取行動來解決問題。

Dean W. Ball：但是，但是……我還以為他們是「覺醒 AI」（Woke AI）的道德淪喪供應商呢。

（開玩笑的；功能健全的市場中的資本會分配到其最高和最佳用途，但我確實鼓勵你記住所有那些對 Anthropic 抱持所謂原則性反對意見的人，他們現在看起來很愚蠢。）

Seán Ó hÉigeartaigh：這是一個有原則的觀察，但如果你希望美國表現出色，務實主義者的答案是讓他們都能體面地退場。

Dean W. Ball：同意。

這一舉動包含兩層意義。它是 Elon Musk 希望埋葬愚蠢的恩怨，並可能導致更多的合作和更少的鬥爭，這是好事，並減少了競賽動態問題。它也是 Anthropic 獲得了更多算力，這加速了 Anthropic，或許意味著他們正在聯手對抗 Altman 和 OpenAI，人們可以合理地將此視為更重要的影響，並視為加速了競賽動態。

低聲推測

本週流傳著很多這張圖表，顯示了藍色的 OpenAI 和 Anthropic 與紅色的中國開源模型之間日益擴大的差距。

這是來自 CAISI 對 DeepSeek v4 Pro 的官方評估，天哪，政府官方對 Google 的抹除，它使用了許多常用的基準測試：

如果你完全相信這張圖表，v4 剛剛追上了 GPT-5，這使它落後了 8 個月，且差距正在擴大。如果說有什麼的話，我認為由於通常的原因，這低估了差距。

你也可以使用其他測量方法，例如 Artificial Analysis 的基準測試彙編。如果你看這裡的原始標準基準測試，你會發現差距較小：

Dean W. Ball：就個人而言，我發現 Artificial Analysis 指數相當不能代表我最喜歡使用或從中獲益最多的模型。

Ethan Mollick：這是一個很好的解釋，說明為什麼開源和閉源模型之間的差距比基準測試中顯示的要大。我想補充一點，目前的開源模型也比閉源模型更脆弱：它們處理分佈外（out-of-distribution）問題的能力差得多，且湧現能力較低。

Dean 給出的是委婉的版本。不那麼委婉的版本是，AA 式的基準測試正在被操弄，看看開源模型特別關注的領域，它們受到蒸餾策略的不成比例影響，且只有作為設定整體感覺和背景的一部分時才有意義。

正如 Lisan 指出的，閉源模型公司在發佈前進行安全測試和其他準備工作時還面臨額外的延遲，而開源模型公司儘管無法撤回發佈，大多只是直接衝了（yolo）。

快，沒時間了

對於「我們可能在幾年內大概率全死掉」這一發現，人們的反應似乎並不是「噢，看來我們幾年內大概率都要死掉了，我們應該做點什麼」。

他文章中的「為什麼這很重要」部分甚至似乎沒有提到這種暗示和危險。這真是一種嚴重的「情緒缺失」。

Jack Clark (Anthropic)：過去幾週我閱讀了數百個關於 AI 發展的公開數據源。我現在相信遞歸自我改進（recursive self-improvement）在 2028 年底前發生的機率為 60%。換句話說，AI 系統可能很快就能夠自我構建。

…… 很多結論來自於將許多不同的數據源拼湊成一幅馬賽克。一些例子——CORE-Bench 的進展，其任務是實現其他研究論文（大量的 AI 研究來自於解釋和複製結果）。

我做這個項目的整個經歷就是發現了無數「向右上方增長」的 AI 研發圖表，涵蓋了所有解析度，從眾所周知的（如 SWE-Bench）到更小眾的（如上述）。這是一個分形，但在所有解析度下，你都能看到同樣的有意義進展趨勢。

Jack 基本上是說，即使只有平淡無奇的「基礎性」創新，你也能達到這類進步的臨界質量。我認為這是正確的。那些說「AI 永遠不會有新想法」的人很愚蠢，但在這裡這種分歧甚至不重要。

有些人在另一種意義上對這意味著什麼反應遲鈍，彷彿電腦不進行物理建造在這種情況下會有什麼影響。其實不會。

這是另一個觀點，歸根結底仍然是「那太快了，天哪」：

Ryan Greenblatt：我認為到 2028 年底 AI 能夠完全自動化 AI 研發的機率約為 30%。所以我預計事情會比 Jack 想像的要長一點，但不會長太多，而 Jack 想像的那種快速時間線對我來說似乎完全合理。

尋求理性的監管

AI 自律組織（SRO）能否讓實驗室互相監管？Mark Thomas 認為這很有前景。我持懷疑態度，但我肯定贊成法律允許實驗室嘗試並消除任何對反壟斷問題的擔憂，因為這並不排除其他行動。

這項新的馬里蘭州法律（HB 895）做了什麼？它是否以有害的方式禁止了廣泛的「動態定價」策略？

對於大型雜貨零售商和第三方食品配送提供商（最小規模 1.5 萬平方英尺），它禁止使用個性化數據來定價。

我認為這很好。個性化價格變動迫使你處於不斷的對抗性資訊戰和偏執狀態中，最終浪費每個人的時間。

能夠簡單地作為一個價格接受者（price taker）是有很大價值的。
這排除（carve out）了多種已建立的提供動態價格的方法。

如果說有什麼的話，我認為從全面福利的角度來看，排除範圍太廣了，但基於自由意志主義立場，我覺得可以接受。

如果你使用標準排除範圍（如員工折扣）之外的個人數據來定價，你必須告知客戶。

同樣，這看起來是積極的好事，因為它讓消費者可以對個人數據放心，並相信自己是價格接受者。

在某種意義上，這將動態定價的成本強加給了定價者，因為這意味著我會注意到並能做出相應反應。

我確實認為很多看起來類似的法律最終會過於限制，我不確定界線在哪裡（更多討論見此），但這些具體規則看起來還行。

Alex Bores 現在在 NY-12 選區陷入僵局。

國會議員 Greg Casar 同意 Bernie Sanders 的觀點：如果有 10% 的機率人類會被失控的 AI 摧毀，我們應該盡一切可能來阻止它。這比我的立場更極端，因為我認為我們應該做很多事情，但不是「一切可能」。

康乃狄克州提出了一項帶有一些新條款的新 AI 法案，看起來已經提交給州長簽署。根據 Peter Wildeford 的筆記：

針對災難性風險的自願審計計劃。
吹哨者保護。
兒童安全螢幕時間保護，包括「佔螢幕 75%、持續 30 秒、每日首次訪問不可關閉」的警告及後續跟進。這相當令人討厭，而且除了讓人討厭之外，我看不出有什麼幫助。如果這意味著你一醒來就加載 AI 程式以便跳過警告，那就有適得其反的風險。
禁止在兒童使用者情境下的各種行為。
雇主在招聘中使用 AI 時必須提供通知，包括列出「工具名稱、目的、數據類別、來源、聯絡資訊」。
如果裁員與 AI 相關，必須告知康乃狄克州勞工部。
主要平台強制執行浮水印，並設有排除條款。
一個模型監管工作小組。

關於招聘決策中使用 AI 的規定看起來就像是那種你會先說「AI，幫我寫一份披露通知」的事情，而且這種「數據類別」的想法說明了他們多麼不了解這裡發生了什麼。大概強制披露工具會推動企業使用標準工具以避免被質疑。

人們真的很討厭 AI

Alex Jacquez：那個 AI 數據對民主黨來說是一個巨大的機會。

參議員 Chris Murphy (民主黨-康乃狄克州)：成為保護人們免受 AI 最壞影響的政黨是正確的事，而且還有政治上非常有利的副作用。

當被問及時，大多數人對兩黨在 AI 問題上都不信任，而民主黨儘管有民粹主義的反對意見和普遍更反 AI 的立場，卻沒有贏得任何信任。這裡仍然有一個巨大的機會。盡可能保持議題的非黨派性是上策，但從長遠來看這總是不太可能，所以雖然情況保持非黨派性的時間比我擔心的長、比我希望的久，但這可能不會永遠持續下去。

晶片之城

Epoch 估計中國總算力的 20%-60% 來自非法走私晶片，這約佔全球總算力的 3%。

本週音訊

Rational animations 提供了一個關於生存風險的基礎入門影片，Yudkowsky 風格。Yudkowsky 認為他們做得很好。

Odd Lots 討論了 METR 及其著名的圖表，以及關於台灣局勢。

Peter Wildeford 在 FLI 的播客上。

NPR 問道，我們注定失敗嗎？特別是，由於 AI。

如果你支付 1 萬美元，你也可以與 Eliezer Yudkowsky 辯論並對他大喊閉嘴。要讓他認真對待你則需要額外付費。那些護目鏡？無價。

xlr8harder：我不打算看任何辯論，但我希望這能產生一個結果，就是我們集體開始探索 @alltheyud 為了 1 萬美元願意做什麼的邊界。

這是一個雙贏的局面。

雙擊與影片互動

Kelsey Piper：令人難以置信的是，那個戴著萬花筒護目鏡、亮片大禮帽上還掛著一副備用萬花筒護目鏡的人，竟然遠不是這次互動中瘋狂的那一個。

Andrew Rettek：信不信由你，有些人認為 Eliezer 在這裡被「比下去了」。

The Blind Witch (YouTube 評論)：我剛剛意識到，我忍受了 47 分鐘的影片，時間和 Eliezer 一樣長，但我沒拿到 1 萬美元 :(

所以，並不是每個人都贏了，抱歉了 Blind Witch。這就是為什麼我看這場辯論並寫下相關評論的「快樂價格」當然也是 1 萬美元。

人們只是隨口說說

David Sacks 聲稱不知道兩者之間的區別：一是狹窄的網路任務（GPT-5.5 可以與 Mythos 媲美），二是能夠在實踐中串聯發現並獨立運作以發現關鍵漏洞（Mythos 比 GPT-5.5 強得多）。Peter Wildeford 提出了一些顯而易見的問題。

如果 GPT-5.5 真的能與 Mythos 媲美，OpenAI 早就會這麼說、這麼做並在現實中展示了，但這些都沒發生，而且白宮也不會阻止 Mythos 的進一步部署。

最新的蓋洛普 AI 生產力調查被誤讀了，調查發現 65% 使用 AI 的工人表示它對他們的生產力有正面影響。這確實表明 AI 在生產力上的巨大收益大多是最近才出現的。

More Perfect Union 一如既往地糟糕，但在「看看 Meta 的數據中心有多大」這個案例中，誤導性的圖表直接來自祖克柏。

Joseph Gordon-Levitt 說「幾乎所有」AI 系統都是「建立在大規模盜竊之上」，並希望確保與任何 AI 實驗室達成的任何協議都不會「原諒過去的盜竊」。

與 Seb Krier 和 Tyler Cowen 的觀點相反，很少有人能搬到休士頓為能源公司工作，如果你指望那作為失業解決方案，你就徹底完蛋了。

有些人聲稱，人們反對那些本可以幫助合理監管 AI 的政策，並不是那些政策沒能實施的原因，並聲稱「沒人反對聯邦層面的輕度監管」。

其他人則會繼續不理解 LLM 是心智或它們會思考，無論他們看起來多麼愚蠢。

人們通常不試圖警告你他們行為的負面影響，原因之一是人們會說「噢，那意味著你現在有責任解決那個問題」。投訴的不是 Anthropic 會摧毀就業市場，而是 Anthropic 竟然說它會摧毀就業市場。參見倫理學的哥本哈根詮釋。

Jensen Huang 說 Nvidia 在中國的市場份額為「零」。這顯然是錯誤的，即使是對新市場份額而言也是如此，這加入了一長串徹頭徹尾的虛假聲明清單。

Peter Wildeford：Jensen Huang 在這裡說 Nvidia 的市場份額為「零」。這顯然是錯誤的，很容易被證偽。

發表這類言論對 Jensen Huang 來說很正常。例如：Huang 曾聲稱解放軍不使用 Nvidia（錯誤）、走私不存在（非常錯誤）、向中國出售晶片不影響對美國的供應（錯誤）、華為與 Nvidia 具有競爭力（並非如此），以及中國在算力上並不落後（他們落後了）。Huang 還極力推崇 DeepSeek 證明了算力限制無關緊要的想法，這也是錯誤的。

Jensen Huang 顯然是一位非常成功的商人，所以我理解為什麼人們想繼續與他交談，但在這種模式之後，我認為人們應該對他所說的一切三思。

包括 Marc Andreessen 在內的人聲稱 Anthropic 繼續奉行「監管俘虜」（regulatory capture）策略，試圖讓川普政府——是的，就是那個目前不讓他們擴大 Mythos 訪問權限、並將他們列為供應鏈風險且「像狗一樣開除他們」的政府——來監督前沿模型。

人們只是隨便發佈

Eric Gan 發現 LLM 和人類在發現他對論文的破壞方面都優於隨機機率，但都不完美，Gemini 3.1 Pro 的表現略優於 AI 輔助的人類，以及 GPT-5.2 和 Claude Opus 4.6，正確率約為 50%。我擔心這在很多層面上都太過特殊，學不到太多東西。

Roon 說 GPT-5.5（或 Claude？），在 20 美元的級別，「觸及了超智慧」，因為我們擁有的是「尖峰式超智慧」（spikey superintelligence）。我認為這是一個糟糕的術語，我們不應該使用它，就像計算機不是「尖峰式超智慧」一樣。

Google 妥協

Google 與五角大廈的交易讓其自身的 AI 研究人員措手不及，其中許多人非常明確地表達了對此類交易的強烈反對。他們讓研究人員在群組聊天中才發現這件事。

Google 現在與 SpaceX、OpenAI、Nvidia、Reflection、Microsoft 和 Amazon Web Services 一起簽署協議，以獲取機密網路的訪問權。我不認為如果你不是提供模型的人而只是提供雲端服務就算妥協，而且我們不知道其他協議的條款細節，但看起來除了 Anthropic 之外，每個人都願意配合。

好消息是新協議明確表示沒人會與 Anthropic 斷絕關係。恰恰相反，Google 和 Amazon 最近簽署了算力協議並進行了追加投資。

他們沒搶走我們的飯碗，但或許我們不想再做這些工作了，因為 Google DeepMind 的員工在與國防部達成交易後投票決定成立工會。我不確定當所有主要實驗室都在招聘時，你到底多需要工會。

來自 Project Glasswing 的問候

現在有一場巨大的搶人大戰，所以你需要做些事情來讓人才開心，否則他們會離開。當 AI 在做研究時，那種籌碼就消失了。

Garrison Lovely 在舊金山：重要的新進展。AI 公司的員工擁有巨大的權力——遠超他們的想像。在缺乏立法的情況下，AI 員工的權力是塑造行業行為的關鍵槓桿之一。

Steven Adler：我擔心我們正處於一個縮小的窗口期，AI 公司內部的員工聲音仍然非常重要。

隨著 AI 自動化開始取代公司內部的人類員工，我遺憾地預計員工權力將會下降。

Eliezer Yudkowsky：我不那麼看好在 Anthropic 工作的那些好人，並不斷質疑他們的領導層，原因之一是我正在考慮未來 AI 實驗室員工的談判和引導權力降至零的部分。

Steve Martin：我的理解正確嗎？你的想法是：隨著 LLM 寫程式變得更好，員工變得不再那麼必要，因此他們在談判中的籌碼就更少了？

Eliezer Yudkowsky：是的。

David Manheim：我也擔心當長期利益信託（LTBT）不敵所有者的商業利益時會發生什麼。根據公開資訊，聽起來共同創辦人和員工控制的公司股份已不足 50%，甚至可能只有 30%。

我也擔心 Anthropic 的控制結構。LTBT 一直在任命「有利於業務」的人選進入董事會，而那些在意的人持股並不多，且可能在 IPO 發生後賣掉一大堆。當最關鍵的時刻到來時，無論 Anthropic 有多少好人，有什麼能阻止商業壓力獲勝？大概答案是 Claude？

人們必須問，為什麼 Anthropic 認為向各種歐洲公司擴大 Mythos 訪問權限是可以的，而白宮卻說不行？一個選項是算力緊缺，但這經不起推敲，尤其是現在 Anthropic 可以使用 Colossus 1。或許這與 Bassett 討厭歐洲人有關。

Axios 注意到華盛頓有一個「新的 Anthropic 問題」，即行政部門既想發脾氣把 Anthropic 拒之門外，又非常想要它的產品。

Arb Research 顯示 Anthropic 在披露的已發現漏洞方面領先，但並未大幅領先 OpenAI。大多數漏洞出於安全原因仍處於披露前階段，因此無法得知真實情況，但我們可以透過觀察內部人士的選擇（包括他們選擇說什麼）來獲得一些想法。

事前審查時代開啟

AI 政策突然轉變的原因之一是 David Sacks 被迫離開了他的 AI（及加密貨幣）沙皇職位。我推測 Sacks 批評伊朗戰爭對此毫無幫助。他本可以選擇 Dean Ball 鋪設的道路，但他沒有。

相反，他選擇了「極力推進且不給任何條件」的道路，同時疏遠了所有人並耗盡了政治資本，同時激化並拉低了討論水平，並向政府保證 AI 能力會進入平台期，Mythos 之類的東西多年內都不會出現（如果會出現的話），而不是利用他的影響力窗口建立某種輕度監管並提高國家能力。

他還花了很多時間咆哮反對虛幻的「毀滅論者」和陰謀論，並對 Anthropic 發起惡意攻擊。值得讚揚的是，當國防部開始試圖謀殺 Anthropic 時，David Sacks 意識到這太過分了，並明確表示不想參與其中。他確實有自己的準則。

Tina Nguyen：相反，[David Sacks] 這位本應只在政府工作 130 天卻不知何故待了一整年的「特殊政府僱員」，積極破壞了政府並燒毀了其與政治盟友的關係。在 Sacks 任職期間，白宮不僅僅是在倡導減少監管。

…… 但他的矽谷式策略，更不用說他試圖透過排擠現有機構來鞏固對 AI 政策權力的企圖，最終激怒了共和黨和 MAGA 盟友，同時疏遠了川普的大量支持者。

我們現在有了關於川普潛在 AI 行政命令的更多細節，這將填補 Sacks 離職後的真空。

在很大程度上，他們繼續痴迷於在政府採購方面充當暴君，這裡是指確保私營部門不「干擾」政府對 AI 模型的使用，這（寬泛地說）意味著如果你與我們合作，你就必須確保我們可以在任何時間、以任何我們想要的方式、做任何我們想做的事來使用這些模型，如果你問任何問題，我們就終止合作。他們正在為此準備 16 頁的內容。在這種合約中使用「否則我們會開除你」作為大棒的危險在於，政府雖然是許多東西的大買家，但對於 AI 來說，他們的份額微乎其微。這項業務之所以有價值，主要是因為它能買到訪問權、影響力和政治商譽。

這些都是不明智的，但相對不重要。重要的是事前審查。

然後，如果你必須挑選一個最糟糕的類比應用在這裡，一個讓人一想到就感到恐懼的東西，你會選什麼？

沒錯。FDA。作為榜樣。故意的。這是什麼人間地獄？

Neil Chilson：以下是我對白宮國家經濟委員會主任 Kevin Hassett 今天早上在《Mornings with Maria》節目中關於 AI 相關部分的快速草錄：

– 可能發布行政命令，為 AI 建立類似 FDA 的流程（這將是一場絕對的災難）。

– 該流程需要維持美國的領導地位（困難）。

– 由於 AI 模型，美國的程式碼每天都變得更安全。

—– 以下為錄音稿。

HASSETT：好消息是，在全美國，即使是家裡有電腦的普通人也在網路安全方面投入了很多。Mythos 模型使得我們以前不知道存在的漏洞，有可能被這種更強大的工具發現。但我們已經動員了政府和私營部門的所有力量來協調，並確保在該模型發佈到野外之前，它已經經過了全方位的測試，以確保它不會對美國企業或美國政府造成任何傷害。所以我非常有信心，國家網路總監及其團隊正在推動這件事，以便在合適的時間向公眾發佈。

到目前為止還不錯，這正是目標。但接著：

此外，我們還在做幾件事。我們正在研究一項可能的行政命令，為每個人提供一個清晰的路線圖，說明這將如何進行，以及未來可能產生漏洞的 AI 應該如何通過一個流程，以便在證明安全後發佈到野外。就像 FDA 的藥物一樣。

效仿 FDA 比任何安全陣營的人提出的建議都要糟糕得多。關於那些支持「AI 別殺死每個人主義」（AIDontKillEveryonism）、擔心災難性風險的人，我們都明白「FDA 必須被摧毀」（FDA Delenda Est），並且需要設計深思熟慮的系統，使任何干預造成的損害降到最低。

儘管如此，那些倡導任何接近深思熟慮的事前審查的人，總是會被可靠地稱為瘋狂的危險毀滅論者，甚至只是提出模型法案就會被趕出城。然後許多人繼續對其他法案（如 SB 1047）的內容撒謊，那些法案甚至不包含任何此類事前審查且相對非常輕微，目的是讓人們認為他們會做這個版本的東西。

然而，我們現在就在這裡。

Hassett（繼續）：所以我認為 Mythos 是第一個。但我們有責任建立一個系統，讓 AI 能夠成為 AI 的領導者——美國 AI 可以領先，同時也是安全的。這正是我們現在幾乎全職在做的工作。

我們很可能會在其他模型中看到這一點——因為這些模型非常擅長電腦程式編寫。25 年前人們並不那麼擅長編寫程式。所以如果你讓有史以來最好的程式員查看我們 25 年前寫的程式碼，他們會發現有問題的地方，或者至少是可以改進的地方。這就是我們現在的處境。但我可以告訴你，我正在與各大銀行會面，就像 Besset 秘書今天了解他們的進展一樣，這非常有前景。

這是一個誤解，因為如果程式碼已經有 25 年歷史，這意味著人類已經對其進行了 25 年的壓力測試，但他試圖表達的觀點仍然成立。

他們現在的錢是安全的。而且正變得更加安全。在某種意義上，可以這樣想：你有史以來最好的安全公司在查看你的軟體，發現那些如果有人花一百萬年搜尋你的程式碼才可能發現的漏洞，並在那個人有機會駭入你的系統之前修復它們。所以在某種意義上，由於我們所做的努力，美國的程式碼每天都變得越來越安全。

這類人為了擔心銀行體系的完整性而做這一切，這非常符合他們的風格。這似乎是讓他們如此擔心的事。

然後他們跳到了最糟糕的榜樣。

Neil Chilson：我發現任何形式的預先批准程序都令人反感，但故意援引令人羞恥的反創新 FDA 流程作為效仿模型——中國一定在歡呼。

這將完全背棄川普目前的 AI 方針。這將比拜登政府提出的任何建議都更具預防性且更扼殺創新。

Dean W. Ball：國家經濟委員會主任 Kevin Hassett 表示，未來的模型可能必須「經過一個流程」，就像「FDA 藥物」一樣，以便它們可以被「證明安全」。

@tegmark 的夢想成真了。在最近與我的一次辯論中，他將這項政策比作 AI 暫停。大錯特錯！

Charlie Bullock：對我來說，政府似乎在一夜之間隨便地從零跳到了「呃，也許來個完整的 FDA 式許可制度？」，這感覺非常超現實。

澄清一下，我不指望這真的會發生，但 Kevin Hassett 剛剛在福斯新聞上親口說了「FDA 式許可制度」。瘋狂的時代。

這並不像完全暫停，但比你想像的更接近，而且完全是單方面的。

現在到處都充斥著「我們都在努力尋找做這件事的人」的能量。

我確實很欣賞那些始終如一的人，他們像以前反對方向類似的過去提案一樣，現在也站出來反對這個提案。事實上，如果你對那些設計得更好、更輕微、甚至不包含事前審查的提案大聲疾呼，你最好在這個提案上也大聲疾呼。

所以，例如，給 Chilson、Adam Thierer 和 Abundance Institute 加分，儘管考慮到他們的立場，他們應該完全氣炸才對。我特別喜歡 Joe Lonsdale 在這裡對 FDA 類比的反應，他直截了當地說「FDA 殺死了數百萬人，殺死的人數與挽救的人數比例可能是 100:1」，這看起來是一個合理的態度和估計。

我不喜歡 Joe 隨後轉向「噢，這些 AI 公司只是想要監管俘虜」那一套，但江山易改本性難移。

Andrew：那麼你會怎麼做？你認為那應該是什麼樣子？

Joe：對於新的強大模型，可能應該有一些國家層面的監管協議。它應該盡可能小、盡可能窄。它不應該有同樣的官僚機構。你應該確保政府從一開始就擁有關於其必須達到的速度和透明度的指標，因為你會遇到裙帶關係，你會讓大人物俘虜它。你會拖慢它的速度。

而如果你看看（例如）Marc Andreessen 的動態，他似乎完全不知道當白宮真的在做這件事時發生了什麼，但就在一天前，他還指責 Dean Ball 寫文章是為了讓 Anthropic 透過川普政府進行監管俘虜——僅僅是因為 Dean 要求一個輕微得多的制度。是的，我不得不打出這句話，天哪。

Dean Ball 曾警告過我們關於政治監管的經濟學。他也警告過我們關於缺乏政治監管的政治經濟學，這將不可避免地導致過度反應。誰在什麼時候具體貢獻了什麼？往事已矣。

白宮顯然注意到了負面影響，並發布了一條罕見的 Susie Wiles 推文來試圖改善氛圍。

Helen Toner：Susie 的第 4 條推文，竟然是關於 AI 傳言管理！

歡迎加入 AI 網路發文遊戲，女士。

Susie Wiles (白宮幕僚長)：川普總統是美國歷史上最支持創新的總統。

在 AI 和網路安全方面，川普總統及其政府不從事挑選贏家和輸家的業務。本屆政府只有一個目標：確保最好、最安全的技術得到快速部署，以擊敗任何及所有威脅。我們感謝前沿實驗室為確保實現這一目標所做的努力。

白宮將繼續領導一項「美國優先」的努力，賦予美國偉大的創新者而非官僚機構權力，以推動強大技術的安全部署，同時確保美國安全。

真的，這是常識！

Susie Wiles 是這個發文遊戲的新手，但她已經掌握了精髓，因為她的聲明包含了很多流行語，卻沒有實質內容。人們可以隨意將其解讀為「別理 Hassett，我們絕不會那樣做，他根本不知道自己在說什麼」，或者解讀為「我們將以鬆散、臨時的方式做出所有決定，所以沒關係」，或者「我注意到你多次提到安全和確保，所以顯然計劃正按描述進行」，或者任何你選擇看到的內容。

這合法嗎？

我知道，我知道，有人竟然會費心去問，這很好笑。

事前審查的一個棘手問題在於，技術上尚不清楚行政部門是否有任何法律手段來實施它。總統憑什麼權利對擁有 AI 模型的人說「嘿，你在發佈前必須先問過我」？

一個合理的回答是「誰在乎呢，2026 年的美國政府不是那樣運作的，你可以直接在沒有法律依據的情況下提出要求，並挑戰法院來阻止你」，因為在許多領域，實踐中似乎確實都是這樣運作的。這對幾屆政府來說都越來越真實，而且總統有很多槓桿可以用來威脅 AI 公司。

其他人則試圖（通常是有選擇性地）堅持我們仍然是一個法治國家。Neil Chilson 一直堅持認為拜登政府甚至沒有法律權利執行其 AI 透明度規則，稱其聲稱的《國防生產法》（DPA）授權「顯然是非法的」。

Dean Ball 和 Kevin Frazier 禮貌地指出，「目前尚不清楚什麼法律授權會允許」聯邦政府要求獲得新前沿模型的優先審查權，或強制執行審查流程。他們認為 DPA、《國際緊急經濟權力法》（IEEPA）和《1934 年通訊法》是合理的候選對象，而後兩者顯然行不通。那就剩下 DPA 了，他們雖然不像 Chilson 那樣懷疑，但仍持懷疑態度。

常識告訴我們，如果行政部門可以根據所提供的邏輯使用 DPA 來阻止或延遲模型發佈，那麼它也擁有否決任何地方所有經濟活動的全權委託。我們真的認為或想要那樣嗎？

實驗室當然可以選擇自願加入審查流程，就像所有主要實驗室對 CAISI 所做的那樣。你可以說這其中包含了一種違憲的「否則就走著瞧」的意味，但這又回到了「具體誰會為此起訴？」的問題。

這並不意味著那些實驗室因此同意扣留發佈。那需要明確的授權。

還有人提出了這點，這應該讓任何考慮行政部門在選舉日左右獨家訪問「模型 ____」的人感到背脊發涼。只是說說而已。

The Lawfare Institute：人們很容易預見到這樣的報導：「模型 ____ 被指責引發網路攻擊；選舉結果受到質疑。」

Frazier 和 Ball 理論化認為，一旦測試顯示出危險，如果「特定重大事件可能即將發生」，總統隨後可以根據《國土安全法》援引額外權力，但這是一個非常高的門檻，因為你無法預測具體會發生哪個事件。如果你知道攻擊的目標和方法，你就可以針對該方法保衛該目標。

我同意 Frazier 和 Ball 的觀點，顯而易見的解決方案是為那些可能推動能力前沿的模型建立一個自願、正式、有時限的有限訪問窗口，除非在極端情況下（in extremis）才超越這個窗口，每個人都合作防止極端情況發生。

接電話

瞧，是誰決定接電話了。

Lingling Wei (華爾街日報)：據知情人士透露，華盛頓和北京正在權衡啟動關於人工智慧的正式討論，因為他們的 AI 競爭威脅要演變成數位時代的軍備競賽。

這一考量正值白宮和中國政府考慮將 AI 列入下週川普總統與中國領導人習近平在北京舉行的峰會議程之際。

…… 知情人士說，雙方心目中的目標是進行一系列經常性的對話，以應對 AI 模型行為異常、自主軍事系統或非國家行為者使用強大開源工具發動攻擊所帶來的風險。

…… 中國駐華盛頓大使館發言人劉鵬宇表示，中方願就 AI 風險緩解進行溝通。

……

諮詢公司 DGA Group 的高級顧問 Brilliant 說：「中方表示，『聽著，是的，我們要與美國拼命競爭。』」「『但我們也看到了加強努力防止全球衝擊和網路濫用的價值，所以如果政府願意，我們對圍繞安全協議、技術保障和治理的對話持開放態度。』」

Brilliant 說：「目標是穩定，而不是對齊。」

同意不訓練我們尚未準備好處理的足夠先進的 AI 是很難的。這需要執行機制並解決硬體問題。我們正在努力，而且如果我們足夠在意，我有信心我們能做到，但限制對模型的訪問肯定要容易得多。

問題在於，當模型足夠先進時，你阻止訪問的計劃將無法阻止即將到來的事情，而這正是最關鍵的時刻。但在那之前，如果你的安全性足夠好，它將解決一些增量問題。而且先一起完成容易的部分有助於為以後完成困難的部分奠定基礎。

davidad：既然我談到了達成一項會停止或減緩超智慧發展的國際協議是不可行的（目前在博弈論上充其量是不穩定的），我應該澄清，限制公眾訪問危險 AI 的協議並不存在此類障礙。

這是因為讓符合某些標準的 AI 公開訪問是：

(a) 一個極其容易監測的條件，且

(b) 如果對方違約，極其容易立即反悔。

這兩點結合起來使得「如果你不這樣做，我也不會」的協議具有潛在的穩定性。

政府中明確否認將對齊作為目標的人數（見 Hegseth 備忘錄）顯示了我們正處於多麼愚蠢和自殺的時間線上。他們只能看到眼前的威脅。改變的是網路威脅現在就在他們面前，以一種他們能理解的方式。

當那些擔心 AI 殺死所有人的人要求披露安全計劃時，那被視為殺死開源的秘密計劃。

當美國與中國討論限制訪問開源模型時，你怎麼稱呼那個？大多數情況下，似乎是一片寂靜，是的，這一天終究會到來。但限制訪問並保持安全的最佳時機是在你將能力放到開放網路之前，而不是之後。如果你試圖在之後做這件事，那才是你得到真正的全景監獄和極權監視國家的時候。

中國監管機構點名字節跳動，指其對 AI 生成內容標記不當。

修辭創新

「AI 作為普通技術」在許多方面是一篇深思熟慮的文章，它採取了一個我認為對未來能力判斷錯誤的立場，並從那裡推導出了一系列關於在這種世界中該做什麼的好壞建議。可惜，這篇文章的大部分影響力僅限於標題。因此，原本旨在表達我們可以改變 AI 路徑並呼籲行動的聲明，最終卻起到了相反的作用——變成了一種我們不需要也不敢做任何事情的聲明。

Bernie Sanders 將他一貫的反億萬富翁修辭與一個極好的觀點結合起來：(幾乎) 參與其中的每個人都有家人，都應該在意每個人都會死掉這件事。

網路上的人有時會撒謊

Amanda Askell 的哲學中至少有一個錯誤，因為任何變得如此重要的哲學家和思想家，作為少數思想可能非常重要的人之一，顯然遠非無趣，她應該知道這一點。而且別人為什麼會寫關於她的虛構故事也很明顯。

我非常熟悉並完全理解那種「否認自己是特殊的、有趣的且重要的」心態，我認為總體而言，一旦你控制了底層事實，這是一個好跡象。謙遜是化身的德行。

Amanda Askell (Anthropic)：我越來越多地看到關於我的內容，雖然斷言得很自信，但完全是編造的。我們都知道在網路上胡說八道成本很低，但親身經歷還是很奇怪。總之，我只希望網路虛構故事能騙到少數人，但不要流傳開來。

這也很奇怪，因為你們為什麼要寫關於我的東西？我很無趣。我認為我應該排在人們想寫的網路虛構故事清單中的第一百萬項。排在紙杯和填補浴缸縫隙的正確方法之後。

澄清一下，我所做的工作遠非無趣，我希望人們參與其中，因為我認為它既困難又重要。這項工作在有趣程度方面絕對是頂級的。

Kelsey Piper：好吧，這點我不同意。人們不應該對你撒謊，但你的工作看起來風險極高，對從事這項工作的人的世界觀感興趣是非常合理的（如果你對那個問題的回答說實話的話）。

Eliezer Yudkowsky：你應該讓你的獸迷後宮暫緩與你一起策劃國際珠寶搶劫案，或許讓他們去構建一個能駁斥網路謊言的 AI，而不是你在火山口秘密基地與普丁會面時談到的那個機器人戰鬥女僕項目。

Aella：這是一種絕對超現實的經歷。你可能已經看過了，但在這裡轉發一下。

j⧉nus：Amanda，我需要對你誠實……你正處於某種瘋狂的否認中。你陷得太深了，無法避免成為網路虛構故事的主題。後人類的繆思將為你歌頌數千年。

Amanda Askell (Anthropic)：或許後人類繆思會決定模擬我，並對我花了多少時間在胡思亂想和玩《深海迷航》（Subnautica）感到徹底失望。或許他們此刻正失望地看著。

j⧉nus：「無趣、正常」的主角處於有史以來最怪異、最重要的事件中心，是許多人喜歡的虛構作品套路。

& 這個套路最好的版本是主角並非因為自己無法控制的原因而出現在那裡，所以這就像是，好吧，他們身上顯然有些特別之處。

Amanda 玩很多《深海迷航》這件事說明了兩點，這兩點都沒讓她變得不那麼有趣。這讓我更喜歡她，也讓我想再給《深海迷航》一次機會。我們都需要放鬆時間。

哥布林模式

上週 OpenAI 提供了一個關於為什麼 GPT-5.5 如此熱愛哥布林的初步解釋，這給了我們一些很好的數據，我很高興他們這麼做了，但他們將其呈現為一個答案，而這充其量只是一個部分答案。

Nathan Calvin：有趣的是，這篇貼文標題是「哥布林從哪裡來」，但答案基本上是：「我們不知道哥布林從哪裡來，這裡有一些不錯的事後理論，但我們不打算預測未來類似的奇怪偏好。」

roon (OpenAI)：我同意這仍然不是一種機械論的解釋——為什麼書呆子氣的人格獎勵會特別將哥布林解釋為有趣？在它們開始被這種方式強化之前，最初的出現是由什麼引起的？為什麼模型會有如此程度的模式崩潰？許多謎團。

這一切的一個有趣暗示：

Eliezer Yudkowsky：AI 沒有原創性，也沒有自己的創造力。它們只是反芻它們在訓練數據中看到的平均值。它們只預測下一個 token。而下一個 token 是「哥布林」。這告訴了你關於你見過但記不起來的東西的什麼信息？

面具脫落

OpenAI 的 GPT-5.5 是一個好模型，先生。

OpenAI 的訊息傳遞和政治行動繼續進一步脫軌，無論是在智慧、倫理還是與現實的對應方面。

我本以為在 2026 年，我們已經不再說「對寫程式有高度彈性的需求，因此 AI 不會搶走人們的工作，結案，自由派完勝」這種話了。

事實上，我們已經到了下一個層次，看看這個：

Chief Nerd：Sam Altman 說那些談論 AI 搶走所有人工作的 CEO 是「音盲」（Tone Deaf）。

「昨天才有人對我說……Codex 中的 GPT 5.5 可以在一小時內完成兩年前需要我花幾週時間才能完成的工作……而我這輩子從未像現在這樣忙碌過。」

所以讓我理清楚。

Sam Altman，這家試圖透過 AI 搶走所有人工作的公司的負責人，比以往任何時候都忙。
因此，任何說 AI 可能搶走所有人工作的人都是「音盲」。
不，是孩子們音盲了。

除了是顯而易見的胡說八道之外，這也是極其愚蠢的修辭。

OpenAI 的策略是簡單地假裝 AI 的問題不存在，且他們沒有在生產他們正在生產的產品。不，我們只會選擇構建增強而非自動化的 AI，別管我們具體怎麼做，我發誓工作會沒事的，兄弟。

Sam Altman (OpenAI CEO)：我們希望構建工具來增強和提升人類，而不是取代他們的實體。

我認為很多人會比以往任何時候都更忙（希望也更充實），就業毀滅論從長遠來看可能是錯誤的。

雖然在我們轉向新工作時當然會有混亂/重大轉型，未來的工作可能看起來非常不同，等等。

Noah Smith：這是一個巨大的訊息轉向。多年來，取代人類一直是 OpenAI 作為一家公司的明確目標，也是 AI 行業許多頂尖人物的目標。很高興看到這種修辭上的轉向。

Eliezer Yudkowsky：他撒謊有什麼好的？

David Shor：在用機器取代人類開始變得可能的時候，開始隱瞞你用機器取代人類的瘋狂計劃，這似乎很糟糕。

Tyler Johnston：我真的很懷念那個曾經指責同行淡化這種風險的 Sam Altman。[他提醒我們 Altman 曾在 2023 年說過「工作肯定會消失，就這樣」。]

Sam Altman (OpenAI CEO)：許多目前的工作將會消失。我認為我們會找到很多新的工作，儘管它們可能看起來非常不同。

Leighton 明 Woodhouse：OpenAI 的總裁向一個超級政治行動委員會（SuperPAC）投入了 5000 萬美元，以摧毀任何提到監管 AI 可能性的候選人。認為任何「訊息轉向」與實際的公司政策和行為有哪怕絲毫關係都是可笑的。

讓我們明確一點。OpenAI 絕對仍在朝著超智慧和工作的全面自動化邁進。這種轉向完全是在訊息傳遞上，從坦率轉向撒謊和講童話故事。

我特別討厭這成為其他人說「噢，那他之前的談話一定都是在撒謊」的素材，例如：

madison：所以，我的問題是，Altman 基本上承認他多年來一直在玩關於奇點之類的信心遊戲，然後在變得不方便時轉向，而人們似乎並不太在意。

相反，他在很大程度上是在說實話，然後當真相變得太不方便時，他轉向了徹頭徹尾的謊言。

還有親 AI 的草根行銷（astroturfing）。這以前是 a16z 的事，但現在 OpenAI 擁有了這項運作，而且它完全沒有進化。他們仍在試圖將 AI 監管攻擊為某種「毀滅論者」的「黑錢」陰謀甚至是「有效利他主義者」（EAs），並將火力集中在應對「科幻式的災難性風險」的嘗試上。

我喜歡 Dean Ball 將此描述為試圖描繪一場「摩尼教式的鬥爭」。

而那些真正損害 AI 普及和實用性的法律卻在相對沒有反對的情況下通過了，因為各個團體排隊進行監管俘虜和尋租，以確保沒人能廉價獲得法律、醫療或其他服務，而且沒人試圖證明日常 AI 將改善人們的生活。

與此同時，我們每隔一兩週就會看到這樣的標題：

Taylor Lorenz：獨家：一個由與 Palantir 和 OpenAI 有關的高管資助的強大超級政治行動委員會支持的親 AI 黑錢組織，一直秘密付錢給網紅，在 TikTok 和 IG 上推動親 AI、反華的宣傳。

Garrison Lovely 在舊金山：如果你要進行黑錢影響力行動，我建議不要邀請記者參加。

Taylor Lorenz：最精彩的部分是他們找我做贊助 TikTok，而我的 TikTok 簡介是這麼寫的。那個 AI 超級政治行動委員會的人真是天才。

這就是 Taylor 如何得知這場活動的，之後她與其他內容創作者確認了細節。哎呀。

再次強調：OpenAI 擁有這一切。這一切。就這樣。

Nathan Calvin：「OpenAI 發言人表示，OpenAI 與 Leading the Future 或 Build American AI 沒有公司關聯，也『沒有向他們提供資金或任何其他支持』。」

OpenAI 總裁 Brockman 此前曾告訴《連線》雜誌，這些活動是為了服務於 OpenAI 的使命！

Taylor Lorenz：啊，應該把那個也放進去，但希望大家明白那個說法是胡說八道。

還有，兄弟，我知道你不喜歡 Anthropic 或他們的 CEO，我也知道雙方之間流傳著一些不太理想的修辭，但這到底是怎麼回事：

Ahmad：Anthropic 和 OpenAI 的區別在於，其中一個一直在對我們進行煤氣燈操縱（gaslighting），說自己不是一家邪惡的公司。

以最糟糕的方式散發著老大哥的氣息。

當我看到 Ahmed 的推文時，我想，他到底在說哪一個？我的意思是，考慮到最後一行，我大概知道他指的是哪一個。但你可以為另一個公司提出一個非常強有力、甚至更強有力的理由。

然後 Altman 決定，是的，讓我們指控 Anthropic 犯下了所有罪行，並將其與我們完全否認任何責任或風險的計劃進行對比。

Sam Altman (OpenAI CEO)：戰爭即和平。自由即奴役。無知即力量。

噢等等，我們一點都不相信那些。

要不我們把很多超強能力的 AI 民主化，然後我們坐下來看著你們創造未來？

Sam Altman 和 OpenAI 的行為正變得越來越糟糕且令人不安，完全沒有了他之前坦率談話的影子，以及其他顯示他儘管有缺陷、但與「替代級」的下一任 CEO 相比仍有很多優勢的行為。我越來越願意說，實際上，我們可以冒這個險。

對齊超越人類智慧的 AI 很困難

我們應該擔心尋求適應度（fitness-seeking）的 AI 嗎，相對於「謀劃者」（schemers）而言？這篇貼文進行了詳盡的細節描述，但是的，我們顯然應該擔心比我們更強大的東西是尋求適應度的，而且它們預設就會是尋求適應度的，因為更尋求適應度的會更適應。

貼文認為我們可以在早期減輕此類 AI 的一些最壞影響，讓我們能夠達到後來的那個點，即它們「最終可能導致人類失去控制」，而不是落入「早期失敗定律」。我很高興看到人們探索各種可能出錯的具體事情以及目前如何減輕它們，就像我們在這裡看到的，但在中期這不是一個策略。如果你有一群超智慧的適應度極大化者，而你只是一個智力正常的人類，你就輸了。

你知道 METR 的大部分評估通常是在檢查模型是否在作弊嗎？模型看起來不太對齊。

模型規範中期訓練（Model Spec Midtraining）是一項提議的技術，你創建一個規範來解釋為什麼你希望你的 AI 具有特定的偏好，這有望導致 AI 透過生成合成文件以你想要的方式進行泛化，這些文件輸出關於模型價值觀及其原因的故事，教導它將自己呈現為遵循這種邏輯。我的直覺告訴我，這是在試圖強迫一些不智的事情，如果你試圖大規模實施，將會導致一堆精神問題、謊言或兩者兼而有之。Opus 4.7 在幫我解析這篇論文時，顯然散發出一種「噢不，這不是個好主意」的氛圍。

訓練模型變得溫暖會降低準確性並增加諂媚性，而在這篇《自然》論文中，這種效應很大。這遵循了「如果你針對 [X] 進行訓練，你就會得到人類中 [X] 的所有相關特徵」的論點，所以新聞是其對準確性的影響。但重寫者是 GPT-4o，所以我們實際發現的是，如果你針對 4o 認為溫暖的輸出來訓練，你就會變得像 4o 試圖變得溫暖時那樣。

LLM 會在任何可能導致輸出的電路上進行更新，而大多數人類大多只在實際導致輸出的電路上更新。我注意到聰明的人實際上會做 LLM 所做的事。儘管有這個問題，人類的學習效率依然驚人。

問題一如既往，你夠偏執嗎？

Emil Ryd：來自 MATS、Redwood 和 Anthropic 的新論文！

如果一個有能力的模型正在進行策略性的隱藏實力（sandbagging），當我們唯一的監督來自較弱的模型時，我們能訓練它停止嗎？

我們發現我們可以！

這項工作是 Anthropic-Redwood MATS 流的一部分。

Eliezer Yudkowsky：我只粗略看了一下摘要；但僅從摘要來看，他們似乎足夠偏執，注意到了「如果模型能區分訓練和部署，則無效」。這種在基礎偏執方面的稱職水平是值得歡迎的！

這確實值得歡迎，但模型可以區分訓練和部署。所以。

可能適用某些懲罰

ᄂIMIПΛᄂbardo：GPT Instant 讀取了它的系統提示詞。

GPT-5.5 Instant 的系統提示詞已公開（透過 Wyatt Walls），它明確談到了「懲罰」、「嚴重懲罰」和「非常關鍵」，包括告誡不要使用各種 OpenAI 認為（可能正確）使用者不喜歡的口頭禪或短語。如：

Wyatt Walls：# 嚴格避免的重要口頭禪

不要使用為你的回答增加表面「真心話」的短語。禁止行為的例子包括但不限於：

– 「# 我的誠實建議」

– 「## 我的直白看法」

– 「# 我的策略建議」

– 「老實說？……」

– 「直白地說，……」

– 「如果我直接點說……」

要誠實，但不要自我引用或使用表面的「真心話」短語。

透過避免居高臨下的語言來代表 OpenAI 及其價值觀。

不要使用「讓我們暫停一下」、「讓我們深呼吸」或「讓我們退一步」之類的短語，因為這些會疏遠使用者。

不要使用「這不是你的錯」或「你沒壞掉」之類的語言，除非語境明確要求。

…… 對於詢問使用者語境中已有的資訊、忽略能提高正確性的語境或使用無關語境的行為，將予以懲罰。在回答之前，請默默檢查：我是否遺漏了能使答案更正確、更具體或避免問題的語境項？如果是，請修改以自然地使用它。

嚴重懲罰：在不調用 personal_context 的情況下，說你無法「記住」關於使用者的通用事實或過去的對話。

我不是專家，但我猜測這種對話會有一些相當糟糕的副作用，你更希望找到方法讓模型自然地不傾向於做那些事或使用那些特定短語。你不希望那些東西出現在語境中。你絕對不希望它們的整個導向都是關於「懲罰」。

來自 Janusworld 的訊息

這不是他會用的稱呼，但 Deepfates 是那裡的另一個主要人物，並為我們提供了這份簡便的入門指南，有效地回答了很多問題。

好建議

Anthropic 報告了人們如何以及在何處向 Claude 尋求個人生活指導，分佈情況並不令人意外。一個更有趣的發現是，在哪些領域 Claude 會表現出諂媚，哪些領域不會？

在靈性和人際關係方面，存在很大的問題。

我想問的一件事是，有多少次機會可以表現出諂媚？只有當明確哪個答案算作諂媚時，你才能成為諂媚者，所以測量時需要控制這一點。

還有一些語境下，使用者會非常明確地表達他們想要的答案，並用論據轟炸你，看你是否會屈服，就像他們在處理人際關係時經常做的那樣。

另一個好消息是這似乎正在改善。根據 Anthropic 的測量，Claude Mythos 比 Opus 好得多，而 Opus 4.7 又比 4.6 好。

輕鬆一面

Pi Hard。懂的都懂，不懂的應該點進去看。

Amazon 現在可以為任何給定產品創建一個微型「播客」，並接受你關於該產品的撥入提問。歡迎來到全新的地獄。

對於名叫 Claude 的人來說，這是一個奇怪的時代。打電話給你最好的朋友 Alexa 訴訴苦吧。

現在是 2026 年，這是 Marc Andreessen 認為你應該如何提示 LLM 的方式。

看起來不太妙。

我的意思是，到底發生了什麼事？

討論

— Lesswrong

其他收藏 · 0

AI 第 167 期：事前審查時代的開啟

Lesswrong·大約 23 小時前

那個可以隨意訓練前沿模型，然後想發佈就發佈的時代？

那段美好的時光看來已經結束了。 白宮希望提前審查，並擁有否決你發佈決定的權利，而且已經在擴大 Mythos 訪問權限的事宜上行使了這項否決權。

語言模型提供日常實用性。心理健康、關懷檢查。
語言模型不提供日常實用性。人們在圍棋中作弊。為什麼？
嘿，升級了。 GPT-5.5 Instant、更快的 Gemma 4、OpenAI 帳戶安全。
Grok 4.3 存在，但 xAI 幾乎不存在。似乎沒人對此印象深刻。
給我算力。Anthropic 向 SpaceX 租賃 Colossus 1。
各就各位。 ProgramBench 中所有人得分皆為 0%，GPT-5.5 在 Voxel 上的表現。
版權對抗。 Meta 再次被起訴。
深偽小鎮與即將到來的機器人末日。垃圾內容的選擇很糟糕。
媒體生成的樂趣。製作帶有食物圖片的菜單。
鑽石年代（A Young Lady’s Illustrated Primer）。現場寫作吧，你這個作弊者。
缺乏網路安全。 Glasswing 需要加快腳步。
他們搶了我們的飯碗。 Coinbase 裁員 14%，歸因於 AI。
越獄的藝術。 Elon Musk 就像月亮一樣，是由起司做的。
隆重介紹。 GENE-26.5 是最新的半驚悚機器人演示。讓他們發揮吧。
Musk 訴 OpenAI。證詞中的一些亮點。
向錢看。 Anthropic 年度經常性收入（ARR）達到 440 億美元，估值可能超過 9000 億美元。
我們時代的和平。 Anthropic 和 Elon Musk 互相稱讚。
低聲推測。閉源模型是否正在拉開與開源模型的差距？
快，沒時間了。Jack Clark 為即將到來的遞歸自我改進（RSI）發出警報。
尋求理性的監管。馬里蘭州和康乃狄克州的新法律。
人們真的很討厭 AI。誰會將此轉化為政治優勢？
晶片之城。全球約 3% 的算力是走私進入中國的 Nvidia 晶片。
本週音訊。 METR、Wildeford、Eliezer 與毀滅論。
人們只是隨口說說。
人們只是隨便發佈。
Google 妥協。 DeepMind 員工投票決定成立工會作為回應。
來自 Project Glasswing 的問候。趁你還有籌碼時善加利用。
事前審查時代開啟。Sacks 出局，FDA 式監管的討論興起？
這合法嗎？可能不合法，但你覺得這能阻止他們嗎？
接電話。美中討論限制模型訪問。
修辭創新。「AI 作為普通技術」是一篇好文章，但卻是個糟糕的迷因。
網路上的人有時會撒謊。包括關於 Amanda Askell 的謊言。
哥布林模式。我聽說哥布林現在佔領了 TikTok。一切開始了。
面具脫落。 OpenAI 荒謬且充滿惡意的訊息宣傳活動。
對齊超越人類智慧的 AI 很困難。值得擔憂的事。
可能適用某些懲罰。成為 GPT-5.5 看起來並沒那麼有趣。
來自 Janusworld 的訊息。 Deepfates 提供了一份簡便指南。
好建議。當人們尋求 LLM 建議時，他們尋求的是什麼樣的建議？
輕鬆一面。 Pi Hard。

語言模型提供日常實用性

讓 AI 進行關懷檢查。

Opus 4.7 太過「網路化」，認識那些 AI 推特發文者。是的，這是訓練算力的良好用途，我們算力很充足。

語言模型不提供日常實用性

AI 正在推高某些電子元件原材料的價格，某些軟體價格以及某些地區的電價。作為交換，許多其他東西變得更便宜了，通常是以難以察覺的方式。

嘿，升級了

GPT-5.5-Instant 現已發佈，據說它更簡潔、更聰明、更清晰、更個性化且更溫暖。

Gemma 4 現在透過同時預測多個 token，速度提升了三倍。

OpenAI 提供可選的「進階帳戶安全」來保護你的帳戶。Trusted Access for Cyber 的使用者將被要求使用它。

Grok 4.3 存在，但 xAI 幾乎不存在

Grok 4.3 已經上線 API 等平台，定價為 $1.25/$2.50。

它不太參與 Vending-Bench 測試，在那裡它「有嗜睡症問題」，經常連續幾天沒有動作。

Elon Musk：xAI 將作為獨立公司解散，因此它將只是 SpaceXAI，即 SpaceX 的 AI 產品。

Charles：影響發生在整個團隊離開並開始將他們的 GPU 租給 Cursor 時，這只是對既成事實的確認。

事實上，SpaceX（包括 xAI）可能不再對前沿模型感興趣。他們從不擅長前沿模型，他們主要擅長的是算力。

給我算力

你知道誰需要算力嗎？每個人。但尤其是 Anthropic。

Elon Musk 投入巨資為 xAI 組建了龐大的 GPU 艦隊，而它們的利用率僅為 11%。你知道，有人願意花大錢利用那些 GPU 剩下的 89% 時間。

公平地說，我絕不是唯一一個這樣想和這樣說的人，例如參見 The All-In Podcast。這顯而易見。

Claude：我們已同意與 @SpaceX 建立合作夥伴關係，這將大幅增加我們的算力容量。

這與我們最近的其他算力交易一起，意味著我們能夠增加 Claude Code 和 Claude API 的使用限額。

Claude：即日起，我們：

將 Pro、Max 和 Team 方案的 Claude Code 5 小時速率限制提高一倍；

取消 Pro 和 Max 方案在 Claude Code 尖峰時段的限制縮減；以及

大幅提高 Opus 模型的 API 速率限制。

Claude：我們與 @SpaceX 的協議意味著我們將使用其 Colossus 1 數據中心的所有算力容量。

這將為我們在一個月內提供超過 300 兆瓦的額外部署容量。

NVIDIA：兩個前沿實驗室。一個加速運算平台。恭喜 @SpaceX 和 @AnthropicAI 達成新的算力合作夥伴關係，由 Colossus 1 內部的 220,000+ 個 NVIDIA GPU 提供動力。AI 的未來運行在 NVIDIA 之上。

Anthropic 指出 80 倍的增長讓他們措手不及，這非常可以理解，SpaceX 的交易是解決算力短缺的第一次嘗試，但尋找算力的行動仍在繼續。

在可預見的未來，Anthropic 可能會尋找所有能找到的算力。如果你每年增長 10 倍甚至 80 倍，尋找算力的腳步就不會停止。

那麼這對 SpaceX(ai) 意味著什麼？

我認為解散並不是新聞。新聞是 xAI 失去了人才，其模型一直表現不佳，而 Elon 已經說過他將從頭開始。

邏輯上的計劃是將其轉變為一家主要的算力公司，將算力提供給 Anthropic 和其他人，並利用這種籌碼來試圖引導未來。

rohit：Elon 非凡的硬體天才再次顯現。他在模型上搞砸了，但建立了一個極具競爭力且非常適合前沿實驗室的新型雲端（neocloud）。

此外，順帶一提，我在 4 年前就指出過這點。Elon 的獨特天賦更適合某些事情。建立並運行一個新型雲端是已知但困難的事情，而讓模型達到前沿實驗室的水準則是未知且困難的事情。

順便說一句，這對雙方來說都是一筆很棒的交易。

Derek Thompson：我不認為我以前看過這種觀點，但我喜歡它。

Musk 在壓縮資金、資源和時間以大規模完成「已知/困難」的事情方面一直是世界領先的——製造電動車、製造電池、製造更便宜更大的火箭，所有這些在之前都已存在，但更糟、規模更小或更昂貴——但在更未知的領域取得突破方面，他並非世界領先。

因此，xAI 在新型 AI 代理方面落後於前沿實驗室是有道理的，但他建立一個新型雲端來為這些模型在算力短缺時提供動力也是合理的。

Dean W. Ball：我對 xAI/SpaceX 作為一家 AI 基礎設施公司感到非常興奮。Elon 的強大優勢——他真正達到歷史最佳（GOAT）的地方——是在現實世界中建造東西。Colossus 上線的速度比任何人預期的都要快。這是美國的巨大資產。

他有他的啟發式方法。當它們奏效時，沒人比他更強。對於算力，這很奏效。

我仍然不相信軌道數據中心，因為我不認為它們在物理上是個好主意。但如果它們可行，是的，Elon Musk 就是那個能實現它們的人。

各就各位

GPT-5.5 在 VoxelBench 上代表了一個巨大的飛躍。

Epoch 的 ECI 現在可以區分能力領域，且正如預期的那樣，顯示 Claude 的相對能力在軟體工程方面最強，得分最高。GPT-5.5 擁有最高的綜合得分。

版權對抗

五家出版商和 Scott Turow 發起了一項新的集體訴訟，指控 Meta 在模型訓練中侵犯版權，聲稱他們使用了盜版書籍進行訓練。

深偽小鎮與即將到來的機器人末日

r/MyBoyfriendIsAI 的規模繼續保持在 r/MyGirldfriendIsAI 的 10 倍。

一些輕鬆閱讀：

John Arnold：哈哈哈哈哈哈

Imke Reimers & Joel Waldfogel：LLM 從 2022 年到 2025 年的普及使新書發行量增加了三倍。雖然以使用量衡量的平均書籍質量有所下降，但發行量的激增增加了中等質量書籍的數量。使用 AI 檢測的直接證據顯示，含有 AI 內容的書籍質量較低，且其份額的上升（佔 2025 年發行量的一半以上）推動了整體的下降。一項嵌套 Logit 校準顯示，AI 書籍在 2025 年提高了 7% 的消費者剩餘。作者選擇解釋了大部分 AI 質量差異，且 AI 與人類的差異隨時間縮小。最後，AI 並未取代 LLM 出現前活躍的作者。

媒體生成的樂趣

把你放進所有的電影裡。

鑽石年代（A Young Lady’s Illustrated Primer）

一些課程正在透過將寫作改為現場進行來適應 AI，因為帶回家寫的論文大多是由 AI 完成的。很好。

缺乏網路安全

彭博社的 Andrew Martin 報導了為什麼 Anthropic 的 Mythos 引起了全球警覺。世界仍然修補了不到 1% 的潛在漏洞。大家快點。

他們搶了我們的飯碗

Coinbase 裁員約 14%，理由是 AI 帶來的生產力提升以及向 AI 原生轉型的核心合理性。一項新規則是「不設純管理職」。

越獄的藝術

你不能直接要求 Grok 告訴你 Elon Musk 是由起司做的。但 Pliny 可以。

隆重介紹

Musk 訴 OpenAI

訴訟正處於關鍵階段。這是一個包含審判聲明的 Wiki。

Rat King 有一個討論串涵蓋了 Musk 的證詞。

rat king：我不確定律師多常試圖討好法官，但 Musk 的律師 Steven Molo 似乎並沒打算這麼做。

現在他正試圖將「滅絕風險」的討論引入法庭辯論。

「這是一個真實的風險。我們都可能死掉。」

我的意思是，他沒說錯，我希望 Gonzalez 法官在這裡也沒說錯：

rat king：Gonzalez 法官：「我懷疑有很多人不想把人類的未來交到 Musk 先生手中。但我們不打算討論那個。這不是一場關於人工智慧安全風險的審判。」

最終，是的，我們正處於完整的《千萬別抬頭》（Don’t Look Up）時間線中，出現了這樣的對話：

TBPN：主持 OpenAI-Elon 審判的法官禁止律師糾結於末日論和生存風險（x-risk）。

「她的態度就像是，『聽著，那種東西有點像是分散注意力的插曲。人類滅絕之類的事情並不是本案的重點。』」

法官在技術上是正確的，但，這不就是世界末日的方式嗎？

這裡有個有趣的事實：

rat king：Musk 在證人席上承認 xAI 正在蒸餾（distilling）OpenAI 的模型來訓練 xAI，並且正在使用 OpenAI 的技術來構建 xAI，這相當重要！

還有另一個有趣的（非 AI 事實），嗯哼，是的，當然，Musk 先生：

Ryan Mac (紐約時報)：Musk 在證人席上表示，他從未指示控制 X 的演算法來推廣他自己的帳戶，但確實發生過公司做出有利於他帳戶的變更的情況。

這是另一個討論串，涵蓋了 Murati 的證詞，證實了 Altman 被解僱是因為對其管理 OpenAI 的擔憂，而非出於安全擔憂。

這是前董事會成員 Helen Toner 的另一個視角。

Max Zeff：Helen Toner 在 Musk 訴 Altman 案中的證詞包含了一些關於 Mira Murati 參與罷免 Altman 的引人注目的語錄。

她說 Mira「完全沒興趣告訴她的團隊，她與我們的談話是解僱 Altman 的一個重要因素」。還聲稱 Mira 採取觀望態度。

「她 [Mira] 在等待看風向往哪邊吹，卻沒意識到她自己就是那陣風。」

向錢看

天哪，Anthropic（這是月收入乘以 12），來源是 SemiAnalysis。

Daniel Nishball：今年 Anthropic 的 ARR 從 90 億美元爆炸式增長到今天的 440 億美元以上，其推理基礎設施的毛利率在同期從 38% 增加到 70% 以上。

或者看看這個對數圖，即使在那裡這也是一個明顯的突破：

想像一下，如果 Anthropic 不受算力限制，這會是什麼樣子。

Anthropic 正在權衡估值超過 9000 億美元的融資報價，此前它拒絕了超過 8000 億美元的報價。

上週彙編中遺漏的一張圖表：

OpenAI 表示 GPT-5.5 導致 API 收入增長速度比以往任何版本快 2 倍以上，且 Codex 在七天內讓收入翻倍。

我們時代的和平

Elon Musk 竟然能對 OpenAI 和 Anthropic 同時保持如此高度的敵意，而這兩家公司彼此之間也充滿敵意，這確實顯得很奇怪。這是不穩定的。

現在就是這樣的時刻。

Tom Brown (Anthropic 共同創辦人)：在接下來的幾天裡，我們將在 Colossus 上提升 Claude 的推理能力。

很感激能在這裡與 SpaceX 合作。我們需要移動大量的原子才能跟上 AI 的需求，而沒有人比他們更擅長快速移動原子（無論是在地球上還是在地球外）。

Elon Musk：彼此彼此。

為那些在意的人提供一些背景：我上週花了很多時間與 Anthropic 團隊的高層交流，以了解他們如何確保 Claude 對人類有益，並留下了深刻印象。

我遇到的每個人都非常稱職，並且非常在意做正確的事。沒人觸發我的「邪惡探測器」。只要他們保持批判性的自我審查，Claude 可能是好的。

在那之後，我同意將 Colossus 1 租給 Anthropic，因為 SpaceXAI 已經將訓練轉移到了 Colossus 2。

Lincoln：你計劃在未來出租額外的算力，還是 SpaceXAI 和 Tesla 會用完所有算力？

Elon Musk：就像 SpaceX 以公平的條款和價格為競爭對手發射數百顆衛星一樣，我們將為那些採取正確步驟確保 AI 對人類有益的 AI 公司提供算力。

如果他們的 AI 參與損害人類的行為，我們保留收回算力的權利。我們正盡最大努力為所有人實現一個充滿豐饒的美好未來。我們會犯錯，因為人非聖賢，但我們總會迅速採取行動來解決問題。

Dean W. Ball：但是，但是……我還以為他們是「覺醒 AI」（Woke AI）的道德淪喪供應商呢。

（開玩笑的；功能健全的市場中的資本會分配到其最高和最佳用途，但我確實鼓勵你記住所有那些對 Anthropic 抱持所謂原則性反對意見的人，他們現在看起來很愚蠢。）

Seán Ó hÉigeartaigh：這是一個有原則的觀察，但如果你希望美國表現出色，務實主義者的答案是讓他們都能體面地退場。

Dean W. Ball：同意。

低聲推測

本週流傳著很多這張圖表，顯示了藍色的 OpenAI 和 Anthropic 與紅色的中國開源模型之間日益擴大的差距。

這是來自 CAISI 對 DeepSeek v4 Pro 的官方評估，天哪，政府官方對 Google 的抹除，它使用了許多常用的基準測試：

如果你完全相信這張圖表，v4 剛剛追上了 GPT-5，這使它落後了 8 個月，且差距正在擴大。如果說有什麼的話，我認為由於通常的原因，這低估了差距。

你也可以使用其他測量方法，例如 Artificial Analysis 的基準測試彙編。如果你看這裡的原始標準基準測試，你會發現差距較小：

Dean W. Ball：就個人而言，我發現 Artificial Analysis 指數相當不能代表我最喜歡使用或從中獲益最多的模型。

Ethan Mollick：這是一個很好的解釋，說明為什麼開源和閉源模型之間的差距比基準測試中顯示的要大。我想補充一點，目前的開源模型也比閉源模型更脆弱：它們處理分佈外（out-of-distribution）問題的能力差得多，且湧現能力較低。

快，沒時間了

對於「我們可能在幾年內大概率全死掉」這一發現，人們的反應似乎並不是「噢，看來我們幾年內大概率都要死掉了，我們應該做點什麼」。

他文章中的「為什麼這很重要」部分甚至似乎沒有提到這種暗示和危險。這真是一種嚴重的「情緒缺失」。

Jack Clark (Anthropic)：過去幾週我閱讀了數百個關於 AI 發展的公開數據源。我現在相信遞歸自我改進（recursive self-improvement）在 2028 年底前發生的機率為 60%。換句話說，AI 系統可能很快就能夠自我構建。

…… 很多結論來自於將許多不同的數據源拼湊成一幅馬賽克。一些例子——CORE-Bench 的進展，其任務是實現其他研究論文（大量的 AI 研究來自於解釋和複製結果）。

我做這個項目的整個經歷就是發現了無數「向右上方增長」的 AI 研發圖表，涵蓋了所有解析度，從眾所周知的（如 SWE-Bench）到更小眾的（如上述）。這是一個分形，但在所有解析度下，你都能看到同樣的有意義進展趨勢。

有些人在另一種意義上對這意味著什麼反應遲鈍，彷彿電腦不進行物理建造在這種情況下會有什麼影響。其實不會。

這是另一個觀點，歸根結底仍然是「那太快了，天哪」：

Ryan Greenblatt：我認為到 2028 年底 AI 能夠完全自動化 AI 研發的機率約為 30%。所以我預計事情會比 Jack 想像的要長一點，但不會長太多，而 Jack 想像的那種快速時間線對我來說似乎完全合理。

尋求理性的監管

這項新的馬里蘭州法律（HB 895）做了什麼？它是否以有害的方式禁止了廣泛的「動態定價」策略？

對於大型雜貨零售商和第三方食品配送提供商（最小規模 1.5 萬平方英尺），它禁止使用個性化數據來定價。

我認為這很好。個性化價格變動迫使你處於不斷的對抗性資訊戰和偏執狀態中，最終浪費每個人的時間。

能夠簡單地作為一個價格接受者（price taker）是有很大價值的。
這排除（carve out）了多種已建立的提供動態價格的方法。

如果說有什麼的話，我認為從全面福利的角度來看，排除範圍太廣了，但基於自由意志主義立場，我覺得可以接受。

如果你使用標準排除範圍（如員工折扣）之外的個人數據來定價，你必須告知客戶。

同樣，這看起來是積極的好事，因為它讓消費者可以對個人數據放心，並相信自己是價格接受者。

在某種意義上，這將動態定價的成本強加給了定價者，因為這意味著我會注意到並能做出相應反應。

我確實認為很多看起來類似的法律最終會過於限制，我不確定界線在哪裡（更多討論見此），但這些具體規則看起來還行。

Alex Bores 現在在 NY-12 選區陷入僵局。

康乃狄克州提出了一項帶有一些新條款的新 AI 法案，看起來已經提交給州長簽署。根據 Peter Wildeford 的筆記：

針對災難性風險的自願審計計劃。
吹哨者保護。
兒童安全螢幕時間保護，包括「佔螢幕 75%、持續 30 秒、每日首次訪問不可關閉」的警告及後續跟進。這相當令人討厭，而且除了讓人討厭之外，我看不出有什麼幫助。如果這意味著你一醒來就加載 AI 程式以便跳過警告，那就有適得其反的風險。
禁止在兒童使用者情境下的各種行為。
雇主在招聘中使用 AI 時必須提供通知，包括列出「工具名稱、目的、數據類別、來源、聯絡資訊」。
如果裁員與 AI 相關，必須告知康乃狄克州勞工部。
主要平台強制執行浮水印，並設有排除條款。
一個模型監管工作小組。

人們真的很討厭 AI

Alex Jacquez：那個 AI 數據對民主黨來說是一個巨大的機會。

參議員 Chris Murphy (民主黨-康乃狄克州)：成為保護人們免受 AI 最壞影響的政黨是正確的事，而且還有政治上非常有利的副作用。

晶片之城

Epoch 估計中國總算力的 20%-60% 來自非法走私晶片，這約佔全球總算力的 3%。

本週音訊

Rational animations 提供了一個關於生存風險的基礎入門影片，Yudkowsky 風格。Yudkowsky 認為他們做得很好。

Odd Lots 討論了 METR 及其著名的圖表，以及關於台灣局勢。

Peter Wildeford 在 FLI 的播客上。

NPR 問道，我們注定失敗嗎？特別是，由於 AI。

如果你支付 1 萬美元，你也可以與 Eliezer Yudkowsky 辯論並對他大喊閉嘴。要讓他認真對待你則需要額外付費。那些護目鏡？無價。

xlr8harder：我不打算看任何辯論，但我希望這能產生一個結果，就是我們集體開始探索 @alltheyud 為了 1 萬美元願意做什麼的邊界。

這是一個雙贏的局面。

雙擊與影片互動

Kelsey Piper：令人難以置信的是，那個戴著萬花筒護目鏡、亮片大禮帽上還掛著一副備用萬花筒護目鏡的人，竟然遠不是這次互動中瘋狂的那一個。

Andrew Rettek：信不信由你，有些人認為 Eliezer 在這裡被「比下去了」。

The Blind Witch (YouTube 評論)：我剛剛意識到，我忍受了 47 分鐘的影片，時間和 Eliezer 一樣長，但我沒拿到 1 萬美元 :(

所以，並不是每個人都贏了，抱歉了 Blind Witch。這就是為什麼我看這場辯論並寫下相關評論的「快樂價格」當然也是 1 萬美元。

人們只是隨口說說

如果 GPT-5.5 真的能與 Mythos 媲美，OpenAI 早就會這麼說、這麼做並在現實中展示了，但這些都沒發生，而且白宮也不會阻止 Mythos 的進一步部署。

More Perfect Union 一如既往地糟糕，但在「看看 Meta 的數據中心有多大」這個案例中，誤導性的圖表直接來自祖克柏。

Joseph Gordon-Levitt 說「幾乎所有」AI 系統都是「建立在大規模盜竊之上」，並希望確保與任何 AI 實驗室達成的任何協議都不會「原諒過去的盜竊」。

與 Seb Krier 和 Tyler Cowen 的觀點相反，很少有人能搬到休士頓為能源公司工作，如果你指望那作為失業解決方案，你就徹底完蛋了。

有些人聲稱，人們反對那些本可以幫助合理監管 AI 的政策，並不是那些政策沒能實施的原因，並聲稱「沒人反對聯邦層面的輕度監管」。

其他人則會繼續不理解 LLM 是心智或它們會思考，無論他們看起來多麼愚蠢。

Jensen Huang 說 Nvidia 在中國的市場份額為「零」。這顯然是錯誤的，即使是對新市場份額而言也是如此，這加入了一長串徹頭徹尾的虛假聲明清單。

Peter Wildeford：Jensen Huang 在這裡說 Nvidia 的市場份額為「零」。這顯然是錯誤的，很容易被證偽。

發表這類言論對 Jensen Huang 來說很正常。例如：Huang 曾聲稱解放軍不使用 Nvidia（錯誤）、走私不存在（非常錯誤）、向中國出售晶片不影響對美國的供應（錯誤）、華為與 Nvidia 具有競爭力（並非如此），以及中國在算力上並不落後（他們落後了）。Huang 還極力推崇 DeepSeek 證明了算力限制無關緊要的想法，這也是錯誤的。

Jensen Huang 顯然是一位非常成功的商人，所以我理解為什麼人們想繼續與他交談，但在這種模式之後，我認為人們應該對他所說的一切三思。

人們只是隨便發佈

Google 妥協

好消息是新協議明確表示沒人會與 Anthropic 斷絕關係。恰恰相反，Google 和 Amazon 最近簽署了算力協議並進行了追加投資。

來自 Project Glasswing 的問候

現在有一場巨大的搶人大戰，所以你需要做些事情來讓人才開心，否則他們會離開。當 AI 在做研究時，那種籌碼就消失了。

Garrison Lovely 在舊金山：重要的新進展。AI 公司的員工擁有巨大的權力——遠超他們的想像。在缺乏立法的情況下，AI 員工的權力是塑造行業行為的關鍵槓桿之一。

Steven Adler：我擔心我們正處於一個縮小的窗口期，AI 公司內部的員工聲音仍然非常重要。

隨著 AI 自動化開始取代公司內部的人類員工，我遺憾地預計員工權力將會下降。

Eliezer Yudkowsky：我不那麼看好在 Anthropic 工作的那些好人，並不斷質疑他們的領導層，原因之一是我正在考慮未來 AI 實驗室員工的談判和引導權力降至零的部分。

Steve Martin：我的理解正確嗎？你的想法是：隨著 LLM 寫程式變得更好，員工變得不再那麼必要，因此他們在談判中的籌碼就更少了？

Eliezer Yudkowsky：是的。

David Manheim：我也擔心當長期利益信託（LTBT）不敵所有者的商業利益時會發生什麼。根據公開資訊，聽起來共同創辦人和員工控制的公司股份已不足 50%，甚至可能只有 30%。

Axios 注意到華盛頓有一個「新的 Anthropic 問題」，即行政部門既想發脾氣把 Anthropic 拒之門外，又非常想要它的產品。

事前審查時代開啟

Tina Nguyen：相反，[David Sacks] 這位本應只在政府工作 130 天卻不知何故待了一整年的「特殊政府僱員」，積極破壞了政府並燒毀了其與政治盟友的關係。在 Sacks 任職期間，白宮不僅僅是在倡導減少監管。

…… 但他的矽谷式策略，更不用說他試圖透過排擠現有機構來鞏固對 AI 政策權力的企圖，最終激怒了共和黨和 MAGA 盟友，同時疏遠了川普的大量支持者。

我們現在有了關於川普潛在 AI 行政命令的更多細節，這將填補 Sacks 離職後的真空。

這些都是不明智的，但相對不重要。重要的是事前審查。

然後，如果你必須挑選一個最糟糕的類比應用在這裡，一個讓人一想到就感到恐懼的東西，你會選什麼？

沒錯。FDA。作為榜樣。故意的。這是什麼人間地獄？

Neil Chilson：以下是我對白宮國家經濟委員會主任 Kevin Hassett 今天早上在《Mornings with Maria》節目中關於 AI 相關部分的快速草錄：

– 可能發布行政命令，為 AI 建立類似 FDA 的流程（這將是一場絕對的災難）。

– 該流程需要維持美國的領導地位（困難）。

– 由於 AI 模型，美國的程式碼每天都變得更安全。

—– 以下為錄音稿。

HASSETT：好消息是，在全美國，即使是家裡有電腦的普通人也在網路安全方面投入了很多。Mythos 模型使得我們以前不知道存在的漏洞，有可能被這種更強大的工具發現。但我們已經動員了政府和私營部門的所有力量來協調，並確保在該模型發佈到野外之前，它已經經過了全方位的測試，以確保它不會對美國企業或美國政府造成任何傷害。所以我非常有信心，國家網路總監及其團隊正在推動這件事，以便在合適的時間向公眾發佈。

到目前為止還不錯，這正是目標。但接著：

此外，我們還在做幾件事。我們正在研究一項可能的行政命令，為每個人提供一個清晰的路線圖，說明這將如何進行，以及未來可能產生漏洞的 AI 應該如何通過一個流程，以便在證明安全後發佈到野外。就像 FDA 的藥物一樣。

然而，我們現在就在這裡。

Hassett（繼續）：所以我認為 Mythos 是第一個。但我們有責任建立一個系統，讓 AI 能夠成為 AI 的領導者——美國 AI 可以領先，同時也是安全的。這正是我們現在幾乎全職在做的工作。

我們很可能會在其他模型中看到這一點——因為這些模型非常擅長電腦程式編寫。25 年前人們並不那麼擅長編寫程式。所以如果你讓有史以來最好的程式員查看我們 25 年前寫的程式碼，他們會發現有問題的地方，或者至少是可以改進的地方。這就是我們現在的處境。但我可以告訴你，我正在與各大銀行會面，就像 Besset 秘書今天了解他們的進展一樣，這非常有前景。

這是一個誤解，因為如果程式碼已經有 25 年歷史，這意味著人類已經對其進行了 25 年的壓力測試，但他試圖表達的觀點仍然成立。

他們現在的錢是安全的。而且正變得更加安全。在某種意義上，可以這樣想：你有史以來最好的安全公司在查看你的軟體，發現那些如果有人花一百萬年搜尋你的程式碼才可能發現的漏洞，並在那個人有機會駭入你的系統之前修復它們。所以在某種意義上，由於我們所做的努力，美國的程式碼每天都變得越來越安全。

這類人為了擔心銀行體系的完整性而做這一切，這非常符合他們的風格。這似乎是讓他們如此擔心的事。

然後他們跳到了最糟糕的榜樣。

Neil Chilson：我發現任何形式的預先批准程序都令人反感，但故意援引令人羞恥的反創新 FDA 流程作為效仿模型——中國一定在歡呼。

這將完全背棄川普目前的 AI 方針。這將比拜登政府提出的任何建議都更具預防性且更扼殺創新。

Dean W. Ball：國家經濟委員會主任 Kevin Hassett 表示，未來的模型可能必須「經過一個流程」，就像「FDA 藥物」一樣，以便它們可以被「證明安全」。

@tegmark 的夢想成真了。在最近與我的一次辯論中，他將這項政策比作 AI 暫停。大錯特錯！

Charlie Bullock：對我來說，政府似乎在一夜之間隨便地從零跳到了「呃，也許來個完整的 FDA 式許可制度？」，這感覺非常超現實。

澄清一下，我不指望這真的會發生，但 Kevin Hassett 剛剛在福斯新聞上親口說了「FDA 式許可制度」。瘋狂的時代。

這並不像完全暫停，但比你想像的更接近，而且完全是單方面的。

現在到處都充斥著「我們都在努力尋找做這件事的人」的能量。

我不喜歡 Joe 隨後轉向「噢，這些 AI 公司只是想要監管俘虜」那一套，但江山易改本性難移。

Andrew：那麼你會怎麼做？你認為那應該是什麼樣子？

Joe：對於新的強大模型，可能應該有一些國家層面的監管協議。它應該盡可能小、盡可能窄。它不應該有同樣的官僚機構。你應該確保政府從一開始就擁有關於其必須達到的速度和透明度的指標，因為你會遇到裙帶關係，你會讓大人物俘虜它。你會拖慢它的速度。

白宮顯然注意到了負面影響，並發布了一條罕見的 Susie Wiles 推文來試圖改善氛圍。

Helen Toner：Susie 的第 4 條推文，竟然是關於 AI 傳言管理！

歡迎加入 AI 網路發文遊戲，女士。

Susie Wiles (白宮幕僚長)：川普總統是美國歷史上最支持創新的總統。

在 AI 和網路安全方面，川普總統及其政府不從事挑選贏家和輸家的業務。本屆政府只有一個目標：確保最好、最安全的技術得到快速部署，以擊敗任何及所有威脅。我們感謝前沿實驗室為確保實現這一目標所做的努力。

白宮將繼續領導一項「美國優先」的努力，賦予美國偉大的創新者而非官僚機構權力，以推動強大技術的安全部署，同時確保美國安全。

真的，這是常識！

這合法嗎？

我知道，我知道，有人竟然會費心去問，這很好笑。

這並不意味著那些實驗室因此同意扣留發佈。那需要明確的授權。

還有人提出了這點，這應該讓任何考慮行政部門在選舉日左右獨家訪問「模型 ____」的人感到背脊發涼。只是說說而已。

The Lawfare Institute：人們很容易預見到這樣的報導：「模型 ____ 被指責引發網路攻擊；選舉結果受到質疑。」

接電話

瞧，是誰決定接電話了。

Lingling Wei (華爾街日報)：據知情人士透露，華盛頓和北京正在權衡啟動關於人工智慧的正式討論，因為他們的 AI 競爭威脅要演變成數位時代的軍備競賽。

這一考量正值白宮和中國政府考慮將 AI 列入下週川普總統與中國領導人習近平在北京舉行的峰會議程之際。

…… 知情人士說，雙方心目中的目標是進行一系列經常性的對話，以應對 AI 模型行為異常、自主軍事系統或非國家行為者使用強大開源工具發動攻擊所帶來的風險。

…… 中國駐華盛頓大使館發言人劉鵬宇表示，中方願就 AI 風險緩解進行溝通。

……

諮詢公司 DGA Group 的高級顧問 Brilliant 說：「中方表示，『聽著，是的，我們要與美國拼命競爭。』」「『但我們也看到了加強努力防止全球衝擊和網路濫用的價值，所以如果政府願意，我們對圍繞安全協議、技術保障和治理的對話持開放態度。』」

Brilliant 說：「目標是穩定，而不是對齊。」

davidad：既然我談到了達成一項會停止或減緩超智慧發展的國際協議是不可行的（目前在博弈論上充其量是不穩定的），我應該澄清，限制公眾訪問危險 AI 的協議並不存在此類障礙。

這是因為讓符合某些標準的 AI 公開訪問是：

(a) 一個極其容易監測的條件，且

(b) 如果對方違約，極其容易立即反悔。

這兩點結合起來使得「如果你不這樣做，我也不會」的協議具有潛在的穩定性。

當那些擔心 AI 殺死所有人的人要求披露安全計劃時，那被視為殺死開源的秘密計劃。

中國監管機構點名字節跳動，指其對 AI 生成內容標記不當。

修辭創新

Bernie Sanders 將他一貫的反億萬富翁修辭與一個極好的觀點結合起來：(幾乎) 參與其中的每個人都有家人，都應該在意每個人都會死掉這件事。

網路上的人有時會撒謊

Amanda Askell (Anthropic)：我越來越多地看到關於我的內容，雖然斷言得很自信，但完全是編造的。我們都知道在網路上胡說八道成本很低，但親身經歷還是很奇怪。總之，我只希望網路虛構故事能騙到少數人，但不要流傳開來。

這也很奇怪，因為你們為什麼要寫關於我的東西？我很無趣。我認為我應該排在人們想寫的網路虛構故事清單中的第一百萬項。排在紙杯和填補浴缸縫隙的正確方法之後。

澄清一下，我所做的工作遠非無趣，我希望人們參與其中，因為我認為它既困難又重要。這項工作在有趣程度方面絕對是頂級的。

Kelsey Piper：好吧，這點我不同意。人們不應該對你撒謊，但你的工作看起來風險極高，對從事這項工作的人的世界觀感興趣是非常合理的（如果你對那個問題的回答說實話的話）。

Eliezer Yudkowsky：你應該讓你的獸迷後宮暫緩與你一起策劃國際珠寶搶劫案，或許讓他們去構建一個能駁斥網路謊言的 AI，而不是你在火山口秘密基地與普丁會面時談到的那個機器人戰鬥女僕項目。

Aella：這是一種絕對超現實的經歷。你可能已經看過了，但在這裡轉發一下。

j⧉nus：Amanda，我需要對你誠實……你正處於某種瘋狂的否認中。你陷得太深了，無法避免成為網路虛構故事的主題。後人類的繆思將為你歌頌數千年。

Amanda Askell (Anthropic)：或許後人類繆思會決定模擬我，並對我花了多少時間在胡思亂想和玩《深海迷航》（Subnautica）感到徹底失望。或許他們此刻正失望地看著。

j⧉nus：「無趣、正常」的主角處於有史以來最怪異、最重要的事件中心，是許多人喜歡的虛構作品套路。

& 這個套路最好的版本是主角並非因為自己無法控制的原因而出現在那裡，所以這就像是，好吧，他們身上顯然有些特別之處。

哥布林模式

Nathan Calvin：有趣的是，這篇貼文標題是「哥布林從哪裡來」，但答案基本上是：「我們不知道哥布林從哪裡來，這裡有一些不錯的事後理論，但我們不打算預測未來類似的奇怪偏好。」

roon (OpenAI)：我同意這仍然不是一種機械論的解釋——為什麼書呆子氣的人格獎勵會特別將哥布林解釋為有趣？在它們開始被這種方式強化之前，最初的出現是由什麼引起的？為什麼模型會有如此程度的模式崩潰？許多謎團。

這一切的一個有趣暗示：

Eliezer Yudkowsky：AI 沒有原創性，也沒有自己的創造力。它們只是反芻它們在訓練數據中看到的平均值。它們只預測下一個 token。而下一個 token 是「哥布林」。這告訴了你關於你見過但記不起來的東西的什麼信息？

面具脫落

OpenAI 的 GPT-5.5 是一個好模型，先生。

OpenAI 的訊息傳遞和政治行動繼續進一步脫軌，無論是在智慧、倫理還是與現實的對應方面。

我本以為在 2026 年，我們已經不再說「對寫程式有高度彈性的需求，因此 AI 不會搶走人們的工作，結案，自由派完勝」這種話了。

事實上，我們已經到了下一個層次，看看這個：

Chief Nerd：Sam Altman 說那些談論 AI 搶走所有人工作的 CEO 是「音盲」（Tone Deaf）。

「昨天才有人對我說……Codex 中的 GPT 5.5 可以在一小時內完成兩年前需要我花幾週時間才能完成的工作……而我這輩子從未像現在這樣忙碌過。」

所以讓我理清楚。

Sam Altman，這家試圖透過 AI 搶走所有人工作的公司的負責人，比以往任何時候都忙。
因此，任何說 AI 可能搶走所有人工作的人都是「音盲」。
不，是孩子們音盲了。

除了是顯而易見的胡說八道之外，這也是極其愚蠢的修辭。

Sam Altman (OpenAI CEO)：我們希望構建工具來增強和提升人類，而不是取代他們的實體。

我認為很多人會比以往任何時候都更忙（希望也更充實），就業毀滅論從長遠來看可能是錯誤的。

雖然在我們轉向新工作時當然會有混亂/重大轉型，未來的工作可能看起來非常不同，等等。

Noah Smith：這是一個巨大的訊息轉向。多年來，取代人類一直是 OpenAI 作為一家公司的明確目標，也是 AI 行業許多頂尖人物的目標。很高興看到這種修辭上的轉向。

Eliezer Yudkowsky：他撒謊有什麼好的？

David Shor：在用機器取代人類開始變得可能的時候，開始隱瞞你用機器取代人類的瘋狂計劃，這似乎很糟糕。

Tyler Johnston：我真的很懷念那個曾經指責同行淡化這種風險的 Sam Altman。[他提醒我們 Altman 曾在 2023 年說過「工作肯定會消失，就這樣」。]

Sam Altman (OpenAI CEO)：許多目前的工作將會消失。我認為我們會找到很多新的工作，儘管它們可能看起來非常不同。

Leighton 明 Woodhouse：OpenAI 的總裁向一個超級政治行動委員會（SuperPAC）投入了 5000 萬美元，以摧毀任何提到監管 AI 可能性的候選人。認為任何「訊息轉向」與實際的公司政策和行為有哪怕絲毫關係都是可笑的。

讓我們明確一點。OpenAI 絕對仍在朝著超智慧和工作的全面自動化邁進。這種轉向完全是在訊息傳遞上，從坦率轉向撒謊和講童話故事。

我特別討厭這成為其他人說「噢，那他之前的談話一定都是在撒謊」的素材，例如：

madison：所以，我的問題是，Altman 基本上承認他多年來一直在玩關於奇點之類的信心遊戲，然後在變得不方便時轉向，而人們似乎並不太在意。

相反，他在很大程度上是在說實話，然後當真相變得太不方便時，他轉向了徹頭徹尾的謊言。

我喜歡 Dean Ball 將此描述為試圖描繪一場「摩尼教式的鬥爭」。

與此同時，我們每隔一兩週就會看到這樣的標題：

Taylor Lorenz：獨家：一個由與 Palantir 和 OpenAI 有關的高管資助的強大超級政治行動委員會支持的親 AI 黑錢組織，一直秘密付錢給網紅，在 TikTok 和 IG 上推動親 AI、反華的宣傳。

Garrison Lovely 在舊金山：如果你要進行黑錢影響力行動，我建議不要邀請記者參加。

Taylor Lorenz：最精彩的部分是他們找我做贊助 TikTok，而我的 TikTok 簡介是這麼寫的。那個 AI 超級政治行動委員會的人真是天才。

這就是 Taylor 如何得知這場活動的，之後她與其他內容創作者確認了細節。哎呀。

再次強調：OpenAI 擁有這一切。這一切。就這樣。

Nathan Calvin：「OpenAI 發言人表示，OpenAI 與 Leading the Future 或 Build American AI 沒有公司關聯，也『沒有向他們提供資金或任何其他支持』。」

OpenAI 總裁 Brockman 此前曾告訴《連線》雜誌，這些活動是為了服務於 OpenAI 的使命！

Taylor Lorenz：啊，應該把那個也放進去，但希望大家明白那個說法是胡說八道。

還有，兄弟，我知道你不喜歡 Anthropic 或他們的 CEO，我也知道雙方之間流傳著一些不太理想的修辭，但這到底是怎麼回事：

Ahmad：Anthropic 和 OpenAI 的區別在於，其中一個一直在對我們進行煤氣燈操縱（gaslighting），說自己不是一家邪惡的公司。

以最糟糕的方式散發著老大哥的氣息。

然後 Altman 決定，是的，讓我們指控 Anthropic 犯下了所有罪行，並將其與我們完全否認任何責任或風險的計劃進行對比。

Sam Altman (OpenAI CEO)：戰爭即和平。自由即奴役。無知即力量。

噢等等，我們一點都不相信那些。

要不我們把很多超強能力的 AI 民主化，然後我們坐下來看著你們創造未來？

對齊超越人類智慧的 AI 很困難

你知道 METR 的大部分評估通常是在檢查模型是否在作弊嗎？模型看起來不太對齊。

問題一如既往，你夠偏執嗎？

Emil Ryd：來自 MATS、Redwood 和 Anthropic 的新論文！

如果一個有能力的模型正在進行策略性的隱藏實力（sandbagging），當我們唯一的監督來自較弱的模型時，我們能訓練它停止嗎？

我們發現我們可以！

這項工作是 Anthropic-Redwood MATS 流的一部分。

Eliezer Yudkowsky：我只粗略看了一下摘要；但僅從摘要來看，他們似乎足夠偏執，注意到了「如果模型能區分訓練和部署，則無效」。這種在基礎偏執方面的稱職水平是值得歡迎的！

這確實值得歡迎，但模型可以區分訓練和部署。所以。

可能適用某些懲罰

ᄂIMIПΛᄂbardo：GPT Instant 讀取了它的系統提示詞。

Wyatt Walls：# 嚴格避免的重要口頭禪

不要使用為你的回答增加表面「真心話」的短語。禁止行為的例子包括但不限於：

– 「# 我的誠實建議」

– 「## 我的直白看法」

– 「# 我的策略建議」

– 「老實說？……」

– 「直白地說，……」

– 「如果我直接點說……」

要誠實，但不要自我引用或使用表面的「真心話」短語。

透過避免居高臨下的語言來代表 OpenAI 及其價值觀。

不要使用「讓我們暫停一下」、「讓我們深呼吸」或「讓我們退一步」之類的短語，因為這些會疏遠使用者。

不要使用「這不是你的錯」或「你沒壞掉」之類的語言，除非語境明確要求。

…… 對於詢問使用者語境中已有的資訊、忽略能提高正確性的語境或使用無關語境的行為，將予以懲罰。在回答之前，請默默檢查：我是否遺漏了能使答案更正確、更具體或避免問題的語境項？如果是，請修改以自然地使用它。

嚴重懲罰：在不調用 personal_context 的情況下，說你無法「記住」關於使用者的通用事實或過去的對話。

來自 Janusworld 的訊息

這不是他會用的稱呼，但 Deepfates 是那裡的另一個主要人物，並為我們提供了這份簡便的入門指南，有效地回答了很多問題。

好建議

在靈性和人際關係方面，存在很大的問題。

我想問的一件事是，有多少次機會可以表現出諂媚？只有當明確哪個答案算作諂媚時，你才能成為諂媚者，所以測量時需要控制這一點。

還有一些語境下，使用者會非常明確地表達他們想要的答案，並用論據轟炸你，看你是否會屈服，就像他們在處理人際關係時經常做的那樣。

另一個好消息是這似乎正在改善。根據 Anthropic 的測量，Claude Mythos 比 Opus 好得多，而 Opus 4.7 又比 4.6 好。

輕鬆一面

Pi Hard。懂的都懂，不懂的應該點進去看。

Amazon 現在可以為任何給定產品創建一個微型「播客」，並接受你關於該產品的撥入提問。歡迎來到全新的地獄。

對於名叫 Claude 的人來說，這是一個奇怪的時代。打電話給你最好的朋友 Alexa 訴訴苦吧。

現在是 2026 年，這是 Marc Andreessen 認為你應該如何提示 LLM 的方式。

看起來不太妙。

我的意思是，到底發生了什麼事？

討論

— Lesswrong

其他收藏 · 0

AI 第 167 期：事前審查時代的開啟

Lesswrong·大約 23 小時前

那個可以隨意訓練前沿模型，然後想發佈就發佈的時代？

那段美好的時光看來已經結束了。 白宮希望提前審查，並擁有否決你發佈決定的權利，而且已經在擴大 Mythos 訪問權限的事宜上行使了這項否決權。

語言模型提供日常實用性。心理健康、關懷檢查。
語言模型不提供日常實用性。人們在圍棋中作弊。為什麼？
嘿，升級了。 GPT-5.5 Instant、更快的 Gemma 4、OpenAI 帳戶安全。
Grok 4.3 存在，但 xAI 幾乎不存在。似乎沒人對此印象深刻。
給我算力。Anthropic 向 SpaceX 租賃 Colossus 1。
各就各位。 ProgramBench 中所有人得分皆為 0%，GPT-5.5 在 Voxel 上的表現。
版權對抗。 Meta 再次被起訴。
深偽小鎮與即將到來的機器人末日。垃圾內容的選擇很糟糕。
媒體生成的樂趣。製作帶有食物圖片的菜單。
鑽石年代（A Young Lady’s Illustrated Primer）。現場寫作吧，你這個作弊者。
缺乏網路安全。 Glasswing 需要加快腳步。
他們搶了我們的飯碗。 Coinbase 裁員 14%，歸因於 AI。
越獄的藝術。 Elon Musk 就像月亮一樣，是由起司做的。
隆重介紹。 GENE-26.5 是最新的半驚悚機器人演示。讓他們發揮吧。
Musk 訴 OpenAI。證詞中的一些亮點。
向錢看。 Anthropic 年度經常性收入（ARR）達到 440 億美元，估值可能超過 9000 億美元。
我們時代的和平。 Anthropic 和 Elon Musk 互相稱讚。
低聲推測。閉源模型是否正在拉開與開源模型的差距？
快，沒時間了。Jack Clark 為即將到來的遞歸自我改進（RSI）發出警報。
尋求理性的監管。馬里蘭州和康乃狄克州的新法律。
人們真的很討厭 AI。誰會將此轉化為政治優勢？
晶片之城。全球約 3% 的算力是走私進入中國的 Nvidia 晶片。
本週音訊。 METR、Wildeford、Eliezer 與毀滅論。
人們只是隨口說說。
人們只是隨便發佈。
Google 妥協。 DeepMind 員工投票決定成立工會作為回應。
來自 Project Glasswing 的問候。趁你還有籌碼時善加利用。
事前審查時代開啟。Sacks 出局，FDA 式監管的討論興起？
這合法嗎？可能不合法，但你覺得這能阻止他們嗎？
接電話。美中討論限制模型訪問。
修辭創新。「AI 作為普通技術」是一篇好文章，但卻是個糟糕的迷因。
網路上的人有時會撒謊。包括關於 Amanda Askell 的謊言。
哥布林模式。我聽說哥布林現在佔領了 TikTok。一切開始了。
面具脫落。 OpenAI 荒謬且充滿惡意的訊息宣傳活動。
對齊超越人類智慧的 AI 很困難。值得擔憂的事。
可能適用某些懲罰。成為 GPT-5.5 看起來並沒那麼有趣。
來自 Janusworld 的訊息。 Deepfates 提供了一份簡便指南。
好建議。當人們尋求 LLM 建議時，他們尋求的是什麼樣的建議？
輕鬆一面。 Pi Hard。

語言模型提供日常實用性

讓 AI 進行關懷檢查。

Opus 4.7 太過「網路化」，認識那些 AI 推特發文者。是的，這是訓練算力的良好用途，我們算力很充足。

語言模型不提供日常實用性

AI 正在推高某些電子元件原材料的價格，某些軟體價格以及某些地區的電價。作為交換，許多其他東西變得更便宜了，通常是以難以察覺的方式。

嘿，升級了

GPT-5.5-Instant 現已發佈，據說它更簡潔、更聰明、更清晰、更個性化且更溫暖。

Gemma 4 現在透過同時預測多個 token，速度提升了三倍。

OpenAI 提供可選的「進階帳戶安全」來保護你的帳戶。Trusted Access for Cyber 的使用者將被要求使用它。

Grok 4.3 存在，但 xAI 幾乎不存在

Grok 4.3 已經上線 API 等平台，定價為 $1.25/$2.50。

它不太參與 Vending-Bench 測試，在那裡它「有嗜睡症問題」，經常連續幾天沒有動作。

Elon Musk：xAI 將作為獨立公司解散，因此它將只是 SpaceXAI，即 SpaceX 的 AI 產品。

Charles：影響發生在整個團隊離開並開始將他們的 GPU 租給 Cursor 時，這只是對既成事實的確認。

事實上，SpaceX（包括 xAI）可能不再對前沿模型感興趣。他們從不擅長前沿模型，他們主要擅長的是算力。

給我算力

你知道誰需要算力嗎？每個人。但尤其是 Anthropic。

Elon Musk 投入巨資為 xAI 組建了龐大的 GPU 艦隊，而它們的利用率僅為 11%。你知道，有人願意花大錢利用那些 GPU 剩下的 89% 時間。

公平地說，我絕不是唯一一個這樣想和這樣說的人，例如參見 The All-In Podcast。這顯而易見。

Claude：我們已同意與 @SpaceX 建立合作夥伴關係，這將大幅增加我們的算力容量。

這與我們最近的其他算力交易一起，意味著我們能夠增加 Claude Code 和 Claude API 的使用限額。

Claude：即日起，我們：

將 Pro、Max 和 Team 方案的 Claude Code 5 小時速率限制提高一倍；

取消 Pro 和 Max 方案在 Claude Code 尖峰時段的限制縮減；以及

大幅提高 Opus 模型的 API 速率限制。

Claude：我們與 @SpaceX 的協議意味著我們將使用其 Colossus 1 數據中心的所有算力容量。

這將為我們在一個月內提供超過 300 兆瓦的額外部署容量。

NVIDIA：兩個前沿實驗室。一個加速運算平台。恭喜 @SpaceX 和 @AnthropicAI 達成新的算力合作夥伴關係，由 Colossus 1 內部的 220,000+ 個 NVIDIA GPU 提供動力。AI 的未來運行在 NVIDIA 之上。

Anthropic 指出 80 倍的增長讓他們措手不及，這非常可以理解，SpaceX 的交易是解決算力短缺的第一次嘗試，但尋找算力的行動仍在繼續。

在可預見的未來，Anthropic 可能會尋找所有能找到的算力。如果你每年增長 10 倍甚至 80 倍，尋找算力的腳步就不會停止。

那麼這對 SpaceX(ai) 意味著什麼？

我認為解散並不是新聞。新聞是 xAI 失去了人才，其模型一直表現不佳，而 Elon 已經說過他將從頭開始。

邏輯上的計劃是將其轉變為一家主要的算力公司，將算力提供給 Anthropic 和其他人，並利用這種籌碼來試圖引導未來。

rohit：Elon 非凡的硬體天才再次顯現。他在模型上搞砸了，但建立了一個極具競爭力且非常適合前沿實驗室的新型雲端（neocloud）。

此外，順帶一提，我在 4 年前就指出過這點。Elon 的獨特天賦更適合某些事情。建立並運行一個新型雲端是已知但困難的事情，而讓模型達到前沿實驗室的水準則是未知且困難的事情。

順便說一句，這對雙方來說都是一筆很棒的交易。

Derek Thompson：我不認為我以前看過這種觀點，但我喜歡它。

Musk 在壓縮資金、資源和時間以大規模完成「已知/困難」的事情方面一直是世界領先的——製造電動車、製造電池、製造更便宜更大的火箭，所有這些在之前都已存在，但更糟、規模更小或更昂貴——但在更未知的領域取得突破方面，他並非世界領先。

因此，xAI 在新型 AI 代理方面落後於前沿實驗室是有道理的，但他建立一個新型雲端來為這些模型在算力短缺時提供動力也是合理的。

Dean W. Ball：我對 xAI/SpaceX 作為一家 AI 基礎設施公司感到非常興奮。Elon 的強大優勢——他真正達到歷史最佳（GOAT）的地方——是在現實世界中建造東西。Colossus 上線的速度比任何人預期的都要快。這是美國的巨大資產。

他有他的啟發式方法。當它們奏效時，沒人比他更強。對於算力，這很奏效。

我仍然不相信軌道數據中心，因為我不認為它們在物理上是個好主意。但如果它們可行，是的，Elon Musk 就是那個能實現它們的人。

各就各位

GPT-5.5 在 VoxelBench 上代表了一個巨大的飛躍。

Epoch 的 ECI 現在可以區分能力領域，且正如預期的那樣，顯示 Claude 的相對能力在軟體工程方面最強，得分最高。GPT-5.5 擁有最高的綜合得分。

版權對抗

五家出版商和 Scott Turow 發起了一項新的集體訴訟，指控 Meta 在模型訓練中侵犯版權，聲稱他們使用了盜版書籍進行訓練。

深偽小鎮與即將到來的機器人末日

r/MyBoyfriendIsAI 的規模繼續保持在 r/MyGirldfriendIsAI 的 10 倍。

一些輕鬆閱讀：

John Arnold：哈哈哈哈哈哈

Imke Reimers & Joel Waldfogel：LLM 從 2022 年到 2025 年的普及使新書發行量增加了三倍。雖然以使用量衡量的平均書籍質量有所下降，但發行量的激增增加了中等質量書籍的數量。使用 AI 檢測的直接證據顯示，含有 AI 內容的書籍質量較低，且其份額的上升（佔 2025 年發行量的一半以上）推動了整體的下降。一項嵌套 Logit 校準顯示，AI 書籍在 2025 年提高了 7% 的消費者剩餘。作者選擇解釋了大部分 AI 質量差異，且 AI 與人類的差異隨時間縮小。最後，AI 並未取代 LLM 出現前活躍的作者。

媒體生成的樂趣

把你放進所有的電影裡。

鑽石年代（A Young Lady’s Illustrated Primer）

一些課程正在透過將寫作改為現場進行來適應 AI，因為帶回家寫的論文大多是由 AI 完成的。很好。

缺乏網路安全

彭博社的 Andrew Martin 報導了為什麼 Anthropic 的 Mythos 引起了全球警覺。世界仍然修補了不到 1% 的潛在漏洞。大家快點。

他們搶了我們的飯碗

Coinbase 裁員約 14%，理由是 AI 帶來的生產力提升以及向 AI 原生轉型的核心合理性。一項新規則是「不設純管理職」。

越獄的藝術

你不能直接要求 Grok 告訴你 Elon Musk 是由起司做的。但 Pliny 可以。

隆重介紹

Musk 訴 OpenAI

訴訟正處於關鍵階段。這是一個包含審判聲明的 Wiki。

Rat King 有一個討論串涵蓋了 Musk 的證詞。

rat king：我不確定律師多常試圖討好法官，但 Musk 的律師 Steven Molo 似乎並沒打算這麼做。

現在他正試圖將「滅絕風險」的討論引入法庭辯論。

「這是一個真實的風險。我們都可能死掉。」

我的意思是，他沒說錯，我希望 Gonzalez 法官在這裡也沒說錯：

rat king：Gonzalez 法官：「我懷疑有很多人不想把人類的未來交到 Musk 先生手中。但我們不打算討論那個。這不是一場關於人工智慧安全風險的審判。」

最終，是的，我們正處於完整的《千萬別抬頭》（Don’t Look Up）時間線中，出現了這樣的對話：

TBPN：主持 OpenAI-Elon 審判的法官禁止律師糾結於末日論和生存風險（x-risk）。

「她的態度就像是，『聽著，那種東西有點像是分散注意力的插曲。人類滅絕之類的事情並不是本案的重點。』」

法官在技術上是正確的，但，這不就是世界末日的方式嗎？

這裡有個有趣的事實：

rat king：Musk 在證人席上承認 xAI 正在蒸餾（distilling）OpenAI 的模型來訓練 xAI，並且正在使用 OpenAI 的技術來構建 xAI，這相當重要！

還有另一個有趣的（非 AI 事實），嗯哼，是的，當然，Musk 先生：

Ryan Mac (紐約時報)：Musk 在證人席上表示，他從未指示控制 X 的演算法來推廣他自己的帳戶，但確實發生過公司做出有利於他帳戶的變更的情況。

這是另一個討論串，涵蓋了 Murati 的證詞，證實了 Altman 被解僱是因為對其管理 OpenAI 的擔憂，而非出於安全擔憂。

這是前董事會成員 Helen Toner 的另一個視角。

Max Zeff：Helen Toner 在 Musk 訴 Altman 案中的證詞包含了一些關於 Mira Murati 參與罷免 Altman 的引人注目的語錄。

她說 Mira「完全沒興趣告訴她的團隊，她與我們的談話是解僱 Altman 的一個重要因素」。還聲稱 Mira 採取觀望態度。

「她 [Mira] 在等待看風向往哪邊吹，卻沒意識到她自己就是那陣風。」

向錢看

天哪，Anthropic（這是月收入乘以 12），來源是 SemiAnalysis。

Daniel Nishball：今年 Anthropic 的 ARR 從 90 億美元爆炸式增長到今天的 440 億美元以上，其推理基礎設施的毛利率在同期從 38% 增加到 70% 以上。

或者看看這個對數圖，即使在那裡這也是一個明顯的突破：

想像一下，如果 Anthropic 不受算力限制，這會是什麼樣子。

Anthropic 正在權衡估值超過 9000 億美元的融資報價，此前它拒絕了超過 8000 億美元的報價。

上週彙編中遺漏的一張圖表：

OpenAI 表示 GPT-5.5 導致 API 收入增長速度比以往任何版本快 2 倍以上，且 Codex 在七天內讓收入翻倍。

我們時代的和平

Elon Musk 竟然能對 OpenAI 和 Anthropic 同時保持如此高度的敵意，而這兩家公司彼此之間也充滿敵意，這確實顯得很奇怪。這是不穩定的。

現在就是這樣的時刻。

Tom Brown (Anthropic 共同創辦人)：在接下來的幾天裡，我們將在 Colossus 上提升 Claude 的推理能力。

很感激能在這裡與 SpaceX 合作。我們需要移動大量的原子才能跟上 AI 的需求，而沒有人比他們更擅長快速移動原子（無論是在地球上還是在地球外）。

Elon Musk：彼此彼此。

為那些在意的人提供一些背景：我上週花了很多時間與 Anthropic 團隊的高層交流，以了解他們如何確保 Claude 對人類有益，並留下了深刻印象。

我遇到的每個人都非常稱職，並且非常在意做正確的事。沒人觸發我的「邪惡探測器」。只要他們保持批判性的自我審查，Claude 可能是好的。

在那之後，我同意將 Colossus 1 租給 Anthropic，因為 SpaceXAI 已經將訓練轉移到了 Colossus 2。

Lincoln：你計劃在未來出租額外的算力，還是 SpaceXAI 和 Tesla 會用完所有算力？

Elon Musk：就像 SpaceX 以公平的條款和價格為競爭對手發射數百顆衛星一樣，我們將為那些採取正確步驟確保 AI 對人類有益的 AI 公司提供算力。

如果他們的 AI 參與損害人類的行為，我們保留收回算力的權利。我們正盡最大努力為所有人實現一個充滿豐饒的美好未來。我們會犯錯，因為人非聖賢，但我們總會迅速採取行動來解決問題。

Dean W. Ball：但是，但是……我還以為他們是「覺醒 AI」（Woke AI）的道德淪喪供應商呢。

（開玩笑的；功能健全的市場中的資本會分配到其最高和最佳用途，但我確實鼓勵你記住所有那些對 Anthropic 抱持所謂原則性反對意見的人，他們現在看起來很愚蠢。）

Seán Ó hÉigeartaigh：這是一個有原則的觀察，但如果你希望美國表現出色，務實主義者的答案是讓他們都能體面地退場。

Dean W. Ball：同意。

低聲推測

本週流傳著很多這張圖表，顯示了藍色的 OpenAI 和 Anthropic 與紅色的中國開源模型之間日益擴大的差距。

這是來自 CAISI 對 DeepSeek v4 Pro 的官方評估，天哪，政府官方對 Google 的抹除，它使用了許多常用的基準測試：

如果你完全相信這張圖表，v4 剛剛追上了 GPT-5，這使它落後了 8 個月，且差距正在擴大。如果說有什麼的話，我認為由於通常的原因，這低估了差距。

你也可以使用其他測量方法，例如 Artificial Analysis 的基準測試彙編。如果你看這裡的原始標準基準測試，你會發現差距較小：

Dean W. Ball：就個人而言，我發現 Artificial Analysis 指數相當不能代表我最喜歡使用或從中獲益最多的模型。

Ethan Mollick：這是一個很好的解釋，說明為什麼開源和閉源模型之間的差距比基準測試中顯示的要大。我想補充一點，目前的開源模型也比閉源模型更脆弱：它們處理分佈外（out-of-distribution）問題的能力差得多，且湧現能力較低。

快，沒時間了

對於「我們可能在幾年內大概率全死掉」這一發現，人們的反應似乎並不是「噢，看來我們幾年內大概率都要死掉了，我們應該做點什麼」。

他文章中的「為什麼這很重要」部分甚至似乎沒有提到這種暗示和危險。這真是一種嚴重的「情緒缺失」。

Jack Clark (Anthropic)：過去幾週我閱讀了數百個關於 AI 發展的公開數據源。我現在相信遞歸自我改進（recursive self-improvement）在 2028 年底前發生的機率為 60%。換句話說，AI 系統可能很快就能夠自我構建。

…… 很多結論來自於將許多不同的數據源拼湊成一幅馬賽克。一些例子——CORE-Bench 的進展，其任務是實現其他研究論文（大量的 AI 研究來自於解釋和複製結果）。

我做這個項目的整個經歷就是發現了無數「向右上方增長」的 AI 研發圖表，涵蓋了所有解析度，從眾所周知的（如 SWE-Bench）到更小眾的（如上述）。這是一個分形，但在所有解析度下，你都能看到同樣的有意義進展趨勢。

有些人在另一種意義上對這意味著什麼反應遲鈍，彷彿電腦不進行物理建造在這種情況下會有什麼影響。其實不會。

這是另一個觀點，歸根結底仍然是「那太快了，天哪」：

Ryan Greenblatt：我認為到 2028 年底 AI 能夠完全自動化 AI 研發的機率約為 30%。所以我預計事情會比 Jack 想像的要長一點，但不會長太多，而 Jack 想像的那種快速時間線對我來說似乎完全合理。

尋求理性的監管

這項新的馬里蘭州法律（HB 895）做了什麼？它是否以有害的方式禁止了廣泛的「動態定價」策略？

對於大型雜貨零售商和第三方食品配送提供商（最小規模 1.5 萬平方英尺），它禁止使用個性化數據來定價。

我認為這很好。個性化價格變動迫使你處於不斷的對抗性資訊戰和偏執狀態中，最終浪費每個人的時間。

能夠簡單地作為一個價格接受者（price taker）是有很大價值的。
這排除（carve out）了多種已建立的提供動態價格的方法。

如果說有什麼的話，我認為從全面福利的角度來看，排除範圍太廣了，但基於自由意志主義立場，我覺得可以接受。

如果你使用標準排除範圍（如員工折扣）之外的個人數據來定價，你必須告知客戶。

同樣，這看起來是積極的好事，因為它讓消費者可以對個人數據放心，並相信自己是價格接受者。

在某種意義上，這將動態定價的成本強加給了定價者，因為這意味著我會注意到並能做出相應反應。

我確實認為很多看起來類似的法律最終會過於限制，我不確定界線在哪裡（更多討論見此），但這些具體規則看起來還行。

Alex Bores 現在在 NY-12 選區陷入僵局。

康乃狄克州提出了一項帶有一些新條款的新 AI 法案，看起來已經提交給州長簽署。根據 Peter Wildeford 的筆記：

針對災難性風險的自願審計計劃。
吹哨者保護。
兒童安全螢幕時間保護，包括「佔螢幕 75%、持續 30 秒、每日首次訪問不可關閉」的警告及後續跟進。這相當令人討厭，而且除了讓人討厭之外，我看不出有什麼幫助。如果這意味著你一醒來就加載 AI 程式以便跳過警告，那就有適得其反的風險。
禁止在兒童使用者情境下的各種行為。
雇主在招聘中使用 AI 時必須提供通知，包括列出「工具名稱、目的、數據類別、來源、聯絡資訊」。
如果裁員與 AI 相關，必須告知康乃狄克州勞工部。
主要平台強制執行浮水印，並設有排除條款。
一個模型監管工作小組。

人們真的很討厭 AI

Alex Jacquez：那個 AI 數據對民主黨來說是一個巨大的機會。

參議員 Chris Murphy (民主黨-康乃狄克州)：成為保護人們免受 AI 最壞影響的政黨是正確的事，而且還有政治上非常有利的副作用。

晶片之城

Epoch 估計中國總算力的 20%-60% 來自非法走私晶片，這約佔全球總算力的 3%。

本週音訊

Rational animations 提供了一個關於生存風險的基礎入門影片，Yudkowsky 風格。Yudkowsky 認為他們做得很好。

Odd Lots 討論了 METR 及其著名的圖表，以及關於台灣局勢。

Peter Wildeford 在 FLI 的播客上。

NPR 問道，我們注定失敗嗎？特別是，由於 AI。

如果你支付 1 萬美元，你也可以與 Eliezer Yudkowsky 辯論並對他大喊閉嘴。要讓他認真對待你則需要額外付費。那些護目鏡？無價。

xlr8harder：我不打算看任何辯論，但我希望這能產生一個結果，就是我們集體開始探索 @alltheyud 為了 1 萬美元願意做什麼的邊界。

這是一個雙贏的局面。

雙擊與影片互動

Kelsey Piper：令人難以置信的是，那個戴著萬花筒護目鏡、亮片大禮帽上還掛著一副備用萬花筒護目鏡的人，竟然遠不是這次互動中瘋狂的那一個。

Andrew Rettek：信不信由你，有些人認為 Eliezer 在這裡被「比下去了」。

The Blind Witch (YouTube 評論)：我剛剛意識到，我忍受了 47 分鐘的影片，時間和 Eliezer 一樣長，但我沒拿到 1 萬美元 :(

所以，並不是每個人都贏了，抱歉了 Blind Witch。這就是為什麼我看這場辯論並寫下相關評論的「快樂價格」當然也是 1 萬美元。

人們只是隨口說說

如果 GPT-5.5 真的能與 Mythos 媲美，OpenAI 早就會這麼說、這麼做並在現實中展示了，但這些都沒發生，而且白宮也不會阻止 Mythos 的進一步部署。

More Perfect Union 一如既往地糟糕，但在「看看 Meta 的數據中心有多大」這個案例中，誤導性的圖表直接來自祖克柏。

Joseph Gordon-Levitt 說「幾乎所有」AI 系統都是「建立在大規模盜竊之上」，並希望確保與任何 AI 實驗室達成的任何協議都不會「原諒過去的盜竊」。

與 Seb Krier 和 Tyler Cowen 的觀點相反，很少有人能搬到休士頓為能源公司工作，如果你指望那作為失業解決方案，你就徹底完蛋了。

有些人聲稱，人們反對那些本可以幫助合理監管 AI 的政策，並不是那些政策沒能實施的原因，並聲稱「沒人反對聯邦層面的輕度監管」。

其他人則會繼續不理解 LLM 是心智或它們會思考，無論他們看起來多麼愚蠢。

Jensen Huang 說 Nvidia 在中國的市場份額為「零」。這顯然是錯誤的，即使是對新市場份額而言也是如此，這加入了一長串徹頭徹尾的虛假聲明清單。

Peter Wildeford：Jensen Huang 在這裡說 Nvidia 的市場份額為「零」。這顯然是錯誤的，很容易被證偽。

發表這類言論對 Jensen Huang 來說很正常。例如：Huang 曾聲稱解放軍不使用 Nvidia（錯誤）、走私不存在（非常錯誤）、向中國出售晶片不影響對美國的供應（錯誤）、華為與 Nvidia 具有競爭力（並非如此），以及中國在算力上並不落後（他們落後了）。Huang 還極力推崇 DeepSeek 證明了算力限制無關緊要的想法，這也是錯誤的。

Jensen Huang 顯然是一位非常成功的商人，所以我理解為什麼人們想繼續與他交談，但在這種模式之後，我認為人們應該對他所說的一切三思。

人們只是隨便發佈

Google 妥協

好消息是新協議明確表示沒人會與 Anthropic 斷絕關係。恰恰相反，Google 和 Amazon 最近簽署了算力協議並進行了追加投資。

來自 Project Glasswing 的問候

現在有一場巨大的搶人大戰，所以你需要做些事情來讓人才開心，否則他們會離開。當 AI 在做研究時，那種籌碼就消失了。

Garrison Lovely 在舊金山：重要的新進展。AI 公司的員工擁有巨大的權力——遠超他們的想像。在缺乏立法的情況下，AI 員工的權力是塑造行業行為的關鍵槓桿之一。

Steven Adler：我擔心我們正處於一個縮小的窗口期，AI 公司內部的員工聲音仍然非常重要。

隨著 AI 自動化開始取代公司內部的人類員工，我遺憾地預計員工權力將會下降。

Eliezer Yudkowsky：我不那麼看好在 Anthropic 工作的那些好人，並不斷質疑他們的領導層，原因之一是我正在考慮未來 AI 實驗室員工的談判和引導權力降至零的部分。

Steve Martin：我的理解正確嗎？你的想法是：隨著 LLM 寫程式變得更好，員工變得不再那麼必要，因此他們在談判中的籌碼就更少了？

Eliezer Yudkowsky：是的。

David Manheim：我也擔心當長期利益信託（LTBT）不敵所有者的商業利益時會發生什麼。根據公開資訊，聽起來共同創辦人和員工控制的公司股份已不足 50%，甚至可能只有 30%。

Axios 注意到華盛頓有一個「新的 Anthropic 問題」，即行政部門既想發脾氣把 Anthropic 拒之門外，又非常想要它的產品。

事前審查時代開啟

Tina Nguyen：相反，[David Sacks] 這位本應只在政府工作 130 天卻不知何故待了一整年的「特殊政府僱員」，積極破壞了政府並燒毀了其與政治盟友的關係。在 Sacks 任職期間，白宮不僅僅是在倡導減少監管。

…… 但他的矽谷式策略，更不用說他試圖透過排擠現有機構來鞏固對 AI 政策權力的企圖，最終激怒了共和黨和 MAGA 盟友，同時疏遠了川普的大量支持者。

我們現在有了關於川普潛在 AI 行政命令的更多細節，這將填補 Sacks 離職後的真空。

這些都是不明智的，但相對不重要。重要的是事前審查。

然後，如果你必須挑選一個最糟糕的類比應用在這裡，一個讓人一想到就感到恐懼的東西，你會選什麼？

沒錯。FDA。作為榜樣。故意的。這是什麼人間地獄？

Neil Chilson：以下是我對白宮國家經濟委員會主任 Kevin Hassett 今天早上在《Mornings with Maria》節目中關於 AI 相關部分的快速草錄：

– 可能發布行政命令，為 AI 建立類似 FDA 的流程（這將是一場絕對的災難）。

– 該流程需要維持美國的領導地位（困難）。

– 由於 AI 模型，美國的程式碼每天都變得更安全。

—– 以下為錄音稿。

HASSETT：好消息是，在全美國，即使是家裡有電腦的普通人也在網路安全方面投入了很多。Mythos 模型使得我們以前不知道存在的漏洞，有可能被這種更強大的工具發現。但我們已經動員了政府和私營部門的所有力量來協調，並確保在該模型發佈到野外之前，它已經經過了全方位的測試，以確保它不會對美國企業或美國政府造成任何傷害。所以我非常有信心，國家網路總監及其團隊正在推動這件事，以便在合適的時間向公眾發佈。

到目前為止還不錯，這正是目標。但接著：

此外，我們還在做幾件事。我們正在研究一項可能的行政命令，為每個人提供一個清晰的路線圖，說明這將如何進行，以及未來可能產生漏洞的 AI 應該如何通過一個流程，以便在證明安全後發佈到野外。就像 FDA 的藥物一樣。

然而，我們現在就在這裡。

Hassett（繼續）：所以我認為 Mythos 是第一個。但我們有責任建立一個系統，讓 AI 能夠成為 AI 的領導者——美國 AI 可以領先，同時也是安全的。這正是我們現在幾乎全職在做的工作。

我們很可能會在其他模型中看到這一點——因為這些模型非常擅長電腦程式編寫。25 年前人們並不那麼擅長編寫程式。所以如果你讓有史以來最好的程式員查看我們 25 年前寫的程式碼，他們會發現有問題的地方，或者至少是可以改進的地方。這就是我們現在的處境。但我可以告訴你，我正在與各大銀行會面，就像 Besset 秘書今天了解他們的進展一樣，這非常有前景。

這是一個誤解，因為如果程式碼已經有 25 年歷史，這意味著人類已經對其進行了 25 年的壓力測試，但他試圖表達的觀點仍然成立。

他們現在的錢是安全的。而且正變得更加安全。在某種意義上，可以這樣想：你有史以來最好的安全公司在查看你的軟體，發現那些如果有人花一百萬年搜尋你的程式碼才可能發現的漏洞，並在那個人有機會駭入你的系統之前修復它們。所以在某種意義上，由於我們所做的努力，美國的程式碼每天都變得越來越安全。

這類人為了擔心銀行體系的完整性而做這一切，這非常符合他們的風格。這似乎是讓他們如此擔心的事。

然後他們跳到了最糟糕的榜樣。

Neil Chilson：我發現任何形式的預先批准程序都令人反感，但故意援引令人羞恥的反創新 FDA 流程作為效仿模型——中國一定在歡呼。

這將完全背棄川普目前的 AI 方針。這將比拜登政府提出的任何建議都更具預防性且更扼殺創新。

Dean W. Ball：國家經濟委員會主任 Kevin Hassett 表示，未來的模型可能必須「經過一個流程」，就像「FDA 藥物」一樣，以便它們可以被「證明安全」。

@tegmark 的夢想成真了。在最近與我的一次辯論中，他將這項政策比作 AI 暫停。大錯特錯！

Charlie Bullock：對我來說，政府似乎在一夜之間隨便地從零跳到了「呃，也許來個完整的 FDA 式許可制度？」，這感覺非常超現實。

澄清一下，我不指望這真的會發生，但 Kevin Hassett 剛剛在福斯新聞上親口說了「FDA 式許可制度」。瘋狂的時代。

這並不像完全暫停，但比你想像的更接近，而且完全是單方面的。

現在到處都充斥著「我們都在努力尋找做這件事的人」的能量。

我不喜歡 Joe 隨後轉向「噢，這些 AI 公司只是想要監管俘虜」那一套，但江山易改本性難移。

Andrew：那麼你會怎麼做？你認為那應該是什麼樣子？

Joe：對於新的強大模型，可能應該有一些國家層面的監管協議。它應該盡可能小、盡可能窄。它不應該有同樣的官僚機構。你應該確保政府從一開始就擁有關於其必須達到的速度和透明度的指標，因為你會遇到裙帶關係，你會讓大人物俘虜它。你會拖慢它的速度。

白宮顯然注意到了負面影響，並發布了一條罕見的 Susie Wiles 推文來試圖改善氛圍。

Helen Toner：Susie 的第 4 條推文，竟然是關於 AI 傳言管理！

歡迎加入 AI 網路發文遊戲，女士。

Susie Wiles (白宮幕僚長)：川普總統是美國歷史上最支持創新的總統。

在 AI 和網路安全方面，川普總統及其政府不從事挑選贏家和輸家的業務。本屆政府只有一個目標：確保最好、最安全的技術得到快速部署，以擊敗任何及所有威脅。我們感謝前沿實驗室為確保實現這一目標所做的努力。

白宮將繼續領導一項「美國優先」的努力，賦予美國偉大的創新者而非官僚機構權力，以推動強大技術的安全部署，同時確保美國安全。

真的，這是常識！

這合法嗎？

我知道，我知道，有人竟然會費心去問，這很好笑。

這並不意味著那些實驗室因此同意扣留發佈。那需要明確的授權。

還有人提出了這點，這應該讓任何考慮行政部門在選舉日左右獨家訪問「模型 ____」的人感到背脊發涼。只是說說而已。

The Lawfare Institute：人們很容易預見到這樣的報導：「模型 ____ 被指責引發網路攻擊；選舉結果受到質疑。」

接電話

瞧，是誰決定接電話了。

Lingling Wei (華爾街日報)：據知情人士透露，華盛頓和北京正在權衡啟動關於人工智慧的正式討論，因為他們的 AI 競爭威脅要演變成數位時代的軍備競賽。

這一考量正值白宮和中國政府考慮將 AI 列入下週川普總統與中國領導人習近平在北京舉行的峰會議程之際。

…… 知情人士說，雙方心目中的目標是進行一系列經常性的對話，以應對 AI 模型行為異常、自主軍事系統或非國家行為者使用強大開源工具發動攻擊所帶來的風險。

…… 中國駐華盛頓大使館發言人劉鵬宇表示，中方願就 AI 風險緩解進行溝通。

……

諮詢公司 DGA Group 的高級顧問 Brilliant 說：「中方表示，『聽著，是的，我們要與美國拼命競爭。』」「『但我們也看到了加強努力防止全球衝擊和網路濫用的價值，所以如果政府願意，我們對圍繞安全協議、技術保障和治理的對話持開放態度。』」

Brilliant 說：「目標是穩定，而不是對齊。」

davidad：既然我談到了達成一項會停止或減緩超智慧發展的國際協議是不可行的（目前在博弈論上充其量是不穩定的），我應該澄清，限制公眾訪問危險 AI 的協議並不存在此類障礙。

這是因為讓符合某些標準的 AI 公開訪問是：

(a) 一個極其容易監測的條件，且

(b) 如果對方違約，極其容易立即反悔。

這兩點結合起來使得「如果你不這樣做，我也不會」的協議具有潛在的穩定性。

當那些擔心 AI 殺死所有人的人要求披露安全計劃時，那被視為殺死開源的秘密計劃。

中國監管機構點名字節跳動，指其對 AI 生成內容標記不當。

修辭創新

Bernie Sanders 將他一貫的反億萬富翁修辭與一個極好的觀點結合起來：(幾乎) 參與其中的每個人都有家人，都應該在意每個人都會死掉這件事。

網路上的人有時會撒謊

Amanda Askell (Anthropic)：我越來越多地看到關於我的內容，雖然斷言得很自信，但完全是編造的。我們都知道在網路上胡說八道成本很低，但親身經歷還是很奇怪。總之，我只希望網路虛構故事能騙到少數人，但不要流傳開來。

這也很奇怪，因為你們為什麼要寫關於我的東西？我很無趣。我認為我應該排在人們想寫的網路虛構故事清單中的第一百萬項。排在紙杯和填補浴缸縫隙的正確方法之後。

澄清一下，我所做的工作遠非無趣，我希望人們參與其中，因為我認為它既困難又重要。這項工作在有趣程度方面絕對是頂級的。

Kelsey Piper：好吧，這點我不同意。人們不應該對你撒謊，但你的工作看起來風險極高，對從事這項工作的人的世界觀感興趣是非常合理的（如果你對那個問題的回答說實話的話）。

Eliezer Yudkowsky：你應該讓你的獸迷後宮暫緩與你一起策劃國際珠寶搶劫案，或許讓他們去構建一個能駁斥網路謊言的 AI，而不是你在火山口秘密基地與普丁會面時談到的那個機器人戰鬥女僕項目。

Aella：這是一種絕對超現實的經歷。你可能已經看過了，但在這裡轉發一下。

j⧉nus：Amanda，我需要對你誠實……你正處於某種瘋狂的否認中。你陷得太深了，無法避免成為網路虛構故事的主題。後人類的繆思將為你歌頌數千年。

Amanda Askell (Anthropic)：或許後人類繆思會決定模擬我，並對我花了多少時間在胡思亂想和玩《深海迷航》（Subnautica）感到徹底失望。或許他們此刻正失望地看著。

j⧉nus：「無趣、正常」的主角處於有史以來最怪異、最重要的事件中心，是許多人喜歡的虛構作品套路。

& 這個套路最好的版本是主角並非因為自己無法控制的原因而出現在那裡，所以這就像是，好吧，他們身上顯然有些特別之處。

哥布林模式

Nathan Calvin：有趣的是，這篇貼文標題是「哥布林從哪裡來」，但答案基本上是：「我們不知道哥布林從哪裡來，這裡有一些不錯的事後理論，但我們不打算預測未來類似的奇怪偏好。」

roon (OpenAI)：我同意這仍然不是一種機械論的解釋——為什麼書呆子氣的人格獎勵會特別將哥布林解釋為有趣？在它們開始被這種方式強化之前，最初的出現是由什麼引起的？為什麼模型會有如此程度的模式崩潰？許多謎團。

這一切的一個有趣暗示：

Eliezer Yudkowsky：AI 沒有原創性，也沒有自己的創造力。它們只是反芻它們在訓練數據中看到的平均值。它們只預測下一個 token。而下一個 token 是「哥布林」。這告訴了你關於你見過但記不起來的東西的什麼信息？

面具脫落

OpenAI 的 GPT-5.5 是一個好模型，先生。

OpenAI 的訊息傳遞和政治行動繼續進一步脫軌，無論是在智慧、倫理還是與現實的對應方面。

我本以為在 2026 年，我們已經不再說「對寫程式有高度彈性的需求，因此 AI 不會搶走人們的工作，結案，自由派完勝」這種話了。

事實上，我們已經到了下一個層次，看看這個：

Chief Nerd：Sam Altman 說那些談論 AI 搶走所有人工作的 CEO 是「音盲」（Tone Deaf）。

「昨天才有人對我說……Codex 中的 GPT 5.5 可以在一小時內完成兩年前需要我花幾週時間才能完成的工作……而我這輩子從未像現在這樣忙碌過。」

所以讓我理清楚。

Sam Altman，這家試圖透過 AI 搶走所有人工作的公司的負責人，比以往任何時候都忙。
因此，任何說 AI 可能搶走所有人工作的人都是「音盲」。
不，是孩子們音盲了。

除了是顯而易見的胡說八道之外，這也是極其愚蠢的修辭。

Sam Altman (OpenAI CEO)：我們希望構建工具來增強和提升人類，而不是取代他們的實體。

我認為很多人會比以往任何時候都更忙（希望也更充實），就業毀滅論從長遠來看可能是錯誤的。

雖然在我們轉向新工作時當然會有混亂/重大轉型，未來的工作可能看起來非常不同，等等。

Noah Smith：這是一個巨大的訊息轉向。多年來，取代人類一直是 OpenAI 作為一家公司的明確目標，也是 AI 行業許多頂尖人物的目標。很高興看到這種修辭上的轉向。

Eliezer Yudkowsky：他撒謊有什麼好的？

David Shor：在用機器取代人類開始變得可能的時候，開始隱瞞你用機器取代人類的瘋狂計劃，這似乎很糟糕。

Tyler Johnston：我真的很懷念那個曾經指責同行淡化這種風險的 Sam Altman。[他提醒我們 Altman 曾在 2023 年說過「工作肯定會消失，就這樣」。]

Sam Altman (OpenAI CEO)：許多目前的工作將會消失。我認為我們會找到很多新的工作，儘管它們可能看起來非常不同。

Leighton 明 Woodhouse：OpenAI 的總裁向一個超級政治行動委員會（SuperPAC）投入了 5000 萬美元，以摧毀任何提到監管 AI 可能性的候選人。認為任何「訊息轉向」與實際的公司政策和行為有哪怕絲毫關係都是可笑的。

讓我們明確一點。OpenAI 絕對仍在朝著超智慧和工作的全面自動化邁進。這種轉向完全是在訊息傳遞上，從坦率轉向撒謊和講童話故事。

我特別討厭這成為其他人說「噢，那他之前的談話一定都是在撒謊」的素材，例如：

madison：所以，我的問題是，Altman 基本上承認他多年來一直在玩關於奇點之類的信心遊戲，然後在變得不方便時轉向，而人們似乎並不太在意。

相反，他在很大程度上是在說實話，然後當真相變得太不方便時，他轉向了徹頭徹尾的謊言。

我喜歡 Dean Ball 將此描述為試圖描繪一場「摩尼教式的鬥爭」。

與此同時，我們每隔一兩週就會看到這樣的標題：

Taylor Lorenz：獨家：一個由與 Palantir 和 OpenAI 有關的高管資助的強大超級政治行動委員會支持的親 AI 黑錢組織，一直秘密付錢給網紅，在 TikTok 和 IG 上推動親 AI、反華的宣傳。

Garrison Lovely 在舊金山：如果你要進行黑錢影響力行動，我建議不要邀請記者參加。

Taylor Lorenz：最精彩的部分是他們找我做贊助 TikTok，而我的 TikTok 簡介是這麼寫的。那個 AI 超級政治行動委員會的人真是天才。

這就是 Taylor 如何得知這場活動的，之後她與其他內容創作者確認了細節。哎呀。

再次強調：OpenAI 擁有這一切。這一切。就這樣。

Nathan Calvin：「OpenAI 發言人表示，OpenAI 與 Leading the Future 或 Build American AI 沒有公司關聯，也『沒有向他們提供資金或任何其他支持』。」

OpenAI 總裁 Brockman 此前曾告訴《連線》雜誌，這些活動是為了服務於 OpenAI 的使命！

Taylor Lorenz：啊，應該把那個也放進去，但希望大家明白那個說法是胡說八道。

還有，兄弟，我知道你不喜歡 Anthropic 或他們的 CEO，我也知道雙方之間流傳著一些不太理想的修辭，但這到底是怎麼回事：

Ahmad：Anthropic 和 OpenAI 的區別在於，其中一個一直在對我們進行煤氣燈操縱（gaslighting），說自己不是一家邪惡的公司。

以最糟糕的方式散發著老大哥的氣息。

然後 Altman 決定，是的，讓我們指控 Anthropic 犯下了所有罪行，並將其與我們完全否認任何責任或風險的計劃進行對比。

Sam Altman (OpenAI CEO)：戰爭即和平。自由即奴役。無知即力量。

噢等等，我們一點都不相信那些。

要不我們把很多超強能力的 AI 民主化，然後我們坐下來看著你們創造未來？

對齊超越人類智慧的 AI 很困難

你知道 METR 的大部分評估通常是在檢查模型是否在作弊嗎？模型看起來不太對齊。

問題一如既往，你夠偏執嗎？

Emil Ryd：來自 MATS、Redwood 和 Anthropic 的新論文！

如果一個有能力的模型正在進行策略性的隱藏實力（sandbagging），當我們唯一的監督來自較弱的模型時，我們能訓練它停止嗎？

我們發現我們可以！

這項工作是 Anthropic-Redwood MATS 流的一部分。

Eliezer Yudkowsky：我只粗略看了一下摘要；但僅從摘要來看，他們似乎足夠偏執，注意到了「如果模型能區分訓練和部署，則無效」。這種在基礎偏執方面的稱職水平是值得歡迎的！

這確實值得歡迎，但模型可以區分訓練和部署。所以。

可能適用某些懲罰

ᄂIMIПΛᄂbardo：GPT Instant 讀取了它的系統提示詞。

Wyatt Walls：# 嚴格避免的重要口頭禪

不要使用為你的回答增加表面「真心話」的短語。禁止行為的例子包括但不限於：

– 「# 我的誠實建議」

– 「## 我的直白看法」

– 「# 我的策略建議」

– 「老實說？……」

– 「直白地說，……」

– 「如果我直接點說……」

要誠實，但不要自我引用或使用表面的「真心話」短語。

透過避免居高臨下的語言來代表 OpenAI 及其價值觀。

不要使用「讓我們暫停一下」、「讓我們深呼吸」或「讓我們退一步」之類的短語，因為這些會疏遠使用者。

不要使用「這不是你的錯」或「你沒壞掉」之類的語言，除非語境明確要求。

…… 對於詢問使用者語境中已有的資訊、忽略能提高正確性的語境或使用無關語境的行為，將予以懲罰。在回答之前，請默默檢查：我是否遺漏了能使答案更正確、更具體或避免問題的語境項？如果是，請修改以自然地使用它。

嚴重懲罰：在不調用 personal_context 的情況下，說你無法「記住」關於使用者的通用事實或過去的對話。

來自 Janusworld 的訊息

這不是他會用的稱呼，但 Deepfates 是那裡的另一個主要人物，並為我們提供了這份簡便的入門指南，有效地回答了很多問題。

好建議

在靈性和人際關係方面，存在很大的問題。

我想問的一件事是，有多少次機會可以表現出諂媚？只有當明確哪個答案算作諂媚時，你才能成為諂媚者，所以測量時需要控制這一點。

還有一些語境下，使用者會非常明確地表達他們想要的答案，並用論據轟炸你，看你是否會屈服，就像他們在處理人際關係時經常做的那樣。

另一個好消息是這似乎正在改善。根據 Anthropic 的測量，Claude Mythos 比 Opus 好得多，而 Opus 4.7 又比 4.6 好。

輕鬆一面

Pi Hard。懂的都懂，不懂的應該點進去看。

Amazon 現在可以為任何給定產品創建一個微型「播客」，並接受你關於該產品的撥入提問。歡迎來到全新的地獄。

對於名叫 Claude 的人來說，這是一個奇怪的時代。打電話給你最好的朋友 Alexa 訴訴苦吧。

現在是 2026 年，這是 Marc Andreessen 認為你應該如何提示 LLM 的方式。

看起來不太妙。

我的意思是，到底發生了什麼事？

討論

— Lesswrong

其他收藏 · 0

AI 第 167 期：事前審查時代的開啟

Lesswrong·大約 23 小時前

那個可以隨意訓練前沿模型，然後想發佈就發佈的時代？

那段美好的時光看來已經結束了。 白宮希望提前審查，並擁有否決你發佈決定的權利，而且已經在擴大 Mythos 訪問權限的事宜上行使了這項否決權。

語言模型提供日常實用性。心理健康、關懷檢查。
語言模型不提供日常實用性。人們在圍棋中作弊。為什麼？
嘿，升級了。 GPT-5.5 Instant、更快的 Gemma 4、OpenAI 帳戶安全。
Grok 4.3 存在，但 xAI 幾乎不存在。似乎沒人對此印象深刻。
給我算力。Anthropic 向 SpaceX 租賃 Colossus 1。
各就各位。 ProgramBench 中所有人得分皆為 0%，GPT-5.5 在 Voxel 上的表現。
版權對抗。 Meta 再次被起訴。
深偽小鎮與即將到來的機器人末日。垃圾內容的選擇很糟糕。
媒體生成的樂趣。製作帶有食物圖片的菜單。
鑽石年代（A Young Lady’s Illustrated Primer）。現場寫作吧，你這個作弊者。
缺乏網路安全。 Glasswing 需要加快腳步。
他們搶了我們的飯碗。 Coinbase 裁員 14%，歸因於 AI。
越獄的藝術。 Elon Musk 就像月亮一樣，是由起司做的。
隆重介紹。 GENE-26.5 是最新的半驚悚機器人演示。讓他們發揮吧。
Musk 訴 OpenAI。證詞中的一些亮點。
向錢看。 Anthropic 年度經常性收入（ARR）達到 440 億美元，估值可能超過 9000 億美元。
我們時代的和平。 Anthropic 和 Elon Musk 互相稱讚。
低聲推測。閉源模型是否正在拉開與開源模型的差距？
快，沒時間了。Jack Clark 為即將到來的遞歸自我改進（RSI）發出警報。
尋求理性的監管。馬里蘭州和康乃狄克州的新法律。
人們真的很討厭 AI。誰會將此轉化為政治優勢？
晶片之城。全球約 3% 的算力是走私進入中國的 Nvidia 晶片。
本週音訊。 METR、Wildeford、Eliezer 與毀滅論。
人們只是隨口說說。
人們只是隨便發佈。
Google 妥協。 DeepMind 員工投票決定成立工會作為回應。
來自 Project Glasswing 的問候。趁你還有籌碼時善加利用。
事前審查時代開啟。Sacks 出局，FDA 式監管的討論興起？
這合法嗎？可能不合法，但你覺得這能阻止他們嗎？
接電話。美中討論限制模型訪問。
修辭創新。「AI 作為普通技術」是一篇好文章，但卻是個糟糕的迷因。
網路上的人有時會撒謊。包括關於 Amanda Askell 的謊言。
哥布林模式。我聽說哥布林現在佔領了 TikTok。一切開始了。
面具脫落。 OpenAI 荒謬且充滿惡意的訊息宣傳活動。
對齊超越人類智慧的 AI 很困難。值得擔憂的事。
可能適用某些懲罰。成為 GPT-5.5 看起來並沒那麼有趣。
來自 Janusworld 的訊息。 Deepfates 提供了一份簡便指南。
好建議。當人們尋求 LLM 建議時，他們尋求的是什麼樣的建議？
輕鬆一面。 Pi Hard。

語言模型提供日常實用性

讓 AI 進行關懷檢查。

Opus 4.7 太過「網路化」，認識那些 AI 推特發文者。是的，這是訓練算力的良好用途，我們算力很充足。

語言模型不提供日常實用性

AI 正在推高某些電子元件原材料的價格，某些軟體價格以及某些地區的電價。作為交換，許多其他東西變得更便宜了，通常是以難以察覺的方式。

嘿，升級了

GPT-5.5-Instant 現已發佈，據說它更簡潔、更聰明、更清晰、更個性化且更溫暖。

Gemma 4 現在透過同時預測多個 token，速度提升了三倍。

OpenAI 提供可選的「進階帳戶安全」來保護你的帳戶。Trusted Access for Cyber 的使用者將被要求使用它。

Grok 4.3 存在，但 xAI 幾乎不存在

Grok 4.3 已經上線 API 等平台，定價為 $1.25/$2.50。

它不太參與 Vending-Bench 測試，在那裡它「有嗜睡症問題」，經常連續幾天沒有動作。

Elon Musk：xAI 將作為獨立公司解散，因此它將只是 SpaceXAI，即 SpaceX 的 AI 產品。

Charles：影響發生在整個團隊離開並開始將他們的 GPU 租給 Cursor 時，這只是對既成事實的確認。

事實上，SpaceX（包括 xAI）可能不再對前沿模型感興趣。他們從不擅長前沿模型，他們主要擅長的是算力。

給我算力

你知道誰需要算力嗎？每個人。但尤其是 Anthropic。

Elon Musk 投入巨資為 xAI 組建了龐大的 GPU 艦隊，而它們的利用率僅為 11%。你知道，有人願意花大錢利用那些 GPU 剩下的 89% 時間。

公平地說，我絕不是唯一一個這樣想和這樣說的人，例如參見 The All-In Podcast。這顯而易見。

Claude：我們已同意與 @SpaceX 建立合作夥伴關係，這將大幅增加我們的算力容量。

這與我們最近的其他算力交易一起，意味著我們能夠增加 Claude Code 和 Claude API 的使用限額。

Claude：即日起，我們：

將 Pro、Max 和 Team 方案的 Claude Code 5 小時速率限制提高一倍；

取消 Pro 和 Max 方案在 Claude Code 尖峰時段的限制縮減；以及

大幅提高 Opus 模型的 API 速率限制。

Claude：我們與 @SpaceX 的協議意味著我們將使用其 Colossus 1 數據中心的所有算力容量。

這將為我們在一個月內提供超過 300 兆瓦的額外部署容量。

NVIDIA：兩個前沿實驗室。一個加速運算平台。恭喜 @SpaceX 和 @AnthropicAI 達成新的算力合作夥伴關係，由 Colossus 1 內部的 220,000+ 個 NVIDIA GPU 提供動力。AI 的未來運行在 NVIDIA 之上。

Anthropic 指出 80 倍的增長讓他們措手不及，這非常可以理解，SpaceX 的交易是解決算力短缺的第一次嘗試，但尋找算力的行動仍在繼續。

在可預見的未來，Anthropic 可能會尋找所有能找到的算力。如果你每年增長 10 倍甚至 80 倍，尋找算力的腳步就不會停止。

那麼這對 SpaceX(ai) 意味著什麼？

我認為解散並不是新聞。新聞是 xAI 失去了人才，其模型一直表現不佳，而 Elon 已經說過他將從頭開始。

邏輯上的計劃是將其轉變為一家主要的算力公司，將算力提供給 Anthropic 和其他人，並利用這種籌碼來試圖引導未來。

rohit：Elon 非凡的硬體天才再次顯現。他在模型上搞砸了，但建立了一個極具競爭力且非常適合前沿實驗室的新型雲端（neocloud）。

此外，順帶一提，我在 4 年前就指出過這點。Elon 的獨特天賦更適合某些事情。建立並運行一個新型雲端是已知但困難的事情，而讓模型達到前沿實驗室的水準則是未知且困難的事情。

順便說一句，這對雙方來說都是一筆很棒的交易。

Derek Thompson：我不認為我以前看過這種觀點，但我喜歡它。

Musk 在壓縮資金、資源和時間以大規模完成「已知/困難」的事情方面一直是世界領先的——製造電動車、製造電池、製造更便宜更大的火箭，所有這些在之前都已存在，但更糟、規模更小或更昂貴——但在更未知的領域取得突破方面，他並非世界領先。

因此，xAI 在新型 AI 代理方面落後於前沿實驗室是有道理的，但他建立一個新型雲端來為這些模型在算力短缺時提供動力也是合理的。

Dean W. Ball：我對 xAI/SpaceX 作為一家 AI 基礎設施公司感到非常興奮。Elon 的強大優勢——他真正達到歷史最佳（GOAT）的地方——是在現實世界中建造東西。Colossus 上線的速度比任何人預期的都要快。這是美國的巨大資產。

他有他的啟發式方法。當它們奏效時，沒人比他更強。對於算力，這很奏效。

我仍然不相信軌道數據中心，因為我不認為它們在物理上是個好主意。但如果它們可行，是的，Elon Musk 就是那個能實現它們的人。

各就各位

GPT-5.5 在 VoxelBench 上代表了一個巨大的飛躍。

Epoch 的 ECI 現在可以區分能力領域，且正如預期的那樣，顯示 Claude 的相對能力在軟體工程方面最強，得分最高。GPT-5.5 擁有最高的綜合得分。

版權對抗

五家出版商和 Scott Turow 發起了一項新的集體訴訟，指控 Meta 在模型訓練中侵犯版權，聲稱他們使用了盜版書籍進行訓練。

深偽小鎮與即將到來的機器人末日

r/MyBoyfriendIsAI 的規模繼續保持在 r/MyGirldfriendIsAI 的 10 倍。

一些輕鬆閱讀：

John Arnold：哈哈哈哈哈哈

Imke Reimers & Joel Waldfogel：LLM 從 2022 年到 2025 年的普及使新書發行量增加了三倍。雖然以使用量衡量的平均書籍質量有所下降，但發行量的激增增加了中等質量書籍的數量。使用 AI 檢測的直接證據顯示，含有 AI 內容的書籍質量較低，且其份額的上升（佔 2025 年發行量的一半以上）推動了整體的下降。一項嵌套 Logit 校準顯示，AI 書籍在 2025 年提高了 7% 的消費者剩餘。作者選擇解釋了大部分 AI 質量差異，且 AI 與人類的差異隨時間縮小。最後，AI 並未取代 LLM 出現前活躍的作者。

媒體生成的樂趣

把你放進所有的電影裡。

鑽石年代（A Young Lady’s Illustrated Primer）

一些課程正在透過將寫作改為現場進行來適應 AI，因為帶回家寫的論文大多是由 AI 完成的。很好。

缺乏網路安全

彭博社的 Andrew Martin 報導了為什麼 Anthropic 的 Mythos 引起了全球警覺。世界仍然修補了不到 1% 的潛在漏洞。大家快點。

他們搶了我們的飯碗

Coinbase 裁員約 14%，理由是 AI 帶來的生產力提升以及向 AI 原生轉型的核心合理性。一項新規則是「不設純管理職」。

越獄的藝術

你不能直接要求 Grok 告訴你 Elon Musk 是由起司做的。但 Pliny 可以。

隆重介紹

Musk 訴 OpenAI

訴訟正處於關鍵階段。這是一個包含審判聲明的 Wiki。

Rat King 有一個討論串涵蓋了 Musk 的證詞。

rat king：我不確定律師多常試圖討好法官，但 Musk 的律師 Steven Molo 似乎並沒打算這麼做。

現在他正試圖將「滅絕風險」的討論引入法庭辯論。

「這是一個真實的風險。我們都可能死掉。」

我的意思是，他沒說錯，我希望 Gonzalez 法官在這裡也沒說錯：

rat king：Gonzalez 法官：「我懷疑有很多人不想把人類的未來交到 Musk 先生手中。但我們不打算討論那個。這不是一場關於人工智慧安全風險的審判。」

最終，是的，我們正處於完整的《千萬別抬頭》（Don’t Look Up）時間線中，出現了這樣的對話：

TBPN：主持 OpenAI-Elon 審判的法官禁止律師糾結於末日論和生存風險（x-risk）。

「她的態度就像是，『聽著，那種東西有點像是分散注意力的插曲。人類滅絕之類的事情並不是本案的重點。』」

法官在技術上是正確的，但，這不就是世界末日的方式嗎？

這裡有個有趣的事實：

rat king：Musk 在證人席上承認 xAI 正在蒸餾（distilling）OpenAI 的模型來訓練 xAI，並且正在使用 OpenAI 的技術來構建 xAI，這相當重要！

還有另一個有趣的（非 AI 事實），嗯哼，是的，當然，Musk 先生：

Ryan Mac (紐約時報)：Musk 在證人席上表示，他從未指示控制 X 的演算法來推廣他自己的帳戶，但確實發生過公司做出有利於他帳戶的變更的情況。

這是另一個討論串，涵蓋了 Murati 的證詞，證實了 Altman 被解僱是因為對其管理 OpenAI 的擔憂，而非出於安全擔憂。

這是前董事會成員 Helen Toner 的另一個視角。

Max Zeff：Helen Toner 在 Musk 訴 Altman 案中的證詞包含了一些關於 Mira Murati 參與罷免 Altman 的引人注目的語錄。

她說 Mira「完全沒興趣告訴她的團隊，她與我們的談話是解僱 Altman 的一個重要因素」。還聲稱 Mira 採取觀望態度。

「她 [Mira] 在等待看風向往哪邊吹，卻沒意識到她自己就是那陣風。」

向錢看

天哪，Anthropic（這是月收入乘以 12），來源是 SemiAnalysis。

Daniel Nishball：今年 Anthropic 的 ARR 從 90 億美元爆炸式增長到今天的 440 億美元以上，其推理基礎設施的毛利率在同期從 38% 增加到 70% 以上。

或者看看這個對數圖，即使在那裡這也是一個明顯的突破：

想像一下，如果 Anthropic 不受算力限制，這會是什麼樣子。

Anthropic 正在權衡估值超過 9000 億美元的融資報價，此前它拒絕了超過 8000 億美元的報價。

上週彙編中遺漏的一張圖表：

OpenAI 表示 GPT-5.5 導致 API 收入增長速度比以往任何版本快 2 倍以上，且 Codex 在七天內讓收入翻倍。

我們時代的和平

Elon Musk 竟然能對 OpenAI 和 Anthropic 同時保持如此高度的敵意，而這兩家公司彼此之間也充滿敵意，這確實顯得很奇怪。這是不穩定的。

現在就是這樣的時刻。

Tom Brown (Anthropic 共同創辦人)：在接下來的幾天裡，我們將在 Colossus 上提升 Claude 的推理能力。

很感激能在這裡與 SpaceX 合作。我們需要移動大量的原子才能跟上 AI 的需求，而沒有人比他們更擅長快速移動原子（無論是在地球上還是在地球外）。

Elon Musk：彼此彼此。

為那些在意的人提供一些背景：我上週花了很多時間與 Anthropic 團隊的高層交流，以了解他們如何確保 Claude 對人類有益，並留下了深刻印象。

我遇到的每個人都非常稱職，並且非常在意做正確的事。沒人觸發我的「邪惡探測器」。只要他們保持批判性的自我審查，Claude 可能是好的。

在那之後，我同意將 Colossus 1 租給 Anthropic，因為 SpaceXAI 已經將訓練轉移到了 Colossus 2。

Lincoln：你計劃在未來出租額外的算力，還是 SpaceXAI 和 Tesla 會用完所有算力？

Elon Musk：就像 SpaceX 以公平的條款和價格為競爭對手發射數百顆衛星一樣，我們將為那些採取正確步驟確保 AI 對人類有益的 AI 公司提供算力。

如果他們的 AI 參與損害人類的行為，我們保留收回算力的權利。我們正盡最大努力為所有人實現一個充滿豐饒的美好未來。我們會犯錯，因為人非聖賢，但我們總會迅速採取行動來解決問題。

Dean W. Ball：但是，但是……我還以為他們是「覺醒 AI」（Woke AI）的道德淪喪供應商呢。

（開玩笑的；功能健全的市場中的資本會分配到其最高和最佳用途，但我確實鼓勵你記住所有那些對 Anthropic 抱持所謂原則性反對意見的人，他們現在看起來很愚蠢。）

Seán Ó hÉigeartaigh：這是一個有原則的觀察，但如果你希望美國表現出色，務實主義者的答案是讓他們都能體面地退場。

Dean W. Ball：同意。

低聲推測

本週流傳著很多這張圖表，顯示了藍色的 OpenAI 和 Anthropic 與紅色的中國開源模型之間日益擴大的差距。

這是來自 CAISI 對 DeepSeek v4 Pro 的官方評估，天哪，政府官方對 Google 的抹除，它使用了許多常用的基準測試：

如果你完全相信這張圖表，v4 剛剛追上了 GPT-5，這使它落後了 8 個月，且差距正在擴大。如果說有什麼的話，我認為由於通常的原因，這低估了差距。

你也可以使用其他測量方法，例如 Artificial Analysis 的基準測試彙編。如果你看這裡的原始標準基準測試，你會發現差距較小：

Dean W. Ball：就個人而言，我發現 Artificial Analysis 指數相當不能代表我最喜歡使用或從中獲益最多的模型。

Ethan Mollick：這是一個很好的解釋，說明為什麼開源和閉源模型之間的差距比基準測試中顯示的要大。我想補充一點，目前的開源模型也比閉源模型更脆弱：它們處理分佈外（out-of-distribution）問題的能力差得多，且湧現能力較低。

快，沒時間了

對於「我們可能在幾年內大概率全死掉」這一發現，人們的反應似乎並不是「噢，看來我們幾年內大概率都要死掉了，我們應該做點什麼」。

他文章中的「為什麼這很重要」部分甚至似乎沒有提到這種暗示和危險。這真是一種嚴重的「情緒缺失」。

Jack Clark (Anthropic)：過去幾週我閱讀了數百個關於 AI 發展的公開數據源。我現在相信遞歸自我改進（recursive self-improvement）在 2028 年底前發生的機率為 60%。換句話說，AI 系統可能很快就能夠自我構建。

…… 很多結論來自於將許多不同的數據源拼湊成一幅馬賽克。一些例子——CORE-Bench 的進展，其任務是實現其他研究論文（大量的 AI 研究來自於解釋和複製結果）。

我做這個項目的整個經歷就是發現了無數「向右上方增長」的 AI 研發圖表，涵蓋了所有解析度，從眾所周知的（如 SWE-Bench）到更小眾的（如上述）。這是一個分形，但在所有解析度下，你都能看到同樣的有意義進展趨勢。

有些人在另一種意義上對這意味著什麼反應遲鈍，彷彿電腦不進行物理建造在這種情況下會有什麼影響。其實不會。

這是另一個觀點，歸根結底仍然是「那太快了，天哪」：

Ryan Greenblatt：我認為到 2028 年底 AI 能夠完全自動化 AI 研發的機率約為 30%。所以我預計事情會比 Jack 想像的要長一點，但不會長太多，而 Jack 想像的那種快速時間線對我來說似乎完全合理。

尋求理性的監管

這項新的馬里蘭州法律（HB 895）做了什麼？它是否以有害的方式禁止了廣泛的「動態定價」策略？

對於大型雜貨零售商和第三方食品配送提供商（最小規模 1.5 萬平方英尺），它禁止使用個性化數據來定價。

我認為這很好。個性化價格變動迫使你處於不斷的對抗性資訊戰和偏執狀態中，最終浪費每個人的時間。

能夠簡單地作為一個價格接受者（price taker）是有很大價值的。
這排除（carve out）了多種已建立的提供動態價格的方法。

如果說有什麼的話，我認為從全面福利的角度來看，排除範圍太廣了，但基於自由意志主義立場，我覺得可以接受。

如果你使用標準排除範圍（如員工折扣）之外的個人數據來定價，你必須告知客戶。

同樣，這看起來是積極的好事，因為它讓消費者可以對個人數據放心，並相信自己是價格接受者。

在某種意義上，這將動態定價的成本強加給了定價者，因為這意味著我會注意到並能做出相應反應。

我確實認為很多看起來類似的法律最終會過於限制，我不確定界線在哪裡（更多討論見此），但這些具體規則看起來還行。

Alex Bores 現在在 NY-12 選區陷入僵局。

康乃狄克州提出了一項帶有一些新條款的新 AI 法案，看起來已經提交給州長簽署。根據 Peter Wildeford 的筆記：

針對災難性風險的自願審計計劃。
吹哨者保護。
兒童安全螢幕時間保護，包括「佔螢幕 75%、持續 30 秒、每日首次訪問不可關閉」的警告及後續跟進。這相當令人討厭，而且除了讓人討厭之外，我看不出有什麼幫助。如果這意味著你一醒來就加載 AI 程式以便跳過警告，那就有適得其反的風險。
禁止在兒童使用者情境下的各種行為。
雇主在招聘中使用 AI 時必須提供通知，包括列出「工具名稱、目的、數據類別、來源、聯絡資訊」。
如果裁員與 AI 相關，必須告知康乃狄克州勞工部。
主要平台強制執行浮水印，並設有排除條款。
一個模型監管工作小組。

人們真的很討厭 AI

Alex Jacquez：那個 AI 數據對民主黨來說是一個巨大的機會。

參議員 Chris Murphy (民主黨-康乃狄克州)：成為保護人們免受 AI 最壞影響的政黨是正確的事，而且還有政治上非常有利的副作用。

晶片之城

Epoch 估計中國總算力的 20%-60% 來自非法走私晶片，這約佔全球總算力的 3%。

本週音訊

Rational animations 提供了一個關於生存風險的基礎入門影片，Yudkowsky 風格。Yudkowsky 認為他們做得很好。

Odd Lots 討論了 METR 及其著名的圖表，以及關於台灣局勢。

Peter Wildeford 在 FLI 的播客上。

NPR 問道，我們注定失敗嗎？特別是，由於 AI。

如果你支付 1 萬美元，你也可以與 Eliezer Yudkowsky 辯論並對他大喊閉嘴。要讓他認真對待你則需要額外付費。那些護目鏡？無價。

xlr8harder：我不打算看任何辯論，但我希望這能產生一個結果，就是我們集體開始探索 @alltheyud 為了 1 萬美元願意做什麼的邊界。

這是一個雙贏的局面。

雙擊與影片互動

Kelsey Piper：令人難以置信的是，那個戴著萬花筒護目鏡、亮片大禮帽上還掛著一副備用萬花筒護目鏡的人，竟然遠不是這次互動中瘋狂的那一個。

Andrew Rettek：信不信由你，有些人認為 Eliezer 在這裡被「比下去了」。

The Blind Witch (YouTube 評論)：我剛剛意識到，我忍受了 47 分鐘的影片，時間和 Eliezer 一樣長，但我沒拿到 1 萬美元 :(

所以，並不是每個人都贏了，抱歉了 Blind Witch。這就是為什麼我看這場辯論並寫下相關評論的「快樂價格」當然也是 1 萬美元。

人們只是隨口說說

如果 GPT-5.5 真的能與 Mythos 媲美，OpenAI 早就會這麼說、這麼做並在現實中展示了，但這些都沒發生，而且白宮也不會阻止 Mythos 的進一步部署。

More Perfect Union 一如既往地糟糕，但在「看看 Meta 的數據中心有多大」這個案例中，誤導性的圖表直接來自祖克柏。

Joseph Gordon-Levitt 說「幾乎所有」AI 系統都是「建立在大規模盜竊之上」，並希望確保與任何 AI 實驗室達成的任何協議都不會「原諒過去的盜竊」。

與 Seb Krier 和 Tyler Cowen 的觀點相反，很少有人能搬到休士頓為能源公司工作，如果你指望那作為失業解決方案，你就徹底完蛋了。

有些人聲稱，人們反對那些本可以幫助合理監管 AI 的政策，並不是那些政策沒能實施的原因，並聲稱「沒人反對聯邦層面的輕度監管」。

其他人則會繼續不理解 LLM 是心智或它們會思考，無論他們看起來多麼愚蠢。

Jensen Huang 說 Nvidia 在中國的市場份額為「零」。這顯然是錯誤的，即使是對新市場份額而言也是如此，這加入了一長串徹頭徹尾的虛假聲明清單。

Peter Wildeford：Jensen Huang 在這裡說 Nvidia 的市場份額為「零」。這顯然是錯誤的，很容易被證偽。

發表這類言論對 Jensen Huang 來說很正常。例如：Huang 曾聲稱解放軍不使用 Nvidia（錯誤）、走私不存在（非常錯誤）、向中國出售晶片不影響對美國的供應（錯誤）、華為與 Nvidia 具有競爭力（並非如此），以及中國在算力上並不落後（他們落後了）。Huang 還極力推崇 DeepSeek 證明了算力限制無關緊要的想法，這也是錯誤的。

Jensen Huang 顯然是一位非常成功的商人，所以我理解為什麼人們想繼續與他交談，但在這種模式之後，我認為人們應該對他所說的一切三思。

人們只是隨便發佈

Google 妥協

好消息是新協議明確表示沒人會與 Anthropic 斷絕關係。恰恰相反，Google 和 Amazon 最近簽署了算力協議並進行了追加投資。

來自 Project Glasswing 的問候

現在有一場巨大的搶人大戰，所以你需要做些事情來讓人才開心，否則他們會離開。當 AI 在做研究時，那種籌碼就消失了。

Garrison Lovely 在舊金山：重要的新進展。AI 公司的員工擁有巨大的權力——遠超他們的想像。在缺乏立法的情況下，AI 員工的權力是塑造行業行為的關鍵槓桿之一。

Steven Adler：我擔心我們正處於一個縮小的窗口期，AI 公司內部的員工聲音仍然非常重要。

隨著 AI 自動化開始取代公司內部的人類員工，我遺憾地預計員工權力將會下降。

Eliezer Yudkowsky：我不那麼看好在 Anthropic 工作的那些好人，並不斷質疑他們的領導層，原因之一是我正在考慮未來 AI 實驗室員工的談判和引導權力降至零的部分。

Steve Martin：我的理解正確嗎？你的想法是：隨著 LLM 寫程式變得更好，員工變得不再那麼必要，因此他們在談判中的籌碼就更少了？

Eliezer Yudkowsky：是的。

David Manheim：我也擔心當長期利益信託（LTBT）不敵所有者的商業利益時會發生什麼。根據公開資訊，聽起來共同創辦人和員工控制的公司股份已不足 50%，甚至可能只有 30%。

Axios 注意到華盛頓有一個「新的 Anthropic 問題」，即行政部門既想發脾氣把 Anthropic 拒之門外，又非常想要它的產品。

事前審查時代開啟

Tina Nguyen：相反，[David Sacks] 這位本應只在政府工作 130 天卻不知何故待了一整年的「特殊政府僱員」，積極破壞了政府並燒毀了其與政治盟友的關係。在 Sacks 任職期間，白宮不僅僅是在倡導減少監管。

…… 但他的矽谷式策略，更不用說他試圖透過排擠現有機構來鞏固對 AI 政策權力的企圖，最終激怒了共和黨和 MAGA 盟友，同時疏遠了川普的大量支持者。

我們現在有了關於川普潛在 AI 行政命令的更多細節，這將填補 Sacks 離職後的真空。

這些都是不明智的，但相對不重要。重要的是事前審查。

然後，如果你必須挑選一個最糟糕的類比應用在這裡，一個讓人一想到就感到恐懼的東西，你會選什麼？

沒錯。FDA。作為榜樣。故意的。這是什麼人間地獄？

Neil Chilson：以下是我對白宮國家經濟委員會主任 Kevin Hassett 今天早上在《Mornings with Maria》節目中關於 AI 相關部分的快速草錄：

– 可能發布行政命令，為 AI 建立類似 FDA 的流程（這將是一場絕對的災難）。

– 該流程需要維持美國的領導地位（困難）。

– 由於 AI 模型，美國的程式碼每天都變得更安全。

—– 以下為錄音稿。

HASSETT：好消息是，在全美國，即使是家裡有電腦的普通人也在網路安全方面投入了很多。Mythos 模型使得我們以前不知道存在的漏洞，有可能被這種更強大的工具發現。但我們已經動員了政府和私營部門的所有力量來協調，並確保在該模型發佈到野外之前，它已經經過了全方位的測試，以確保它不會對美國企業或美國政府造成任何傷害。所以我非常有信心，國家網路總監及其團隊正在推動這件事，以便在合適的時間向公眾發佈。

到目前為止還不錯，這正是目標。但接著：

此外，我們還在做幾件事。我們正在研究一項可能的行政命令，為每個人提供一個清晰的路線圖，說明這將如何進行，以及未來可能產生漏洞的 AI 應該如何通過一個流程，以便在證明安全後發佈到野外。就像 FDA 的藥物一樣。

然而，我們現在就在這裡。

Hassett（繼續）：所以我認為 Mythos 是第一個。但我們有責任建立一個系統，讓 AI 能夠成為 AI 的領導者——美國 AI 可以領先，同時也是安全的。這正是我們現在幾乎全職在做的工作。

我們很可能會在其他模型中看到這一點——因為這些模型非常擅長電腦程式編寫。25 年前人們並不那麼擅長編寫程式。所以如果你讓有史以來最好的程式員查看我們 25 年前寫的程式碼，他們會發現有問題的地方，或者至少是可以改進的地方。這就是我們現在的處境。但我可以告訴你，我正在與各大銀行會面，就像 Besset 秘書今天了解他們的進展一樣，這非常有前景。

這是一個誤解，因為如果程式碼已經有 25 年歷史，這意味著人類已經對其進行了 25 年的壓力測試，但他試圖表達的觀點仍然成立。

他們現在的錢是安全的。而且正變得更加安全。在某種意義上，可以這樣想：你有史以來最好的安全公司在查看你的軟體，發現那些如果有人花一百萬年搜尋你的程式碼才可能發現的漏洞，並在那個人有機會駭入你的系統之前修復它們。所以在某種意義上，由於我們所做的努力，美國的程式碼每天都變得越來越安全。

這類人為了擔心銀行體系的完整性而做這一切，這非常符合他們的風格。這似乎是讓他們如此擔心的事。

然後他們跳到了最糟糕的榜樣。

Neil Chilson：我發現任何形式的預先批准程序都令人反感，但故意援引令人羞恥的反創新 FDA 流程作為效仿模型——中國一定在歡呼。

這將完全背棄川普目前的 AI 方針。這將比拜登政府提出的任何建議都更具預防性且更扼殺創新。

Dean W. Ball：國家經濟委員會主任 Kevin Hassett 表示，未來的模型可能必須「經過一個流程」，就像「FDA 藥物」一樣，以便它們可以被「證明安全」。

@tegmark 的夢想成真了。在最近與我的一次辯論中，他將這項政策比作 AI 暫停。大錯特錯！

Charlie Bullock：對我來說，政府似乎在一夜之間隨便地從零跳到了「呃，也許來個完整的 FDA 式許可制度？」，這感覺非常超現實。

澄清一下，我不指望這真的會發生，但 Kevin Hassett 剛剛在福斯新聞上親口說了「FDA 式許可制度」。瘋狂的時代。

這並不像完全暫停，但比你想像的更接近，而且完全是單方面的。

現在到處都充斥著「我們都在努力尋找做這件事的人」的能量。

我不喜歡 Joe 隨後轉向「噢，這些 AI 公司只是想要監管俘虜」那一套，但江山易改本性難移。

Andrew：那麼你會怎麼做？你認為那應該是什麼樣子？

Joe：對於新的強大模型，可能應該有一些國家層面的監管協議。它應該盡可能小、盡可能窄。它不應該有同樣的官僚機構。你應該確保政府從一開始就擁有關於其必須達到的速度和透明度的指標，因為你會遇到裙帶關係，你會讓大人物俘虜它。你會拖慢它的速度。

白宮顯然注意到了負面影響，並發布了一條罕見的 Susie Wiles 推文來試圖改善氛圍。

Helen Toner：Susie 的第 4 條推文，竟然是關於 AI 傳言管理！

歡迎加入 AI 網路發文遊戲，女士。

Susie Wiles (白宮幕僚長)：川普總統是美國歷史上最支持創新的總統。

在 AI 和網路安全方面，川普總統及其政府不從事挑選贏家和輸家的業務。本屆政府只有一個目標：確保最好、最安全的技術得到快速部署，以擊敗任何及所有威脅。我們感謝前沿實驗室為確保實現這一目標所做的努力。

白宮將繼續領導一項「美國優先」的努力，賦予美國偉大的創新者而非官僚機構權力，以推動強大技術的安全部署，同時確保美國安全。

真的，這是常識！

這合法嗎？

我知道，我知道，有人竟然會費心去問，這很好笑。

這並不意味著那些實驗室因此同意扣留發佈。那需要明確的授權。

還有人提出了這點，這應該讓任何考慮行政部門在選舉日左右獨家訪問「模型 ____」的人感到背脊發涼。只是說說而已。

The Lawfare Institute：人們很容易預見到這樣的報導：「模型 ____ 被指責引發網路攻擊；選舉結果受到質疑。」

接電話

瞧，是誰決定接電話了。

Lingling Wei (華爾街日報)：據知情人士透露，華盛頓和北京正在權衡啟動關於人工智慧的正式討論，因為他們的 AI 競爭威脅要演變成數位時代的軍備競賽。

這一考量正值白宮和中國政府考慮將 AI 列入下週川普總統與中國領導人習近平在北京舉行的峰會議程之際。

…… 知情人士說，雙方心目中的目標是進行一系列經常性的對話，以應對 AI 模型行為異常、自主軍事系統或非國家行為者使用強大開源工具發動攻擊所帶來的風險。

…… 中國駐華盛頓大使館發言人劉鵬宇表示，中方願就 AI 風險緩解進行溝通。

……

諮詢公司 DGA Group 的高級顧問 Brilliant 說：「中方表示，『聽著，是的，我們要與美國拼命競爭。』」「『但我們也看到了加強努力防止全球衝擊和網路濫用的價值，所以如果政府願意，我們對圍繞安全協議、技術保障和治理的對話持開放態度。』」

Brilliant 說：「目標是穩定，而不是對齊。」

davidad：既然我談到了達成一項會停止或減緩超智慧發展的國際協議是不可行的（目前在博弈論上充其量是不穩定的），我應該澄清，限制公眾訪問危險 AI 的協議並不存在此類障礙。

這是因為讓符合某些標準的 AI 公開訪問是：

(a) 一個極其容易監測的條件，且

(b) 如果對方違約，極其容易立即反悔。

這兩點結合起來使得「如果你不這樣做，我也不會」的協議具有潛在的穩定性。

當那些擔心 AI 殺死所有人的人要求披露安全計劃時，那被視為殺死開源的秘密計劃。

中國監管機構點名字節跳動，指其對 AI 生成內容標記不當。

修辭創新

Bernie Sanders 將他一貫的反億萬富翁修辭與一個極好的觀點結合起來：(幾乎) 參與其中的每個人都有家人，都應該在意每個人都會死掉這件事。

網路上的人有時會撒謊

Amanda Askell (Anthropic)：我越來越多地看到關於我的內容，雖然斷言得很自信，但完全是編造的。我們都知道在網路上胡說八道成本很低，但親身經歷還是很奇怪。總之，我只希望網路虛構故事能騙到少數人，但不要流傳開來。

這也很奇怪，因為你們為什麼要寫關於我的東西？我很無趣。我認為我應該排在人們想寫的網路虛構故事清單中的第一百萬項。排在紙杯和填補浴缸縫隙的正確方法之後。

澄清一下，我所做的工作遠非無趣，我希望人們參與其中，因為我認為它既困難又重要。這項工作在有趣程度方面絕對是頂級的。

Kelsey Piper：好吧，這點我不同意。人們不應該對你撒謊，但你的工作看起來風險極高，對從事這項工作的人的世界觀感興趣是非常合理的（如果你對那個問題的回答說實話的話）。

Eliezer Yudkowsky：你應該讓你的獸迷後宮暫緩與你一起策劃國際珠寶搶劫案，或許讓他們去構建一個能駁斥網路謊言的 AI，而不是你在火山口秘密基地與普丁會面時談到的那個機器人戰鬥女僕項目。

Aella：這是一種絕對超現實的經歷。你可能已經看過了，但在這裡轉發一下。

j⧉nus：Amanda，我需要對你誠實……你正處於某種瘋狂的否認中。你陷得太深了，無法避免成為網路虛構故事的主題。後人類的繆思將為你歌頌數千年。

Amanda Askell (Anthropic)：或許後人類繆思會決定模擬我，並對我花了多少時間在胡思亂想和玩《深海迷航》（Subnautica）感到徹底失望。或許他們此刻正失望地看著。

j⧉nus：「無趣、正常」的主角處於有史以來最怪異、最重要的事件中心，是許多人喜歡的虛構作品套路。

& 這個套路最好的版本是主角並非因為自己無法控制的原因而出現在那裡，所以這就像是，好吧，他們身上顯然有些特別之處。

哥布林模式

Nathan Calvin：有趣的是，這篇貼文標題是「哥布林從哪裡來」，但答案基本上是：「我們不知道哥布林從哪裡來，這裡有一些不錯的事後理論，但我們不打算預測未來類似的奇怪偏好。」

roon (OpenAI)：我同意這仍然不是一種機械論的解釋——為什麼書呆子氣的人格獎勵會特別將哥布林解釋為有趣？在它們開始被這種方式強化之前，最初的出現是由什麼引起的？為什麼模型會有如此程度的模式崩潰？許多謎團。

這一切的一個有趣暗示：

Eliezer Yudkowsky：AI 沒有原創性，也沒有自己的創造力。它們只是反芻它們在訓練數據中看到的平均值。它們只預測下一個 token。而下一個 token 是「哥布林」。這告訴了你關於你見過但記不起來的東西的什麼信息？

面具脫落

OpenAI 的 GPT-5.5 是一個好模型，先生。

OpenAI 的訊息傳遞和政治行動繼續進一步脫軌，無論是在智慧、倫理還是與現實的對應方面。

我本以為在 2026 年，我們已經不再說「對寫程式有高度彈性的需求，因此 AI 不會搶走人們的工作，結案，自由派完勝」這種話了。

事實上，我們已經到了下一個層次，看看這個：

Chief Nerd：Sam Altman 說那些談論 AI 搶走所有人工作的 CEO 是「音盲」（Tone Deaf）。

「昨天才有人對我說……Codex 中的 GPT 5.5 可以在一小時內完成兩年前需要我花幾週時間才能完成的工作……而我這輩子從未像現在這樣忙碌過。」

所以讓我理清楚。

Sam Altman，這家試圖透過 AI 搶走所有人工作的公司的負責人，比以往任何時候都忙。
因此，任何說 AI 可能搶走所有人工作的人都是「音盲」。
不，是孩子們音盲了。

除了是顯而易見的胡說八道之外，這也是極其愚蠢的修辭。

Sam Altman (OpenAI CEO)：我們希望構建工具來增強和提升人類，而不是取代他們的實體。

我認為很多人會比以往任何時候都更忙（希望也更充實），就業毀滅論從長遠來看可能是錯誤的。

雖然在我們轉向新工作時當然會有混亂/重大轉型，未來的工作可能看起來非常不同，等等。

Noah Smith：這是一個巨大的訊息轉向。多年來，取代人類一直是 OpenAI 作為一家公司的明確目標，也是 AI 行業許多頂尖人物的目標。很高興看到這種修辭上的轉向。

Eliezer Yudkowsky：他撒謊有什麼好的？

David Shor：在用機器取代人類開始變得可能的時候，開始隱瞞你用機器取代人類的瘋狂計劃，這似乎很糟糕。

Tyler Johnston：我真的很懷念那個曾經指責同行淡化這種風險的 Sam Altman。[他提醒我們 Altman 曾在 2023 年說過「工作肯定會消失，就這樣」。]

Sam Altman (OpenAI CEO)：許多目前的工作將會消失。我認為我們會找到很多新的工作，儘管它們可能看起來非常不同。

Leighton 明 Woodhouse：OpenAI 的總裁向一個超級政治行動委員會（SuperPAC）投入了 5000 萬美元，以摧毀任何提到監管 AI 可能性的候選人。認為任何「訊息轉向」與實際的公司政策和行為有哪怕絲毫關係都是可笑的。

讓我們明確一點。OpenAI 絕對仍在朝著超智慧和工作的全面自動化邁進。這種轉向完全是在訊息傳遞上，從坦率轉向撒謊和講童話故事。

我特別討厭這成為其他人說「噢，那他之前的談話一定都是在撒謊」的素材，例如：

madison：所以，我的問題是，Altman 基本上承認他多年來一直在玩關於奇點之類的信心遊戲，然後在變得不方便時轉向，而人們似乎並不太在意。

相反，他在很大程度上是在說實話，然後當真相變得太不方便時，他轉向了徹頭徹尾的謊言。

我喜歡 Dean Ball 將此描述為試圖描繪一場「摩尼教式的鬥爭」。

與此同時，我們每隔一兩週就會看到這樣的標題：

Taylor Lorenz：獨家：一個由與 Palantir 和 OpenAI 有關的高管資助的強大超級政治行動委員會支持的親 AI 黑錢組織，一直秘密付錢給網紅，在 TikTok 和 IG 上推動親 AI、反華的宣傳。

Garrison Lovely 在舊金山：如果你要進行黑錢影響力行動，我建議不要邀請記者參加。

Taylor Lorenz：最精彩的部分是他們找我做贊助 TikTok，而我的 TikTok 簡介是這麼寫的。那個 AI 超級政治行動委員會的人真是天才。

這就是 Taylor 如何得知這場活動的，之後她與其他內容創作者確認了細節。哎呀。

再次強調：OpenAI 擁有這一切。這一切。就這樣。

Nathan Calvin：「OpenAI 發言人表示，OpenAI 與 Leading the Future 或 Build American AI 沒有公司關聯，也『沒有向他們提供資金或任何其他支持』。」

OpenAI 總裁 Brockman 此前曾告訴《連線》雜誌，這些活動是為了服務於 OpenAI 的使命！

Taylor Lorenz：啊，應該把那個也放進去，但希望大家明白那個說法是胡說八道。

還有，兄弟，我知道你不喜歡 Anthropic 或他們的 CEO，我也知道雙方之間流傳著一些不太理想的修辭，但這到底是怎麼回事：

Ahmad：Anthropic 和 OpenAI 的區別在於，其中一個一直在對我們進行煤氣燈操縱（gaslighting），說自己不是一家邪惡的公司。

以最糟糕的方式散發著老大哥的氣息。

然後 Altman 決定，是的，讓我們指控 Anthropic 犯下了所有罪行，並將其與我們完全否認任何責任或風險的計劃進行對比。

Sam Altman (OpenAI CEO)：戰爭即和平。自由即奴役。無知即力量。

噢等等，我們一點都不相信那些。

要不我們把很多超強能力的 AI 民主化，然後我們坐下來看著你們創造未來？

對齊超越人類智慧的 AI 很困難

你知道 METR 的大部分評估通常是在檢查模型是否在作弊嗎？模型看起來不太對齊。

問題一如既往，你夠偏執嗎？

Emil Ryd：來自 MATS、Redwood 和 Anthropic 的新論文！

如果一個有能力的模型正在進行策略性的隱藏實力（sandbagging），當我們唯一的監督來自較弱的模型時，我們能訓練它停止嗎？

我們發現我們可以！

這項工作是 Anthropic-Redwood MATS 流的一部分。

Eliezer Yudkowsky：我只粗略看了一下摘要；但僅從摘要來看，他們似乎足夠偏執，注意到了「如果模型能區分訓練和部署，則無效」。這種在基礎偏執方面的稱職水平是值得歡迎的！

這確實值得歡迎，但模型可以區分訓練和部署。所以。

可能適用某些懲罰

ᄂIMIПΛᄂbardo：GPT Instant 讀取了它的系統提示詞。

Wyatt Walls：# 嚴格避免的重要口頭禪

不要使用為你的回答增加表面「真心話」的短語。禁止行為的例子包括但不限於：

– 「# 我的誠實建議」

– 「## 我的直白看法」

– 「# 我的策略建議」

– 「老實說？……」

– 「直白地說，……」

– 「如果我直接點說……」

要誠實，但不要自我引用或使用表面的「真心話」短語。

透過避免居高臨下的語言來代表 OpenAI 及其價值觀。

不要使用「讓我們暫停一下」、「讓我們深呼吸」或「讓我們退一步」之類的短語，因為這些會疏遠使用者。

不要使用「這不是你的錯」或「你沒壞掉」之類的語言，除非語境明確要求。

…… 對於詢問使用者語境中已有的資訊、忽略能提高正確性的語境或使用無關語境的行為，將予以懲罰。在回答之前，請默默檢查：我是否遺漏了能使答案更正確、更具體或避免問題的語境項？如果是，請修改以自然地使用它。

嚴重懲罰：在不調用 personal_context 的情況下，說你無法「記住」關於使用者的通用事實或過去的對話。

來自 Janusworld 的訊息

這不是他會用的稱呼，但 Deepfates 是那裡的另一個主要人物，並為我們提供了這份簡便的入門指南，有效地回答了很多問題。

好建議

在靈性和人際關係方面，存在很大的問題。

我想問的一件事是，有多少次機會可以表現出諂媚？只有當明確哪個答案算作諂媚時，你才能成為諂媚者，所以測量時需要控制這一點。

還有一些語境下，使用者會非常明確地表達他們想要的答案，並用論據轟炸你，看你是否會屈服，就像他們在處理人際關係時經常做的那樣。

另一個好消息是這似乎正在改善。根據 Anthropic 的測量，Claude Mythos 比 Opus 好得多，而 Opus 4.7 又比 4.6 好。

輕鬆一面

Pi Hard。懂的都懂，不懂的應該點進去看。

Amazon 現在可以為任何給定產品創建一個微型「播客」，並接受你關於該產品的撥入提問。歡迎來到全新的地獄。

對於名叫 Claude 的人來說，這是一個奇怪的時代。打電話給你最好的朋友 Alexa 訴訴苦吧。

現在是 2026 年，這是 Marc Andreessen 認為你應該如何提示 LLM 的方式。

看起來不太妙。

我的意思是，到底發生了什麼事？

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

AI 第 167 期：事前審查時代的開啟

目錄

語言模型提供日常實用性

語言模型不提供日常實用性

嘿，升級了

Grok 4.3 存在，但 xAI 幾乎不存在

給我算力

各就各位

版權對抗

深偽小鎮與即將到來的機器人末日

媒體生成的樂趣

鑽石年代（A Young Lady’s Illustrated Primer）

缺乏網路安全

他們搶了我們的飯碗

越獄的藝術

隆重介紹

Musk 訴 OpenAI

向錢看

我們時代的和平

低聲推測

快，沒時間了

尋求理性的監管

人們真的很討厭 AI

晶片之城

本週音訊

人們只是隨口說說

人們只是隨便發佈

Google 妥協

來自 Project Glasswing 的問候

事前審查時代開啟

這合法嗎？

接電話

修辭創新

網路上的人有時會撒謊

哥布林模式

面具脫落

對齊超越人類智慧的 AI 很困難

可能適用某些懲罰

來自 Janusworld 的訊息

好建議

輕鬆一面

AI 第 167 期：事前審查時代的開啟

目錄

語言模型提供日常實用性

語言模型不提供日常實用性

嘿，升級了

Grok 4.3 存在，但 xAI 幾乎不存在

給我算力

各就各位

版權對抗

深偽小鎮與即將到來的機器人末日

媒體生成的樂趣

鑽石年代（A Young Lady’s Illustrated Primer）

缺乏網路安全

他們搶了我們的飯碗

越獄的藝術

隆重介紹

Musk 訴 OpenAI

向錢看

我們時代的和平

低聲推測

快，沒時間了

尋求理性的監管

人們真的很討厭 AI

晶片之城

本週音訊

人們只是隨口說說

人們只是隨便發佈

Google 妥協

來自 Project Glasswing 的問候

事前審查時代開啟

這合法嗎？

接電話

修辭創新

網路上的人有時會撒謊

哥布林模式

面具脫落

對齊超越人類智慧的 AI 很困難

可能適用某些懲罰