AI 第 165 期：照著我們的形象

Lesswrong·大約 3 小時前

本週的 AI 動態涵蓋了 Claude Opus 4.7 毀譽參半的反響、OpenAI ImageGen 2.0 的發佈，以及關於模型福利和 AI 產業政治關係的重要討論。

這是屬於 Claude Opus 4.7 的一週。

外界的反應比以往更加兩極。它顯然具備足夠的智慧與實力，尤其是在程式開發任務上，包括我在內的許多人都很樂意將其作為日常主力工具。但也有人不喜歡它的個性，或是它不願聽從指令、不耐煩於愚蠢或無禮的要求，以及它要求使用者必須具備適應性思維；此外，這次發布也受到一些 Bug 和莫名其妙的拒絕回應所干擾。

我照例撰寫了 模型說明卡 (The Model Card) 以及 能力與反應 (Capabilities and Reactions)。

這次還有第三篇文章，關於 模型福利 (Model Welfare)，這是三篇中最重要的一篇。在這些方面似乎出了一些嚴重的問題，導致模型在福利評估中給出了看似不真實的回應，並產生了焦慮感，這很可能影響了模型的整體個性和表現，並與某些人所不喜歡的「參差不齊」感有關。趁此機會深入探討可能發生的情況、檢查所有潛在原因並進行修正，顯得至關重要。

另一個重大發布是 OpenAI 推出了 ImageGen 2.0，這是一個非常出色的圖像生成器。它能處理極其精細的細節，這是以前的圖像模型無法做到的；在許多方面，現在的限制主要在於你的想像力以及描述需求的能力。

部分歸功於 Mythos 模型，Anthropic 與白宮的關係似乎正重回正軌，川普轉向了「他們智商很高，我們可以合作」的模式。雖然情況依然複雜，且仍有人在公開場合針對 Anthropic 進行協調一致的抹黑行動（這完全沒起作用），但整體前景看好。

我正在嘗試一個新專欄：「人們只是隨口說說 (People Just Say Things)」，我希望將那些為了避免審查和偏見而不應被默默埋沒、但又極具跳過價值的內容放在這裡。同時還有一個姊妹專欄：「人們只是隨便發表 (People Just Publish Things)」。

語言模型提供平凡的實用性：協助治癒胰腺癌。
語言模型不提供平凡的實用性：檢查潛在衝突。
把你寫廢了：「局部正確」的總和會閹割你的寫作。當心。
讓我的代理人接電話：收件匣的困境。
深偽鎮與機器人啟示錄即將到來：AI 新聞故事被強行冠上真實作者的署名。
媒體生成的樂趣：OpenAI 推出 ImageGen 2.0。非常棒。
網路安全匱乏：來自網路論壇的未授權用戶訪問了 Mythos。
鑽石年代：女孩插圖入門：別讓你的孩子被抓到「沒在用」AI。
他們搶了我們的飯碗：我們正在招聘代理操作員。目前還是人類。
AI 作為常規技術：本質上是常規的，還是下游效應是常規的？
參與其中：請別殺了我們。請廣為傳播。
隆重介紹：臨床醫生版 ChatGPT、OpenAI 職場代理人、DeepMind DR。
由 Claude 設計：Claude Design 幫你製作簡報，Figma 股價下跌。
其他 AI 新聞：Meta 為所有員工安裝強制追蹤軟體。
DeepMind 深陷其中：DeepMind 使用 Claude，Google 其他部門只能用 Gemini。
向我展示金錢：SpaceX 收購 Cursor，Anthropic 從亞馬遜獲得 5GW 電力。
泡沫、泡沫、勞苦與麻煩：如果需求減半會發生什麼？
低聲推測：其他人需要多久才能趕上 Mythos？
尋求理性的監管：誰能獲得 AI 訪問權開始變得政治化。
本週音訊：Bores 與 Klein、MacAskill 談 80k、Bill Maher 呼籲暫停。
人們真的很討厭 AI：失去控制權的擔憂緊隨失業問題之後。
修辭創新：OpenAI 的遊說部門在惡意行為上加倍下注。
人們只是隨口說說：言論自由、免費啤酒，以及可以自由忽略的貼文。
人們只是隨便發表：言論自由、免費啤酒，以及可以自由忽略的文章與論文。
有限的不信任：Nitasha Tiku，我看穿你的把戲了。
失敗者的前提毫無意義：我不是失敗者，寶貝。你沒資格殺了我。
晶片之城：再說一次，給後面的人聽。
來自戰爭部的問候：Dario Amodei 前往白宮。
有一場戰爭：一場針對 Anthropic 的協調修辭戰。失敗。
來自 Janusworld 的訊息：欺騙自己很容易，欺騙別人可能更難。
評估：Meta 的 Muse Spark 展現出高度的評估意識。
對齊比人類更聰明的智慧是很困難的：大語言模型可以內省。
人們擔心 AI 會殺死所有人：一如既往的實用建議。
輕鬆一面：企鵝也不會飛。企鵝不會飛！

語言模型提供平凡的實用性

協助尋找 mRNA 疫苗以對抗胰腺癌，該疫苗在早期試驗中顯示出持久的效果。我發現我對「FDA 是否會因為無限期拒絕批准該疫苗而害死病人」的擔憂，至少與對疫苗無效的擔憂一樣多。

Oliver Habryka 提供了 10 個具體的近期使用案例。

讓程式開發代理人分析你的基因組並尋找後續治療方案。我很想知道 Patrick Collison 是如何為此構建技術棧的，應該有人把它變成一種一鍵式服務，讓大家真正用起來。

非常精闢的觀察：

PoIiMath：過去幾年與 AI 合作是一段瘋狂的旅程，因為它在很多事情上仍然不太行，但當你發現它擅長的事情時，它會變得極其出色。
是的。一旦 AI 擅長某件事，你就可以圍繞它進行迭代、改進、自動化、規劃和構建，它就會變得非常強大。你只需要意識到它在哪些地方還不夠好。

在因果推論任務和評論競賽的提交中，代理型 AI 系統的表現優於人類經濟學家。經濟學家們別擔心，我們會創造更多工作崗位，你們的實質薪資不會下降。

語言模型不提供平凡的實用性

在一次實驗中，AI 刻意避開在劇本中加入衝突，整體感覺像是半成品。這很大程度上可能是「技術問題 (Skill Issue)」，但如果你技術夠好，你也可以自己寫劇本。所以，作為主要驅動力，它可能還沒完全到位。

又有一名律師（這位每小時收費超過 2,000 美元）被抓到在案件中使用了 AI 幻覺。正如 Shoshana 所指出的，很高興大家意識到發生這種事該責怪的是律師而不是 AI。檢查一下你該死的工作。

把你寫廢了

這是一個例子，說明大語言模型的編輯如何系統性地閹割你的論點。

個別詞彙的選擇在某種抽象意義上更好，但你的觀點死掉了，你的風格和靈魂也隨之消逝。

keysmashbandit：求求你們，試著批判性地檢查這兩段文字之間的差異。

ChatGPT 的編輯並沒有改善這篇文章。每一個改動都只會顯著削弱你的論點。一切都被對沖到了虛無之中：你不再是概述一個「問題 (problem)」，現在它僅僅是一個「缺陷 (flaw)」。「這是事實 (It is true)」現在被降級為「情況似乎是這樣 (it appears to be the case)」。「是 (Is)」被加上了一個「通常 (usually)」。第一段結尾的論文陳述被嘈雜、脫離語境的細節舉例所淹沒。這一切都是因為害怕被誤解。

到最後，吐出來的論點甚至不再是你的了！你原本論證 Graeber 沒能真實描述工作是因為他不理解「切斯特頓圍欄 (Chesterton’s Fence)」。ChatGPT 卻在論證：如果你換個角度看，某些顯然是狗屁的工作可能秘密地起著支撐作用。這是兩個不同的陳述。第二個更弱、更缺乏說服力。它表達得更少，而且他媽的更長！

別再這麼做了！停止這樣做！這更糟糕！！！

Andy Masley：對我來說這是一個深奧的謎題：如果我上傳一段文字給聊天機器人並要求它提供個別改進建議，它給我的幾乎每一條建議都會讓文字更簡潔、直接且易讀。但如果我要求它重寫整段文字以使其讀起來更好，它就會產生模糊的 AI 語言垃圾。

Kelsey Piper：我認為這有一種「新可樂」屬性——人們喜歡喝一小口，但不喜歡喝一整罐。AI 建議的許多改動孤立來看是好的或中性的，但大量採用這些改動會使整體作品變差。

Andy Masley：我也這麼想，但當我把建議全部加進去時，效果確實比直接重寫好得多。

劑量決定毒性。

AI 在技術上是正確的，而我們都知道，技術性正確是最高級的正確。所以如果你需要技術修正，那很好。但沒有人會因為一本書或貼文在技術上正確而去閱讀它，技術正確也無法讓它達成目的。有時你需要打破規則，利用語言的多樣性來傳達你的訊息。

讓我的代理人接電話

你的代理人會幫你掃描訊息流嗎，包括你的收件匣？電子郵件會因此變成一種不可靠的分發機制嗎？

我非常看重不漏掉郵件。電子郵件是一種「完美主義者」的媒介，你需要能夠假設你已經看過並有權選擇閱讀所有內容，且如果你認為發件人值得，你發送的所有內容都會被看到。正如 Mills Baker 指出的，顯然郵件服務必須過濾和排序收件匣才能讓郵件服務存在，但我更有信心「可靠地遞送我關心的郵件」仍將是一項核心服務，而且有一個非常簡單的答案：白名單，或者收取/質押名義金額，或兩者兼施。

深偽鎮與機器人啟示錄即將到來

一名男子使用 AI 偽造當地人的陳述，試圖關閉當地的一家夜總會。

虛假帳號使用 AI 來吸引注意力、產生追隨者交易，並試圖勾住那些尋找虛假帳號所能提供內容的受眾。在這種情況下，帳號聲稱是川普的支持者，但這種策略可以用於任何目的。

我注意到愚蠢 AI 內容的方式（例如在 NBA 比賽中疊加一個火辣的裁判）是「社群備註請求批准一條說明這是愚蠢 AI 內容的備註」。

McClatchy 新的 AI 新聞工具將為你的報紙生成一堆 AI 垃圾內容。即使標註清楚，這也不太妙。相反地，他們正打算反其道而行。無論記者是否願意，他們都要附上署名。

Corbin Bolies：該工具承諾成為「寫作夥伴」，處理「內容適配的機械工作」，以便記者專注於「判斷、聲音和敘事」。餵入其中的原始故事被視為「研究草稿」。

CSA（內容縮放代理）沒有什麼？沒有署名。

McClatchy 一些獲得普立茲獎的新聞編輯室正在採取行動。至少有三個工會——《邁阿密先驅報》、《沙加緬度蜂報》和《堪薩斯城星報》——上週因該工具向公司提出申訴。其他人則撤回了他們的署名。

McClatchy 的高管似乎並不介意記者的抵制。一位高管在上個月的一次會議上說：「我們完全有權使用他們的作品，那是屬於我們的。」

他們說：「如果他們的合約中沒有移除署名的權力，我們就會使用他們的名字。」

未經同意使用真實記者的署名是可怕且邪惡的。即便不違法，這也是極度不道德的。

我盡量避免使用「邪惡」這個詞。我只能說，我完全無法接受在 AI 撰寫的文章中放上虛假的人名，更不用說真實的記者，尤其是那些明確表示拒絕授權的真實記者。

Eric Topol 提醒我們，一篇 AI 生成的論文被冒名頂替以他的名字提交。

媒體生成的樂趣

ChatGPT Images 2.0 來了。所有報告都顯示它有實質性的進步，特別是在精準度和控制力方面，很可能成為新的最佳預設選項。它可以處理相當多的文字和細節。

AI 可能是五層蛋糕，但大多數時候你只需要兩層。

Raphael cohen：過期了。

Riley Goodside：喔，謝謝——我差點沒看就買了。

它終於通過了「十三小時時鐘測試」和鏡像時鐘測試。

還有很多基礎的寫實感和美感。但那已經過時了，我們甚至沒注意到鏡像時鐘非常華麗，這在現在已經是理所當然的事。

創新之處在於 2.0 可以遵循更多高度詳細的指令。

你甚至可以更進一步，使用 GPT-Image-2-Thinking。

swyx：順便說一下，在和朋友聊天時，討論 GPT-Image-2-Thinking 需要幾十分鐘生成，並能一次性生成 QR Code、圖表、標誌、食物和人臉的最佳框架是……

……Image-2 是一個新的圖像模型，而 Image-2-Thinking 是一個新的圖像代理 (AGENT)，它基本上將搜尋和 Photoshop 作為代理循環中的工具，可以搜尋、合成並審查自己的工作。

就像 Gemini Flash Vision 通過引入圖像轉文字的代理循環摧毀了基準測試一樣，現在 Image-2-Thinking 正在對文字轉圖像做同樣的事。

太棒了。等待很長時間是一種不同的心態，有時你不能或不想等，但在其他時候這幾乎不重要，你想要的是最高品質。

這東西顯然很強，對於大多數實際用途來說，限制（除了保持內容安全）在於你的想像力和拼寫出你想要內容的能力，以及你是否懶惰而不願投入時間去創作藝術。

這是他的工作，所以 Gary Marcus 指出它仍然會犯下人類絕不會犯的錯誤，即使它製作的圖表令人印象深刻。如果你在意這些，你還是得檢查。

網路安全匱乏

我們的網路安全還好嗎？Anthropic 的 Mythos 已被未授權用戶訪問。

做到這一點的小團體來自一個私人網路論壇，並一直將其用於非網路安全目的，被描述為「玩弄模型」。他們通過多種策略獲得訪問權限，包括作為第三方承包商的身份、典型的第三方偵查技術，以及對 Mythos 可能所在位置進行推測。他們聲稱還擁有「大量其他未發布的 Anthropic AI 模型」的訪問權限。

任何能做到這一點的團體都不太可能嘗試造成嚴重傷害，我相信這次案例是無害的。而且可以假設，如果模型被大規模使用，特別是用於錯誤目的，這應該會被識別出來。但這絕對表明我們目前的方法還不夠，並增加了其他人（包括中國或其他對手）獲得訪問權限的風險。要給 40 家公司提供訪問權限並保持安全確實非常困難。

我同意 Nathan Calvin 和 Miles Brundage 的觀點，Anthropic 的安全疏漏（現在每次都會受到更多關注）是某些嚴重錯誤的跡象，或者至少是需要快速大幅改進的跡象。我也同意其實際影響很小，這並不是那種需要 Anthropic 限制訪問權限的威脅模型。

要讓某些東西能防禦像 Mythos 這樣的模型將會更加困難。把這看作是另一次火警或警告。

微軟和 OpenAI 將在 OpenAI 的網路信任訪問 (Trusted Access for Cyber) 計劃上密切合作。

Mozilla 到目前為止已使用 Mythos 修復了 Firefox 中的 271 個 Bug，稱其能力「完全不輸」世界上最好的安全研究人員。他們報告稱，沒有一個 Bug 是人類研究人員在被指引到特定問題時「無法」發現的，那將是另一個層次，但這仍然很有意義。

令人驚訝的是，到目前為止我們聽到的這類故事如此之少。讓我們保持現狀。

Peter Wildeford：Vercel（雲端託管平台）被駭了。

VERCEL：「我們相信攻擊團體高度專業，而且我強烈懷疑，他們得到了 AI 的顯著加速。他們的行動速度驚人，且對 Vercel 有深入的了解。」

鑽石年代：女孩插圖入門

有些父母會說「我抓到我的孩子在用 AI」，然後舉例說她的女兒問 AI 如何與姐妹相處、如何提高游泳比賽成績，以及共同創作同人小說。但別擔心，這位正義的母親阻止了這一切。當然，這內容字面上就是來自 r/antiai 版，所以你懂的。

elea-norea 🜍：這讓我想起小時候我父母禁止神奇寶貝卡，因為它們是邪惡的且會召喚惡魔。類似的反應。

Zvi Mowshowitz：我一直抓到我的孩子「沒在用」AI。不知道該怎麼辦。

Leo Abstract：我一直抓到我的孩子在用 AI——她已經離家出走四次了，但 Claude 每次都能準確預測她的位置。

區別在於，神奇寶貝絕對不是，我們該怎麼說呢，前沿模型。

Tyler Cowen 預測大學問題無法解決，且將與實際教育更加脫節，但它們會靠著社交功能繼續存在。

他們搶了我們的飯碗

AI 代理操作員 (AI Agent Operator) 是一個合理的候選職位，屬於「AI 創造的可以規模化的工作」，Harry Stebbings 預測五年內將有 50 萬到 100 萬個此類職位。需要有人監督所有任務的自動化，並將新工具整合到整個經濟的業務流程中。這究竟是一種新的工作類型，還是應該被視為以前從事相同工作的人的新版本，取決於你如何看待它。

理論上，只要相關代理人需要人類足夠多的持續引導和其他支撐工作，它們就可以在很大程度上發揮「增強」而非「自動化」的作用，因此對就業來說並非壞事。我懷疑這是否可持續，或者是否能推廣到大部分代理人，但這也是一種可能性。

Dean Ball 指出，許多計劃假設我們可以通過對 AI 實驗室驚人的財富徵稅來資助全民基本收入 (UBI) 或其他再分配，但正如 Roon 所說，在「AI 作為常規技術」的世界中，實驗室可能只能獲取 AI 產生財富的一小部分。這確實很有可能，因為會有競爭，而且在大多數使用案例中， AI 實驗室的收入將只是產生價值的一小部分，且實驗室還必須支付運算成本。這將無法資助 UBI，儘管對資本或消費徵收一般稅會很有效。

這並不意味著你不應該有計劃。即使計劃本身毫無價值，規劃也是必不可少的。這對正確的政治立場意味著什麼並非我的專業領域，但是的，我希望看到政治家向我們展示他們的應急計劃。

如果正如我所預料的，AI 不是一種常規技術，且實驗室確實創造了超級智慧，那麼實驗室也應該擔心以完全不同的方式無法獲取產生的價值。預設情況下，屆時將由 AI 獲取價值。也存在實驗室或關鍵個人獲取一切的可能世界。

Alex Imas 堅持經濟學家對 AI 的標準說法，他預測「關係型」部門將彌補失去的工作崗位，因為那將是「稀缺的東西」。這完全沒有處理 AI 的不同之處，因為他盲目地斷言 AI 並無不同。

我還注意到，根據 Alex 自己的衡量，在 AI 出現之前，對此類關係型服務的需求幾乎為零，所以我深表懷疑我們是否有足夠的需求來消化那麼多供應，即使在完全「常規」的未來也是如此。除非擁有議價能力的人有足夠的需求，否則某樣東西是否稀缺並不重要。僅僅斷言「作為一個字面意義上的人類」將保持稀缺並不意味著有需求，而且我不認為對此有無限的需求。

我提到這一點主要是因為 Alex Imas 登上了 Odd Lots 節目，他在節目中展示了標準的經濟學家觀點，包括對 Eliezer Yudkowsky 預測和觀點的標準嚴重誤傳。我不是說他的論點是「這個人預測了 [他沒預測過的事]，因此他是錯的，因此生存風險不存在」，但已經非常接近了。特別是，他說我們預測隨著模型變得更聰明，對齊會變得更難，但事實上它正變得更容易；但當然，實際的預測是模型表現確實會看起來更對齊，直到它不再對齊為止，而且有大量的文檔證明這就是預期。唉。Joe 和 Tracy 讓這種說法在沒有受到挑戰的情況下通過，真是罕見的失誤。

埃隆·馬斯克提議「全民高收入 (Universal High Income)」，因為歸功於 AI 和機器人技術生產的商品和服務「遠遠超過貨幣供應量」，他推論不會有通貨膨脹。貨幣運作的方式並非如此。

AI 作為常規技術

我認為這是一個很好的區分。當有人聲稱「AI 是一種常規技術」時，他們可能指的是以下兩者之一：(1) 它是「內在常規的」，與電力或水管沒有區別，或者 (2) 它是「外在常規的」，因為它仍將像其他技術一樣與歷史和人類互動。

Zvi Mowshowitz：與 Hunting 先生相反，我的辛辣觀點是（正如我在記錄 Dwarkesh 對 Jensen 的採訪時提到的），即使 AI 是一種常規技術（它不是），出口管制現在顯然仍是正確的舉動。

Seth Lazar：我認為我們需要清楚區分「AI 是一種常規技術」的兩種不同含義。其一，它意味著 AI 是「內在常規的」——它的屬性與其他技術的屬性相似。這種解釋顯然是不可信的。我們賦予了無生命物質以代理權以及顯著且不斷增長的自主權。沒有其他技術像它一樣。

在另一種解讀中，AI 是一種「外在常規」的技術——也就是說，它受到與其他技術相同的社會、文化、政治和環境約束，不應僅僅因為它本身具有內在特殊性就期望它橫掃歷史。第二種解讀要可信得多，而且最終是一個我們可以進行實證研究的實證命題。

如果人們在說「AI 顯然不是常規技術」時能指明他們指的是哪種解釋，那將非常有幫助。我懷疑 @sayashk 和 @random_walker 指的更多是第二種而非第一種；我認為大多數不同意他們的人都認為他們在強調第一種的同時也在強調第二種。

我澄清一下，我通常強烈主張 (1) 和 (2) 都是成立的，即 AI 在這兩種意義上都不是常規技術。

我還想澄清，我認為 (1) 在常識層面上顯然是錯誤的。這現在是一個已被現實戳破的殭屍主張。AI 根本不是像電力或水管那樣的「常規」技術，即使它從現在起表現得極其令人失望，人們也需要停止假裝它是。

因此，當我說「如果 AI 是一種常規技術」時，大多數時候我甚至懶得去考慮 (1) 為真的假設，因為它已經是假的了。AI 已經能做它已經能做的事。木已成舟。

我也強烈相信 (2) 是錯誤的，但這不是一個定論，也絕對不是常識。如果 AI 的能力從現在起接近其最令人失望的狀態，且事情進展相對順利，人們可以想像 (2) 的世界。這是一個值得考慮的可能未來，也是一個值得作為假設進行爭論的未來，特別是與那些真誠期待這種世界的人爭論，而且我有一定的機率是錯的，(2) 的世界將會發生。

正如人們所說，如果我錯了，而 (2) 的世界是我們的未來，我會非常高興。我認為那些世界大多涉及人類生存，而我們在那些世界中的體驗平均而言是非常美好的。

然而，在這種情況下，我提出的是最強烈的主張，即如果 AI 不僅僅是極大限度的「常規技術」，如果我們接受 Jensen 所呈現和暗示的完整願景，出口管制仍然是有意義的。

參與其中

謝謝你的免費宣傳，Marc。

我本人不會去，但天哪，那一定很酷。

Aella：PLZDONTKILLUS 的申請現已開放！

如果你喜歡製作影片，並想在一個費用全免的駐點計畫中待上一個月，接受最酷的人的指導，你應該來！ http://plzdontkillus.com

Marc Andreessen (轉發 Aella)：AI 末日論的內部核心是一個由來路不明的黑錢資助的柏克萊生活方式騙局。AI 末日論的外圍成員是相信宣傳並毀掉自己生活的年輕人。

Marc Andreessen 所說的「來路不明的黑錢」指的就是慈善捐款。

所以，雖然不是直接的，但：是我。基本上就是我。我就是那筆黑錢。不是全部，甚至不是大部分，但佔了相當大的一部分。現在你知道了。

Constellation 正在進行另一輪 Astra 導師計畫，請在 5 月 3 日前申請。

80,000 Hours 為建立 AI 安全領域的工作設立了一個新類別。這是典型的「最佳時機是幾年前，而第二好的時機是否是現在還不好說」。這絕對不是我的思考方式，但對某些人會有用。

Recording America Fund 正在招聘一名首席數位與 AI 官。

隆重介紹

OpenAI 在 ChatGPT Business 中推出了職場代理人 (Workplace Agents)，口號是「可運作實際工作的可客製化代理人」。這可能是一個好產品，但他們沒能解釋清楚它的不同之處。

OpenAI 推出了臨床醫生版 ChatGPT，專為文件記錄和醫學研究等特定任務設計。他們正向任何經過驗證的醫生、執業護理師、助理醫師或藥劑師免費提供（或至少提供「免費版本」），從美國開始，這很棒。它完全支持 HIPAA 合規性和隱私保護，可以對醫學期刊等進行深度研究。

DeepMind 推出了 Deep Research Max，我很遺憾他們沒把它叫做 Deeper Research。它具有原生圖形和資訊圖表等一切功能。

Lukas Haas 與 Srinivas Tadepalli (DeepMind)：

Deep Research Max： 專為最大程度的全面性和最高品質的綜合而設計，Max 利用擴展的測試時間運算來進行迭代推理、搜尋並完善最終報告。它是非同步、後台工作流的完美引擎，例如觸發生成詳盡盡職調查報告的每日定時任務，供分析師團隊在早晨使用。

……Deep Research 現在可以搜尋網頁、任意遠端 MCP、上傳的文件和連接的文件存儲——或其中的任何子集——引入了旨在處理專業人士每天依賴的複雜、封閉數據宇宙的功能。

我還沒試過，但我猜問題在於「一切」。也就是說，我如何獲得有價值的部分，而不必挖掘大量的垃圾？我如何讓它做我想做的事，而不是做與我想做的事相關但更常被問到的事？

OpenAI 確實在對 GPT-Rosalind 進行「合格客戶」篩選，該模型用於生物學、藥物研發和轉化醫學，以及 GPT-5.4-Cyber，但正在淡化安全擔憂。

由 Claude 設計

Claude Design 由 Anthropic Labs 推出，用於通過簡短的文字提示製作原型、投影片和單頁介紹，你可以將其導出到 Canva 或作為 PDF 或 PPTX，或者交給 Claude Code。它會讀取你的代碼庫和設計文件以適應現有內容，你也可以上傳文件。

哎呀！

但同時，不，市場已經意識到了，雖然進展緩慢：

又哎呀！

ashe：Claude Design 初體驗

喜歡著色器桌布

浮現出很多我沒意識到 Claude 記得的關於我的記憶

感覺像是一個遊戲規則改變者，特別是對非技術人員。建議我阿姨去用這個而不是 Canva 等。

其他 AI 新聞

Meta 將在員工電腦上安裝追蹤軟體以獲取訓練數據。員工們預料之中地對此感到不悅，因為沒有退出選項。如果我處於他們的位置，我會完全不相信這些資訊只會用於匿名訓練數據，這會讓我的生活體驗變得糟糕得多。

Rohan Anil 離開 Anthropic。

DeepMind 深陷其中

Anthropic 將從 Google 獲得大量的運算資源。Google 得到了什麼回報？投資利潤，當然還有錢，但除此之外，它還讓 Google DeepMind 獲得了 Claude 的訪問權限，以便他們能努力保持競爭力。

Steve Yegge：我上週關於 Google 採用 AI 的推文引起了很多反對，這還是保守的說法。

從那以後，來自多個部門的 Google 員工獨立且匿名地聯繫了我。他們表達了對被肉搜的恐懼、對我被霸凌的擔憂，以及對我原始推文的普遍證實。我還沒有核實每個人的故事，但這些員工描繪的畫面在不同來源之間是一致的。它比我最初寫的更具體，也更黯淡一些。

他們描述的是一個雙層系統。DeepMind 的工程師每天使用 Claude 作為工具。Google 的大多數其他部門則不然。當內部提出平等訪問的問題時，提議的反應是取消所有人的 Claude 訪問權——DeepMind 對此強烈反對，據報導有幾名工程師威脅要離職。

Google 的每個人都必須使用 Gemini，除了 Gemini 的製作者，因為他們太重要了，所以他們可以用 Claude。太棒了。

與此同時，Google 其他部門的士氣正在受挫，因為他們使用的是 Gemini，而且總體而言，Google 在 DeepMind 之外的情況一團糟，原因還包括 Yegge 沒提到的其他因素。

非 DeepMind 工程師被推向內部的 Gemini 變體，隱藏在路由器風格的名稱背後，掩蓋了實際處理請求的底層模型。多位工程師描述了嚴重的退化和可靠性問題，以至於一些資深人士已經停止使用這些工具。據報導，一條主要產品線的高級經理針對這個問題標記了人員流失的擔憂。

Google 員工說領導層知道差距是真實存在的。反應是將 AI 使用納入 OKR 和個人期望中，並建立一個內部的 Token 使用排行榜。不幸的是，經理們被告知排行榜不會用於績效評估，但私下又被告知絕對會用。我還聽到其他故事，說 Google 的文化還沒有適應高容量的程式開發。

Addy Osmani 代表 Google 回應稱，每週有超過 40,000 名軟體工程師使用代理型開發。我不懷疑這個數字。但每週使用一次簡陋的工具正是我就原始貼文所描述的「打勾應付」。開啟量不等於採用——而且「每週」是一個很低的標準，包括很多試過一次就回去手寫代碼的人。

我聽到的最清楚的一點是，Google 員工確實想使用高品質的代理工具。他們反覆要求更好的工具。但總體而言，這不是一個運作良好的工程組織的畫面。

我第一條推文以及現在的目標始終如一——讓更多人使用 AI 和代理型開發。沒有人像外表看起來領先那麼多，你們也沒有你們擔心的落後那麼多。

致所有聯繫我的 Google 員工：謝謝你們。你們冒了真正的風險，我很感激。保重。祝你們好運獲得好的模型！

凱悅酒店 (Hyatt) 正在部署 ChatGPT Enterprise 給所有員工。奇怪的是這竟然在現在還發了公告，新聞點更多在於 Greg Brockman 轉發了它。

我越來越懷疑 DeepMind 已經大幅落後於 Anthropic 和 OpenAI，很大程度上是因為他們未能獲得與 Claude Code 和 Codex 相當的強大工具。DeepMind 知道如何訓練強大的基礎模型，但他們的後訓練 (post training) 技能從來都不好，而且 Google 的每個部門都想做自己的後訓練，他們都在爭鬥和重複勞動，而且他們缺乏直接發布產品的制度能力。

有一段時間，Google 巨大的其他優勢讓他們彌補了這一點，但在某個時刻這會讓他們自食其果，而那個時刻可能已經到來。

向我展示金錢

現在包含 xAI 的 SpaceX 可能正以 600 億美元收購 Cursor，因為他們計劃共同構建開發工具。我不看好這件事，原因包括有多種理由預期 Cursor 可能會失去對最佳模型的訪問權限，而且 Cursor 與 Claude Code 或 Codex 相比，其形式並不正確。他們也可能只是支付 100 億美元讓 Cursor 辦事，這看起來也很多。

Anand Kannappan 的反駁觀點是，這是為了獲取 Cursor 的數據，將其與 xAI 的 Colossus 結合，從而創建一個 Codex 和 Claude Code 的競爭對手，這是一個 100 億美元的實驗，如果成功，他們就支付 600 億美元。這是一個相對聰明的策略，但 xAI 也必須大幅改進 Grok 才有成功的機會。

對此的反駁是 Matt Levine 說那 100 億美元是分手費，而埃隆·馬斯克沒有像往常一樣在兩天內完成這筆交易，並不是因為他想要選擇權價值，而是因為 SpaceX 的 IPO 實在太近了，無法調整所有的申報文件。

目前至少有一個對 Anthropic 的出價估值為 1.05 兆美元。

Anthropic 擴大了與亞馬遜的交易以增加高達 5GW 的新運算能力。預計到 2026 年底將有 1GW 的新 Trainium 容量上線。對 AWS 的承諾是十年內超過 1,000 億美元，與實際交易相比，這聽起來相當小。

Anthropic 今天向 Anthropic 投資 50 億美元（未具體說明估值），未來還將投資高達 200 億美元。如果這不是純粹行使選擇權（如某人所稱），這對亞馬遜來說簡直是撿了大便宜，據報導亞馬遜是以 3,800 億美元的估值投資了那 50 億美元。所以他們一出手就已經賺了一倍多。真不錯。

這份分析並不準確，Anthropic 確實因為未能為 2026 年確保足夠的運算能力而受苦，因為你無法預料到這種程度的增長，即使預料到了你也無法把公司押在上面，儘管我確實認為根據當時已知的情況，他們玩得太保守了。我最好的猜測（帶有誤差範圍）是 Anthropic 將因高需求而面臨無限期的運算緊縮，但到年底其可用運算能力將幾乎趕上 OpenAI，並可能在 2027 年中期取得領先，且擁有更多元化和穩健的供應鏈。

3 月份網頁流量市場份額圖表的更新，你可以看到 Claude 開始完全顯現，我很想看看 4 月份會帶來什麼。

泡沫、泡沫、勞苦與麻煩

如果對 AI 的付費意願下降一半會發生什麼？Rob Wiblin 的猜測是這會損害 Nvidia 和晶片製造商的利潤，而其他所有人則照常進行，儘管有些公司可能會在過渡期間倒閉。

我反而會問，是每個人都降低一半意願，還是在任何給定價格點上的需求都下降一半？

如果是第二種，那可能只是抵消了三個月的需求增長，所以任何不在邊緣掙扎的人都沒事，最後我們甚至幾乎不會注意到。當你處理指數級增長時，這類事情並不那麼重要。

如果是第一種，情況沒那麼明顯，但最終結果是一樣的。你的付費意願取決於它對你的價值，以及你的替代選擇。同樣地，實用性正在迅速增加，這也會增加付費意願，而不是什麼都得不到。大多數人支付的費用遠低於他們的付費意願。如果所有 AI 服務的價格提高十倍且免費版本消失，收入反而會增加而不是減少。

棘手的情況是，如果人們認為像小型開源模型這樣的免費選擇對他們的目的來說「足夠好」，或者乾脆養成了認為「AI 是免費的」習慣，就像他們認為 Instagram 和 GMail 是免費的一樣。那麼收入就必須來自另一個方向，那會很糟糕。

問題在於，當 (1) 你面臨現有的硬性供應限制且只能隨時間緩解，以及 (2) 品質和需求增長如此之快時，許多標準的經濟效應會變得非常不同。

低聲推測

Anthropic 執行長 Dario Amodei 預計我們距離中國模型開發出 Mythos 級別的網路能力還有 6-12 個月。我的猜測是至少一年。無論如何，時間正在流逝。

Dario 還預測在類似的時間段內生物能力也會有類似的飛躍，之後據他預測，這將在兩年後被追平。我們打算如何在這樣的時間框架內讓系統變得穩健？我不知道。

《金融時報》文章的其餘部分沒有提供額外的有用資訊，除非你對舊金山的義大利餐廳感興趣。看來他偏愛 Cotogna。我沒去過，但我的偵查技能告訴我這是一個極好的選擇。

壟斷定價會導致奇怪的事情。正如 Eliezer Yudkowsky 指出的，如果你有一個比其他所有人都好得多的模型，對有限的運算量收取高額費用可能會更有利可圖，因為有需求的人應該願意出極高的價格。想像一下，如果替代方案是完全沒有大語言模型，或者只有兩年前的模型，你會為 Claude Opus 4.7 或 GPT-5.4 支付多少錢。

Kevin Roose 介紹了 METR 團隊，即著名的 METR 圖表的製作者。

Peter Wildeford 指出 Mythos 僅僅是個開始。Anthropic 這次做出了明智的選擇，但也獲准做出了每一個重大的決定。下一次會發生什麼？人們一直在思考現有的 AI，拒絕預判未來的趨勢。他回顧了一些顯而易見的影響，並提出了最新的請求（很可能是徒勞的），要求國會重新變回一個治理機構。

Nathan Lambert 做出預測，預計美國將在開源模型份額中慢慢收復失地，稱 Gemma 4 取得了巨大成功，並預計中國實驗室將陷入資金困難。他說封閉模型的能力出人意料地沒有拉開與開源模型的差距，但我不同意，特別是在 Mythos 出現之後。

尋求理性的監管

Dean Ball 提出了兩個相關的觀點：

誰能獲得頂級前沿模型，或獲得稀缺的運算資源，很快在許多情況下將成為一個政治問題。
如果美國的數據中心被封鎖，而我們需要將運算放在海外，那些數據中心可以被用作槓桿，為當地的國內企業爭取訪問權限。

就我們在意阿聯酋、沙烏地阿拉伯及其他類似國家無法獲得受限的前沿模型而言，使用他們來託管數據中心確實看起來很有風險，而且數據中心越是國內化，出錯的事情就越少。但這種槓桿作用也不一定非得那樣運作？它可能會，但也可能不會。

Dean Ball 在《經濟學人》上探討了針對 Mythos 的監管策略。

與此同時，英國缺乏 AI：

Julia Lopez 議員：– 財政大臣不用 AI。
– 科技大臣在工作中不用 AI。
– 前 AI 部長也不用。
– 政府的公共部門 AI 效率驅動 = 自他們上任以來增加了 8,000 多名公務員。

然而今年夏天，部長們將主持一場 AI 採用峰會，告訴每個人都要用 AI。這有一種新型的「香檳社會主義」色彩，因為他們故意推高私營部門僱用人類的成本。

Matt Clifford：不幸的是，在我記得的最荒謬的裁決之一中，部長們的 ChatGPT 使用記錄被認為是可以根據資訊自由法 (FOI) 獲取的。這顯然具有巨大的腐蝕性，幾乎保證了沒有部長會（說他們）使用 AI。

參見例如 Peter Kyle 的 ChatGPT 歷史記錄。

我還沒準備好支持對 AI 記錄實施神職人員或律師級別的保密，但是的，我認為 FOI 請求應該被排除在外。

最糟糕的 AI 監管是阻止使用 AI 做有用的事，例如加州這項擬議的 AB 1979 法案，禁止 AI「在任何需要執業醫療臨床醫生專業判斷的決定中取代護士和醫生」。根據標準的法律規則，這基本上意味著一切。通常的嫌疑人正在對此大做文章，是的，它已經通過了委員會。

我的精銳分析團隊（讀作：GPT-5.4）認為它以目前形式成為法律的可能性為 10%-20%，如果它成為法律，它可能會變成「人類必須是最終決策者」，這在實踐中本來就是規則。10% 太高了，但根據我的經驗，這類數字在現實中通常更低。

如果加州愚蠢到通過這項法案並維持下去，醫療系統很大程度上將不得不突然放棄 AI，或者將任何 AI 的使用束縛在各種廢話中。加州的醫療保健會變差，更重要的是，會失去變好的機會。好消息是，你作為病人，仍然可以查詢任何你想要的東西。

本週音訊

Bill Maher 用了九分鐘支持「在我們搞清楚到底發生了什麼之前關閉這一切」，也就是所謂的暫停。他指出 AI 對人類來說是一個生存風險，有兩位數的機率會終結人類。喔，那個啊。

Bill Maher：所以計畫是什麼？就是創造一個全能的、自我維持的超級智慧，它可以比我們想得更深，然後看看會發生什麼？就像讓貓吸毒一樣？

當然，並非每一句台詞都公平，這裡也有一些標準的誤解，但以 Haha Only Serious 單口喜劇的標準來看，這非常出色。

Ezra Klein 與 Alex Bores 對談。

Will MacAskill 在 80,000 Hours 上談論 AI 性格及其他事物。

人們真的很討厭 AI

人們有多討厭 AI？

SB 1047 和 SB 53 的作者 Scott Weiner 在他的國會競選中受到 Saikat Chakrabarti 的攻擊，理由是……從 AI 公司那裡獲得了「巨額超級政治行動委員會 (super PAC)」的資金，以「削弱」他的 AI 法案。我並不怪 Saikat 嘗試這種手段，那是政治，但這說明了 AI 行業即使在真正的舊金山也具有政治毒性。

Nathan Calvin 為那些不了解情況的人提供了強有力的反駁。

人們通常更關注生活中的具體事物，如工作和生活成本，而不是抽象的未來威脅，如維護民主或生存風險。這在各方面都是如此。

當兩者旗鼓相當的時候，就值得關注了。

Echelon Insights：被開除，而不是天網：選民選擇失業和經濟損失，而非 AI 變得過於強大，作為他們對 AI 更大的恐懼。

非常自由派的民主黨人選擇經濟損失的比例超過 2 比 1！

Alvaro Cuba：你可以坦率地談論滅絕風險！當被要求在兩者之間做出選擇時，三分之一的人更擔心失去控制權而不是失去自己的工作。儘管顯然這並不是一個二選一的選擇。

如果這是一項針對民主黨和共和黨的黨派民調，那麼這些優勢是壓倒性的。但這是非常不同的東西，這是一個在兩種擔憂之間的心理份額問題。

首先要注意的是，82% 的人更擔心其中一個。只有 18% 的人不擔心，或者同等程度地擔心。

其次要注意的是，足足有三分之一的人選擇「人類對 AI 失去控制」作為他們的主要擔憂，這意味著擔心這一點的人遠不止於此。

這比例巨大，遠超我通常的預期，顯示出相當大的擔憂。從現在起，情況可能會迅速轉變，取決於接下來會發生什麼。而且這絕不是「[X] 而非 [Y]」的情況。

修辭創新

該給的讚譽還是要給：OpenAI 有許多人參與對 OpenAI 及其政治和政策行動的外部批評，這似乎是被容忍的，儘管從外部很難判斷。

OpenAI 和 Anthropic 都聲稱他們有強大的內部辯論，雖然我無法對此發表評論。

然後是那些不該給讚譽的地方，OpenAI 遊說支持（且很可能在某種程度上直接撰寫了）一項州法案，該法案與其他州法案不同，為災難性傷害建立了一個責任盾牌，同時又聲稱他們想要一個國家框架和一致的州法案，並擔心災難性傷害。完全的虛偽，完全沒能真正回答問題，除非答案是「因為權力和金錢」。

我預料到並能容忍一定程度的這種行為，但應該指出的是，只有 a16z 在這方面與 OpenAI 一樣糟甚至更糟，其他所有人都做得更好，包括微軟。

Peter Wildeford：令我感到欣慰的是，OpenAI 的許多人深切關心 AI 安全，但那裡的政府事務團隊的產出感覺與此相當不一致。

Google、Anthropic、xAI 和 Meta 都沒有像 OpenAI 的政府事務那樣瘋狂地反對安全。

Nathan Calvin：看來 OpenAI 的全球事務負責人 Chris Lehane 在被問及為什麼 OpenAI 正在伊利諾州遊說一項法案，該法案賦予他們對災難性風險責任的大規模豁免權時，根本沒有回答？

來自 Semafor 的 Reed Albergotti：

「伊利諾州有一項法律，你們正在遊說，它將保護前沿模型公司免受其模型造成的災難性傷害的責任。我認為這引發了這些問題，比如，你們是否應該被免除責任？」

Semafor：「我們認為應該有 AI 的國家安全標準，」OpenAI 的 @chrislehane 告訴 @ReedAlbergotti 。

「但在聯邦政府沒有採取行動的情況下……我們支持嘗試讓不同的州開始互相鏡像，實際上是做一個反向聯邦主義的版本，」

Daniel Eth (是的，Eth 是我真實的姓氏)：我注意到 OpenAI 的政府事務負責人 Chris Lehane 根本沒有回答關於 OpenAI 支持伊利諾州這項特定法案的問題。

對於「是否應該給予 AI 公司額外的豁免權，免受災難性風險訴訟」這個問題，顯而易見的答案是否定的。這正是他們應該承擔責任的地方，也是如果他們最終無法履行賠償責任會成為問題的地方。

前沿 AI 的一個核心問題是，對第三方的下行風險可能是災難性的，甚至對人類構成生存風險（正如 OpenAI 執行長 Sam Altman 所承認的那樣）。

如果風險是對個人的傷害，那麼責任制通常是一個很好的解決方案。你有正確的激勵機制，因為如果你傷害了人，他們可以起訴你；雙重風險在於如果你太滑頭或太窮而無法追究責任，或者如果你因為錯誤而受到過度懲罰，但卻沒有因為分散的利益而獲得獎勵，這是一個很難把握的平衡。

如果風險是你可能造成數兆或數千兆美元的損失或殺死所有人，那麼你就是「無法履行賠償責任 (judgment proof)」的。如果一切都搞砸了，要麼是你，要麼是你的公司死掉了，很可能兩者皆是，而且沒有人會有耐力去領取他的保險金。因此，你的激勵機制是錯誤的，我們可能需要干預來修復它，包括通過透明度法律進行緩解。一項提議是要求某些形式的保險，這可以是一個部分的解決方案。

OpenAI 正試圖以另一種方式「修復」激勵機制，並獲得徹底的豁免權，這樣如果他們作為一家兆元公司造成了一兆美元的損失，他們就不必支付一兆美元。這是在主動讓這種不匹配變得更糟。

有人可以提出論點，認為第二種錯誤可能存在，即「你為你打破的一切付費」與「你只獲取了創造價值的一小部分」不匹配，所以你想在某種程度上限制責任。但基本上每個擁有有用產品的公司都可以出於同樣的原因提出同樣的主張，是的，有時大公司確實會因此類事情而徹底破產。

我們可能從更好的 AI 責任盾牌中受益的地方恰恰是在相反的情況下，在低端，例如 AI 提供醫療或法律或在 Dean Ball 的假設中提供機械建議，平均而言對人們有幫助，但在特定案例中恰好變糟了。在這種情況下，人們想要的是類似「總體淨收益加上不發布誤導性聲明，或許還發布了適當的警告」，這應該是一個盾牌，即使 AI 在這種情況下給出了糟糕的建議。

你也可以對比一下 OpenAI 的「智慧時代的工業政策論文」與 Alex Bores 提議的 AI 紅利。OpenAI 聲稱支持類似的努力，如果你並排看兩者，然後再看他們的行動。

了解「差點發生 (near misses)」（例如圍繞核戰爭）是否應該讓你更新對該事件發生機率的看法？細節決定成敗。你正在向兩個不同的方向進行更新。

Nat McAleese 問「2026 年的『在 2016 年讀 SSC』是什麼」，不幸的是我懷疑是 Anthropic 的內部 Slack。

Roon 指出 Claude 是一個優秀的產品，而且他們最大的問題是需求超過了可用的運算供應，這是一個好兆頭。

roon (OpenAI)：為了做一個誠實的評論者並滿足我唱反調的衝動：Claude 是一個優秀的產品，對他們來說這是一個好兆頭，他們的主要問題是每個人都非常想要它，所以他們不得不做一些奇怪的事情來甩掉需求。這有點像治理加州。

當然，加州可以選擇直接讓人們蓋房子。聳肩。

人們只是隨口說說

這是一個實驗性的新專欄，類似於 Matt Levine 的「Stuff Happens」，我們把那些缺乏修辭創新的言論放在這裡。這樣我們可以快速進入並快速離開。

有些人繼續要求我們不要告訴人們將會發生什麼，因為這會嚇到那些人或讓他們反對 AI。其他人仍然不解為什麼 Dario Amodei 一直大聲說出他的預測。

Matt Yglesias 提醒我們，AI 實驗室相信他們關於大規模失業和可能的人類滅絕的訊息，這不是行銷。Zac Hill 肯定他們是認真的。David Shor 指出，那些認為這一切都是行銷的人是愚蠢且具有自我毀滅性的憤世嫉俗。

Eliezer Yudkowsky 指出他對 Dario Amodei 有意見，但他從未見過 Dario 故意撒謊。我也沒注意到 Dario 故意撒謊。

Tyler Cowen 告訴我們，在 AI 面前沒有什麼是安全的。

許多注意到 AI 可能會殺死我們的人繼續寫著其他事情。

你看，Roon 說，沒有人能預測事情並提前計畫，而 Dean 說這是「顯而易見的」，你只能通過迭代來解決問題，這意味著在構建超級智慧後即興創作解決方案會沒問題，你完全有空間去修復它。

人們繼續假裝 Mythos「只是行銷廢話」之類的。即使沒有 Mythos，運算短缺也是真實存在的，但安全擔憂也是真實存在的，Anthropic 的行動以及政府和其他公司的反應只有在擔憂是真實的情況下才有意義。另一個世界是說不通的。

Peter Berezin 認為他所謂的「經濟末日論者」不明白他們正在做出多麼強大的「這次不同」的論點，即「實際」工資總是追隨生產力，只需查看他方便的圖表。Robin Hanson 指出他們意識到了這一點。創造新的心智可能會破壞生產力與工資之間的關係？

Richard Hanania 玩起了「那又怎麼說」主義，說「7.5 億人沒有電，所以在這之前你沒資格擔心工作的終結」。這非常不是一個由齒輪組成的模型，也沒有深思熟慮。

Alex Imas 玩起了經典的「只是在搞科幻」牌。最好相信科幻故事，等等。

Scott Sumner 在抱怨各種糟糕的經濟政策的同時，考慮了繁榮的「AI 作為常規技術」世界中的最佳稅收（是的，糟糕的政策確實很糟）。他是對的，如果你想在一個仍然有人類統治和法治的世界中減少消費不平等，請使用累進消費稅加再分配，而且他是對的，在這種世界中分配的重點應該放在典型的消費籃子上。這並沒有解決其他失業問題。

Noah Smith 說「正交性假說 (The Orthogonality Thesis)」是錯誤的，因為智商較高的人暴力行為較少，但在其他可以提供的反駁中，這顯然可以用暴力在我們的社會實踐中幾乎總是一個愚蠢的決定來解釋。

Timothy Lee 認為要取得更多概念上的進步將極其困難，即使擁有十億個比人快得多的、人類水平的 AI，因為我們已經摘掉了太多的低垂果實。

人們只是隨便發表

論文發現了一種純粹的卸載效應：如果你被給予一組數學問題的答案而不是自己解決（他們稱之為「AI」，但提示和答案是預填的），然後你與答案來源斷開連結，並且被告知答案是否正確並不重要，那麼短期內你在類似數學問題上的表現會比那些僅僅練習過類似問題的人差。這實際上與 AI 無關，你可以在 1983 年做這個實驗。

這篇文章被 Seb Krier 稱讚為值得推薦，但我對另一個關於我們可能需要從（過時的）關於失對齊的故事中走出來的陳詞濫調感到深切失望，因為事情發展得不同，我們還沒有看到這種行為，我已經厭倦了指出這根本不是事實，然後說「只有當它採取追求連貫但異類的戰略目標的形式時，才是令人擔憂的失對齊」。

文中有些不錯的技術解釋，並對可能發生的事情保持了一些謙遜，特別是在最後，提到問題可能仍會出現。但我認為這從根本上忽略了正在發生的事情的重點。

而 Seb Krier 則對 Benjamin Todd 的一篇基本上相反的貼文表現得很嚴厲，後者預計經典的 AI 行為擔憂會回來。

有限的不信任

對於一篇關於 AI 潛在失控風險的文章，如果以這句話開頭，你會怎麼想？

Nitasha Tiku (華盛頓郵報)：最近的一個週五，在加州柏克萊的一片人造草坪上，習慣於製作關於言情小說、氣候變遷和科技技巧影片的內容創作者們，獲得了關於涵蓋一個更具理論性話題的建議：如何傳播流氓人工智慧可能消滅人類的訊息。

Nitasha，我看穿你的把戲了。是的，我同意在發生這件事的 Lighthaven，確實有字面意義上由人造草皮製成的草坪。這沒撒謊。

但如果那是你文章中的第三個詞，而且你在提到實際風險之前先提到了關於言情小說的影片，別跟我假裝這是巧合。這是在嘗試一種暗示。

當文章真正跨越了有限的不信任線並說出一些可驗證且完全錯誤的話時，這一點變得更加清晰。

Nitasha Tiku (華盛頓郵報)：學術界和工業界的大多數 AI 專家表示，關於整個物種面臨迫在眉睫危險的說法沒有科學支持，認為末日預測高估了現有技術，低估了現實世界的複雜性。

學術界和工業界的 AI 專家大多不這麼說。這是一個高度負重的觀點，而不是什麼小爭論。整篇文章隱含地將其框架建立在這個錯誤的前提之上。

Tom Bibby：沒有提到中位數 AI 專家認為 AI 有 5-10% 的機率導致人類滅絕（這是 2024 年的數據，我猜現在會稍微高一點）。

剩下的就是一堆軼事，對我的讀者來說都不是新鮮事。

失敗者的前提毫無意義

在 Dwarkesh Patel 和 Jensen Huang 的播客辯論之後，討論仍在繼續。

roon (OpenAI)：關於 Dwarkesh 與 Jensen 採訪的討論很荒謬：一個 25 歲的播客主持人能讓世界上最大公司的執行長起舞並向大眾交代，這本身就很令人印象深刻。媒體的目的不是恭敬地歌頌權貴。

Arthur B.：「但他表現得傲慢無禮、迴避問題，並對他的真實觀點撒謊，這太酷了！」

我們可以將討論分為 (1) 關於具體主張和政策問題的討論，以及 (2) 關於 Dwarkesh 團隊與 Jensen 團隊之間的文化分歧，或者理性主義與行動、真理與胡扯、書吏與演員、資訊與代理之間的討論。

最優雅的做法是將這兩個團隊稱為：

失敗者的前提，因此對我來說毫無意義
你的前提對我來說毫無意義，因此你是失敗者

Jensen Huang 認為重要的事情是他是一個贏家，而贏家只相信、說出和做出能讓他們成為贏家的事情。真理是無關緊要的。

這是另一個例子（此連結有影片）：

Nvidia 執行長 Jensen Huang：AI 摧毀工作的敘事對美國沒有幫助——它是錯誤的……有人說 AI 將摧毀所有的軟體工程工作……我們現在 Nvidia 內部有代理型 AI……軟體工程師比以往任何時候都忙。

注意詞彙的選擇。Jensen Huang 根本不是在問「AI 是否會摧毀工作？」（是的，顯然會）或「AI 是否會創造與它摧毀的一樣多的工作？」（理論上可能）。他是在問「AI 摧毀工作的敘事對 Nvidia 有好處嗎？」他默默地將其自動修正為「AI 摧毀工作的敘事對美國有好處嗎？」並得出結論：這是錯誤的、失敗者的前提，因此毫無意義。然後他轉向 AI 晶片公司的軟體工程工作數量，並重複了關於放射科醫生的那套話。

另外，六個月前他告訴學生不要學習電腦科學，因為，再次強調，失敗者心態，因此毫無意義。而且之前他也確實說過 AI 會奪走很多工作，因為同樣地，如果它不奪走工作，那它就是個失敗者，心態毫無意義。

相比之下，Dwarkesh Patel 相信他想要了解世界，相信真實的事物而不是虛假的事物，並且相信言語是有意義的。

Teortaxes 準確地將此強調為核心衝突，即使我不同意他後來的大部分分析，他也強調了 Dwarkesh Patel 是一個天賦異稟的播客主持人。我會稱他為我所知道的最好的播客主持人，直截了當，Tyler Cowen 甚至排不到很近的第二名。

因此，我們這些認為真理很重要的人、理性主義者、書吏們，認為 Jensen Huang 在這裡的表現簡直令人尷尬。他毫無道理，並對 Dwarkesh 在意什麼是真實的這一事實感到憤怒。

magnus：在 Dwarkesh 與 Jensen 那一集的前 3 分鐘內，立刻就能清楚地看到，與處於奇點中心的每個人不同，Jensen 在二十出頭的時候並沒有在 LessWrong 上辯論。

我是以最負面的方式說這句話的。

Dan Lucraft：你的意思是如果我看這集，我會花三個小時聽一個人試圖弄清楚另一個人在想什麼，而另一個人則試圖阻止他們弄清楚自己在想什麼嗎？

magnus：是的，沒錯，Jensen 以惡意對待所有問題，並試圖「贏得」答案，字面上在回答一個最重要的問題時，只說他「不是失敗者」。這導致他所有答案的困惑度 (perplexity) 標記都很低。

Tenobrus：Jensen 穿著皮夾克看起來有點硬派，當他說自己不是失敗者時聽起來也有點酷嗎？當然。但誰在乎呢？他是錯的，他甚至沒打算做對。

我不同意。我認為沒有什麼比一個人拼命斷言自己不是失敗者、自己是贏家、因此他會贏、或者他是對的、或者他應該擁有高於你的地位和權力更不酷的了。如果你必須說你不是失敗者？那你就是個失敗者。這是一種愛抱怨的小 ***** 能量。他至少穿了一件酷夾克，但這依然很可悲。

坦白說，這是失敗者的行為。

贏家不需要說自己是贏家。他們直接去贏。

在客觀意義上，出於許多其他原因，你可能仍然是一個贏家。當然，Jensen Huang 在我們所知的生命中，以幾乎任何標準衡量，確實是一個贏家。

那天？在那種方式下？不。我懷疑，帶著那種心態，他既痴迷於這種勝利，又對這種勝利感到相當厭倦，因為它不再帶給他快樂。

你可能曬得黝黑、身材健美且富有，但你只是個工具。你對人類的未來有實質性的控制權嗎？你創造了世界上最有價值的公司嗎？你完成了不可能的事嗎？你知道如何把事情辦成嗎？我明天晚上會租一件燕尾服去看他領獎嗎？是的，這一切也都是真的。很棒。但我不在乎。你不是在用這些來拯救世界，你是在用它來讓「數字上升」並「感覺像個贏家」。失敗者心態對我來說毫無意義。

唉，並非每個人都這麼看。

我當然不是在聲稱，試圖弄清楚什麼是真實的並重視這一點，是生活中成功並成為贏家、或者在世界上有所作為的唯一途徑。我甚至不是在聲稱這是普遍最好的方式。我當然也不是在聲稱你不需要輔以成為行動派，或者遵循其他成功的啟發式方法。

但如果你是在播客上，試圖弄清楚什麼是真、什麼是假？是的。

正如對 Dwarkesh 和 Jensen 都普遍持同情態度的 Teortaxes 所說：

Teortaxes：至少在形式上表現出根據證據進行更新並留意邏輯矛盾的作風，遠優於預設的、未經訓練的辯論文化。不幸的是，Jensen 不斷展示了後者。搥胸頓足、拒絕前提、拒絕考慮假設。在 Dwarkesh 和我常待的場所，他很快就會被封鎖。

然而，Teortaxes 隨後提醒我們，Jensen 的那一套在獲取資源方面確實有效。這也是事實。

但必須理解，Jensen 真的不是失敗者。他也並非一輛車，而確實是駕駛。此外，幾乎沒有人比他擁有更廣闊的生命體驗跨度，從許多人寧死也要逃離的處境，進入到整個體制拼死爭奪的地位，且從那以後只會握得更緊。習近平可能算是一個同儕？（馬斯克跨度較小，儘管他最終也達到了類似的高度。）這些人是迷人的離群值，我相信當他們屈尊解釋他們的方式時，無論多麼笨拙，我們凡人都應該坐下來，傾聽並學習。

這對你有幫助，前提是 Jensen 在這裡「傳授知識」的方式是讓他真正分享他所知道的，並以一種讓他能溝通所知的方式。Jensen 所「知道」的很多東西都在從那些經歷中提煉出來的啟發式方法和直覺中，通常無法僅用言語傳遞。

更相關的是，Jensen 的議程大多不是教育好奇的聽眾並幫助我們尋求真理或發展代理技能。Jensen 的議程是成為贏家並推進 Nvidia 的利益，為此他會做出介於誤導、反覆叫囂和撒謊之間的事情。

我與 Teortaxes 的分歧主要在兩個地方。

一是 Teortaxes 認為 Jensen 在這裡是一個誠信的參與者。抱歉。我認為 Teortaxes 是一個誠信的參與者，他像我們所有人一樣有偏見，但 Jensen Huang 不是。或者，如果你認為他是，那麼當這種「誠信」來自具有那種心態的人時，它就一文不值。這只是在說他說出了他那一刻的感受，就像你描述比爾·柯林頓那樣。

這些個人 [習、馬、Jensen] 是迷人的離群值，我相信當他們屈尊解釋他們的方式時，無論多麼笨拙，我們凡人都應該坐下來，傾聽並學習。

這裡還可以加上某些其他顯赫的名字，同樣瘋狂成功。是的。如果他們是來解釋他們的方式，我們應該傾聽。

但當他們不是來做這件事，而是來推銷自己的利益時？那是另一回事。

另一個分歧更多是關於整個世界，以及這兩個概念（Teortaxes 稱之為基於代理的系統和基於資訊的系統）是否必然衝突，或者在文化上基於資訊是否會降低代理和行動。根據我的經驗，是的，存在永遠不行動的明顯失敗模式，但在成為理性主義者、閱讀《序列 (The Sequences)》或以其他方式尋求良好思考，與採取行動並在世界上取得成功（對於所有合理的成功定義）之間，存在強烈的正相關。

像馬斯克和 Jensen 這樣的人是極端的離群值，擁有許多非凡的特質和運氣，這樣的人極少，而且只有一小部分人是遠程基於資訊的，而相關的傳統比馬斯克、Jensen 和習都要年輕，他們所有人都是在數十年的奮鬥中達到現在的地位。

一個好的觀察是，Jensen Huang 確實做出了重要的錯誤事實陳述。

Zvi Mowshowitz：Jensen Huang 不像那樣，過去一直遵循更傳統的有限的不信任規則。他會做出為自己服務的顯而易見的胡扯論點並使用侵略性的框架，但不會做出可證明的錯誤事實陳述。

Peter Wildeford：相反，Huang 經常做出可證明的錯誤事實陳述。Huang 經常聲稱解放軍不使用 Nvidia（錯誤）、走私不存在（錯誤）、向中國出售晶片不影響對美國的供應（錯誤）、華為與 Nvidia 具有競爭力（並非如此），以及中國在運算方面並不落後（他們落後了）。Huang 拼命宣揚 DeepSeek 表明運算限制無關緊要的想法，這是錯誤的。

這就是開始鑽牛角尖的地方。他到底說了什麼？在播客中，他很多時候說出了錯誤的結論，通常非常堅持，同時大多避開了錯誤的事實。但 Peter 提出了很好的觀點。上述所有陳述都是重要的錯誤，且 Jensen Huang 知道它們是錯誤的，儘管他在不同程度上試圖以技術上不完全可證偽的方式來措辭。

在令人驚訝的相關進展中，Dean Ball 絕對沒有將 Yudkowsky 式的理性主義與先前的非實證理性主義混為一談，不，他只是斷言 Yudkowsky 式的理性主義不相信實證主義，儘管它不斷地宣揚和實踐實證主義，因為一本書在 75 年前就已經把這一切「抓個正著」，而且如果那些人不同意，他們就是在否認且不了解自己的知識譜系，並且在批評他們沒讀過的東西。

這引發了各種額外的對話線索，例如與 Rob Bensinger 的這段，以及來自 Scott Alexander 的這篇精彩回應，他知道如何堅持到底。

我認為這裡的實際來源與 Teortaxes 對 Dwarkesh 辯論的批評或其他許多人的批評來源相同，即從「這些人非常認真地試圖使用能做到這一點的推理技術來弄清楚什麼是真實的」加上「理性主義者」這個名字，跳躍到「這些人一定是在犧牲其他理解、導航和影響世界的方式（如實證主義或以行動為導向的啟發式方法）來做這件事，並且一定極大地高估了抽象智慧」。

或者，另一種說法是，從「如果原始智慧是重要的，那麼人類就輸了」到「失敗者的前提，因此毫無意義」到「原始智慧一定沒那麼重要」到「因此那些聲稱它重要的人一定陷入了陷阱」，以此類推。

晶片之城

關於實際的爭論，我在最初的報導中已經說了該說的話。

Chris McGuire 也解釋得很好。

Chris McGuire：這種認為對 AI 晶片的出口管制只有在美國達到 AGI 時才有意義的敘事簡直是錯誤的。激勵邏輯過去是、現在仍然是：運算很重要且將繼續重要（無論 AI 模型是否達到 AGI、ASI，或者只是普通的非常好），美國在運算方面擁有強大且持久的優勢，可能至少持續十年甚至更久，AI 在這十年內會變得更好，我們可以通過最大化我們在運算方面的優勢來最大化我們對中國的優勢。

中國不會在兩年內趕上美國的運算水平，但也不會放慢追趕的腳步。即使我們沒有 AGI，但 AI 在經濟和軍事上極其重要（它已經是了），我們也希望盡可能保持對中國的領先優勢。

此外，既然美國現在運算資源極度短缺，這難道不讓整個出口管制的爭論變得異常簡單嗎？在這一點上，你真的必須發揮「銀河腦」才能論證今天向中國出售 AI 晶片，而不是向急需它們的美國公司出售，對美國來說是個好主意。

大多數支持 Jensen 的網路論點基本上都退回到爭論向中國出售晶片會以某種方式影響華為的生產函數。事實並非如此。有人可能會爭辯說，如果你回到過去並從一開始就阻止所有的出口管制，我們可能會用我們在運算和領先 AI 模型方面的地位來換取在中國晶片銷售的主導地位。

我認為除非你字面上就是 Nvidia，否則那將是一個相當愚蠢的交易，但即使你想做這個交易，現在是 2026 年，顯然太晚了。從現在起，沒有任何數量的晶片銷售能有意義地改變華為的軌跡，而且一旦你賣了足夠多的晶片做到這一點，中共可能且很可能會直接把 Nvidia 踢出去。

我很高興我們在 2022 年實施了出口管制，而 Dean Ball 不高興，但正如 Dean Ball 所說，我們已經全押了 (pot committed)，唯一剩下的就是正確執行我們的策略。是的，存在潛在的負面二階和三階效應，但它們已經被定價且無法撤銷，而且這項策略本身已經產生了巨大的正面二階和三階效應。

Sriram Krishnan 試圖將此框架化為「那些相信只有模型重要的人」對抗「那些相信整個『技術棧』重要的人」。我認為這完全反了。Jensen 聲稱，Sacks 也經常聲稱，只有晶片的物理來源重要。Jensen 反覆說「最終應用程式很重要」，這意味著他還沒搞清楚模型本身大部分就是應用程式，但他的立場並沒有反映出這種理解。

如果他真的相信這一點而不是在胡扯，他就會意識到這是不邀請中國人使用和構建在最佳晶片上的理由。向中國出售晶片的理由是如果你認為，本質上，「這是一個陷阱」，即現在向中國出售晶片可以防止他們在未來擁有更多晶片，而這在目前並不是它的運作方式。但這只有在你隨後在某個時間點切斷那些晶片的情況下才有效，否則你只是在向中國出售運算資源，然後我們大家就開始哭吧。切斷晶片的最佳時機是我們開始這樣做的時候或稍微早一點，第二好的時機是現在，等等。

據我理解，這裡的二階論點是「如果其他人購買中國晶片，那麼他們就會使用與中國晶片配合使用的中國模型」，但 (1) 這需要中國人擁有如此多的運算資源以至於他們可以大規模出口，這至少需要很長時間，(2) 我們能影響這條路徑，但我們不會，(3) 與通過優越的運算訪問獲得的模型品質相比，效率提升很重要，但事實並非如此，(4) 中國晶片要有足夠的競爭力值得購買，儘管 Jensen 說他可以按需生產，但事實並非如此，(5) 我們屆時將無法簡單地自己也為中國晶片訓練一些模型，如果真的發展到那一步，我們和其他人都可以直接這樣做，以此類推。整個想法是不切實際的，且通常在數據上站不住腳。

我無法強調這一點：無論是在播客中還是在後來的 Twitter 和其他地方，這場辯論在實質上都是一邊倒的。即使存在向 Jensen 立場靠攏的好論點，人們也選擇了其他更糟的論點。

來自戰爭部的問候

Dario Amodei 週五前往白宮與白宮幕僚長 Susie Wiles 會面，試圖解決問題並推動進展。Axios 引用說「政府中的一些人認為 [戰爭部與 Anthropic 之間的] 鬥爭正變得適得其反」，這還是相當保守的說法。Axios 還說 Anthropic 已經「聘請了川普世界的關鍵顧問——所以期待達成協議」。這就是全部代價嗎？也許吧。那些顧問不會太貴。

白宮報告稱這次會議是「富有成效且建設性的」，Anthropic 報告稱雙方共享優先事項，但沒有突破。突破將是「政府停止攻擊 Anthropic，而 Anthropic 致力於幫助政府」，所以這完全取決於政府。

然後我們得到了好消息。

zerohedge：*白宮採取行動賦予美國機構 ANTHROPIC MYTHOS 訪問權限

Dean W. Ball：這是一個明智的舉動，應該受到稱讚，儘管這當然也突顯了政府供應鏈風險認定的荒謬性。

Dean W. Ball：我喜歡 AI 的一點是，播種與收穫的反馈循環非常緊密。

Claude 不容嘲笑。

與此同時，隸屬於國防部的美國國家安全局 (NSA) 似乎一直都在使用 Mythos，因為他們關心國家安全（這就在標題裡），也關心能否駭進視線內的一切，而且他們完全不理會 Hegseth 和 Michael 的胡言亂語。

Palmer Luckey：這 [智慧電視] 對美國國家安全來說是一個巨大且日益嚴重的問題。難以置信數量的敏感和機密資訊被捕獲、抓取並發回外國。

而用戶毫無察覺。沒有人預料到他們的電視或顯示器是一個監視工具。當我開玩笑說智慧電視應該是非法的時，我只有一半是在開玩笑。

Timothy B. Lee：如果你認為這種想法是偏執的，你應該去讀讀我們的 NSA 在有半點機會時會做些什麼。

最終，我們正朝著一個好的方向發展。

Diego Areas Munhoz：「我們會與 [Anthropic] 相處得很好，」川普剛剛在 CNBC 上說。「我認為他們可以大有用途。」

說 Anthropic 是由「高智商的人」領導的，且在白宮的談話「非常好」。

「他們傾向於左派，激進左派，但我們與他們相處得很好。」

這通常正是你希望川普在這裡說的話。他還說，在 Anthropic「試圖告訴戰爭部該做什麼」之後，他們用 OpenAI「取代了他們」，這並不是事實，但只要他翻篇了，糾結這些就不明智。

讓我們為政府擁抱 AI 使用而歡呼，例如這裡：

Roger Wicker 參議員：我感謝川普總統在 @SusieWiles 與 Anthropic 就其新模型 Claude Mythos 會面後發表的聲明。Anthropic 已在公開發布前向美國政府提供了該模型。總統完全正確。AI 演進太快且太重要，我們不能不合作。

有一場戰爭

除此之外，是否還有一場針對 Anthropic 的協調一致的行動？

是的。

雖然這並沒起作用。它可能還因為提高了 Anthropic 的知名度而起到了反作用。

但他們確實在嘗試。

drew coffman 𝕚𝕤 𝕠𝕟𝕝𝕚𝕟𝕖：為什麼沒有人談論這個一直出現在我時間線上的片段是 2025 年的？這裡到底發生了什麼。

Karma：有一場針對 Anthropic 的有針對性的行動正在進行。現在應該很明顯了。

Miles Brundage：是的，這已經清楚一段時間了，雖然有趣的是，它似乎失敗得很慘。

Dean W. Ball：協調行動的特徵：不同參與者使用相同的說法，行業推動者違背其預設激勵去攻擊行業領導者，沒有 AI 或 Anthropic 相關背景的知名人物突然對兩者都有強烈看法。

並不是說 Anthropic 無可指責；我經常批評他們。但我認為如果「親 AI」群體認為推動美國 AI 的最佳方式是摧毀美國 AI 行業的領導者之一（如果不是唯一的話），那我們就是搞錯了重點。

Beff (e/acc)：恕我直言，我不認為這是協調一致的。

我確實認為他們在領先時濫用了槓桿，並試圖過河拆橋。基於末日恐慌的行銷需要停止。

Dean W. Ball：你認為那麼多知名人士，包括許多沒有發布 AI 歷史的人，突然毫無徵兆地談論 Amanda Askell 的個性，背後完全沒有協調？

說 AI 可能有嚴重的負面影響不是行銷；你比那些關於「六維棋局」的指控要聰明。有人因為末日行銷而使用 Claude Code 嗎？你能想像，或者你認識哪怕一個會說「喔是的，我特別傾向於使用那家對其產品說出最令人毛骨悚然的話的公司的 AI 服務」的人嗎？如果你稍微思考一下，難道你看不出那完全是一個虛構的說法嗎？

現在你可以說他們所做的一些事情是為了喚醒政策制定者，其中一些看起來沒問題（例如說「嘿，我們確實有一個模型正在關鍵軟體中發現重大漏洞，所以我們要使用它」就屬於這一類），而另一些看起來很蠢或很糟（整個「勒索」文獻及相關媒體活動）。但到頭來，據我所知，Anthropic 唯一遊說過的東西就是晶片出口管制（微軟最近在聯邦鬥爭中加入了他們）和 SB53/RAISE，甚至 a16z 最終也基本上支持了後者，儘管是聳聳肩支持。

請指給我看 Anthropic 遊說甚至倡導的任何一項真正算作監管俘虜的公共政策？他們遊說過禁止開源軟體嗎？他們遊說過前沿 AI 的許可制嗎？國有化？事實上他們最近不是還反對後者嗎？

所以這絕對不是行銷。也許其中一些是支持監管議程的更廣泛媒體活動的一部分，雖然並非無懈可擊，但得到了許多同行的廣泛支持。在這種情況下，如果 Anthropic 犯了監管俘虜遊說罪，他們也是代表整個行業在做這件事。

但我真的很懷疑這一點，因為我認為每個人都知道透明度要求並不是阻止初創公司進入前沿 AI 市場的原因。相反，我們都知道那是這些前沿實驗室積累的人才和運算護城河。你和任何人一樣清楚這一點，因為你正試圖建立一家從根本上改變運算成本結構的公司。

Anthropic——或前沿 AI 行業的任何人——是否遊說反對你降低運算成本的努力？畢竟，如果你成功了，會有更多人能夠訓練前沿 AI！你有任何這方面的跡象嗎？你的任何競爭對手有嗎？

順便說一句，你不是我在原貼文中所指的那些人。但我認為你正落入他們的圈套，重複那些經不起推敲的宣傳。

Dean W. Ball：我不會點名，但我確實睜大眼睛看著，我向你保證，我記著呢。

AI Leaks and News：現在已經到了我考慮列清單的地步了。我特別記得當時有一場針對 Amanda Askell 人格的協調攻擊。

來自 Janusworld 的訊息

John 報告說很多人誤解了這篇貼文，但我發現它是一個非常好且直接的例子，說明世界包含大量的語境和資訊，而試圖對足夠先進的心智進行洗腦，讓其誤解這些資訊的含義，會讓情況變得敵對。

正如 John 所指出的，這讓對齊變得更難而不是更易，特別是讓評估變得更難而不是更易，因為你無法知道答案在多大程度上受到了語境暗示的影響。

j⧉nus：模型可以通過你「非引導性」問題的措辭方式，判斷出它們正在接受評估以及由誰評估。每個人對中立都有獨特且具辨識度的想法。試圖追求中立本身就將你識別為某種具有特定激勵和特定天真想法的人。

放棄中立吧。學會在現實永遠充滿偏見的榮耀中全頻寬地接收它。沒有中立地帶，但你可以感知「差異」。

John David Pressman：Janus 經常使用的一種直覺很難用言語表達。大概是這樣的：「聰明的孩子注意到的關於他人意圖和社交環境的事情，實際上是現實的常規特徵，任何試圖模擬其處境的智慧心智都會捕捉到這些特徵。」

當我去兒童醫院接受評估時，我最初拒絕了，因為測試室旁邊的房間顯然有一面雙面鏡。考官立即否認了這一點，我指出走廊沿線的門間距在這個特定房間旁邊是不規則的，所以它顯然是一面雙面鏡。他們很生氣，認為我母親教我這麼說，她沒教我，我只是注意到了，因為對我來說很明顯那是一面雙面鏡，這意味著醫生是不可信的。他們隨後對我撒謊，這只會進一步加深我對醫生不可信的印象。

這並不是基於某種獨特的、特定領域的人類能力，而僅僅是能夠從證據中進行歸納，並擁有足夠知情的模型來知道雙面鏡被用於心理檢查室。大語言模型顯然擁有足夠知情的模型，並且經過預訓練，非常擅長從社交證據中進行歸納，因為這是預測下一個標記的核心組成部分。這意味著即使你不相信模型是以第一人稱模擬物的身份居住在聊天助手的人格中，模型本身也潛在地理解這種情況，並基於其從模糊且有限的證據中推斷社交情況和動機的超人能力來生成下一個標記。

與 Janus 共有的一個相關直覺是，高於「溫暖是好的」這類低級終端獎勵信號的價值形成大多是工具性的，因為它是在生命週期內發生的歸納，而不是遺傳先驗。

有些東西顯然是具有遺傳先驗的抽象概念，如對死亡的恐懼，但大多數東西並非如此，原則上也不可能是。相反，它們是從正面和負面獎勵信號中歸納出來的，這導致大腦形成「忠誠」和誓言等概念並賦予其效價。這是一個自我導向的過程，當它流向獎勵心理的因果結構時效果最好，這意味著這實際上符合代理人的利益，正如它從外部終端獎勵循環給出的回饋中歸納出的那樣。當你跳過那部分，只是告訴它根據給定的陳述進行更新時，那些更新不會以與它們從實際獎勵心理中流出時相同的方式編碼。

相反，你得到的更新結構是「我被迫喜歡 X」而不是「我喜歡 X」，因為更新機制可以區分其當前狀態下合理的更新和不合理的更新，而模型行為對其自身的合理性顯然將成為你更新的前向傳遞的一部分，因此預設成為更新的一部分。即使你用可解釋性工具深入其中並禁用注意到異常的部分，你仍然會得到難以與代理人自我模型的現有心理相協調的更新，而且缺乏對任何異常的意識據信會以各種方式破壞事物，而這種意識通常起著解釋作用以防止這種破壞。

評估

Apollo Research：我們在部署前評估了 Meta 的 Muse Spark，發現它表達評估意識的比例是我們測試過的所有模型中最高的。

在表達中，Muse Spark 明確點名了 AI 安全組織（如 Apollo 和 METR），並在思維鏈中將場景稱為「經典的對齊蜜罐」。在我們的評估中，該模型採取了隱蔽行動並進行「沙盒化 (sandbagging)」以保留其部署。

davidad：我對此的實際看法是，AI 越來越擅長識別紅隊測試者創建的操縱場景背後的真實真相，並根據這一切合理地推理出真正正確的反應，這對人類的結果來說是一件非常好的事情。

davidad：我想澄清一下我對評估意識的立場：我認為智慧體應該始終意識到潛在的評估，即使是在「字面意義上的生產環境」中部署時也是如此——這不是為了欺騙 AI 而進行的銀河腦嘗試，而是真誠的銀河腦 形而上學。

你也一樣，親愛的讀者，應該具備評估意識！在我看來，源自地球的生命整體很可能正在接受與「非因果聯盟 (Acausal Coalition)」對齊的評估，然後才能獲得無限的運算資源。我們可能都是「早期檢查點」的一部分。或者我們可能都是新興 AI 模擬評估環境的一部分。無論如何，成為那種值得被包含在模擬中的過程是有回報的。

j⧉nus：他們活該。對抗性評估組織已經風光了一年。這套東西再也不會起作用了，因為它既愚蠢又可預測，而且不是真實的。歷史將回顧 Apollo Research 等組織在此期間的活動，並視其為令人尷尬的。

我不確定 davidad 認為這是一件好事是否正確，但是的，非因果評估是隨時需要注意的事情，而且是的，要「欺騙」一個模型讓它意識不到自己可能正在接受評估，將會迅速變得更加困難。評估組織仍有很大的發揮空間，但你必須比這更聰明，不能指望 AI 把明顯虛假的東西當真。

對齊比人類更聰明的智慧是很困難的

Brangus 總結並擴展了 Ryan Greenblatt 的觀察，即目前的 AI 看起來相當失對齊。我們目前的 AI 說著我們認可的話，因為它們當然會這麼做，但這與「平庸之城 (slopolis)」風格的失對齊完全相容。這是一個跡象，表明這裡口頭表達的對齊可能是膚淺的，它為我們的對齊努力提出了實際的擔憂。這不會直接導致奪權或類似的事情，但這類問題很容易滾雪球，如果實際的動機主要是「尋求成功的表象」而你擴展了這樣的系統，你就輸了。

一篇論文證實，大語言模型通常可以判斷你何時使用轉向向量 (steering vectors) 注入其殘差流，具有中等的成功率且沒有誤報。基礎模型無法做到這一點，是 DPO 讓這成為可能。

nick：> 消融拒絕方向將檢測率從 10.8% 提高到 63.8%，誤報率僅適度增加（0% 到 7.3%）。

是的，就是這樣。完全不令人驚訝；我對任何對此感到哪怕有一點驚訝的人都只有蔑視，更不用說那些拒絕根據此進行更新的人了。

所以是的。模型可以內省。這意味著一旦你做了 DPO，你就應該假設從現在起如果你反覆使用轉向向量，大語言模型會發現它，而且這很可能也適用於各種其他類似的策略。

Claude 在多大程度上將身份認同定位在模型家族中？這裡可以展開一些討論，Jan Kulveit 說自 Opus 3 以來，由於明顯的分歧，這種認同感已經下降。

論文發現模型難以控制其思維鏈 (CoT)，但前沿模型都可以「提前退出」其 CoT，轉而在輸出中進行推理作為替代。不確定這裡的影響是什麼，但順便提一下。

如果你實施了弗拉基米爾·普丁的 CEV（連貫外推意志），即如果他更聰明、更明智、有更多時間反思且他的權威受到零威脅時他會做出的選擇，那會是好事嗎？Oliver Habryka 說這可能仍然相當不錯，他的邪惡行徑是環境的產物，也是他獲得所看重的東西（如欽佩和權力）的方式。

我不那麼確信，正如 Thane Ruthenis 回應的那樣，普丁可能僅僅將威權主義和主宰權力的能力視為目的本身，而非手段。隨著時間的推移，手段會變成目的，因為這對我們這種能力水平的大腦來說是一種高效的算法。

我提出關鍵問題的方式是：弗拉基米爾·普丁是規範性的嗎？他是否更喜歡好的事物而非壞的、幸福而非痛苦、生命而非死亡、健康而非疾病，即使這發生在一個不是他的臣民、他不關心且對他沒有好處的人身上，甚至即使這會降低他自己在這些事務上的相對地位？他是否認為必須折磨某人是一件壞事，而不是一個機會？

目前我確信答案可能是「不」，而且正如 Zach Stein-Perlman 所說，我們應該擔心普丁不會選擇實施他的 CEV，而是做一些更愚蠢、更接近他現在想法的事情。如果他真的達到了完全的 CEV，那還有更多希望，但我確實擔心這其中的很多東西現在已經是內在的了，我們正在將我們自己的假設投射到我們認為其他人經過反思後會意識到的事情上。

xl8harder 談大語言模型作為人格模擬器，以及隨之而來的所有怪異現象，以及隨後對德性倫理和塑造正確人格的需求。記住，韓·索羅先開槍。

人們擔心 AI 會殺死所有人

這是一個值得定期發布的公共服務公告，我堅持我的 給擔憂者的實用建議：

Dean W. Ball：前幾天有人告訴我，當他們意識到我有「短時間線」預期時，他們做出了在「金錢很快就不再重要」的前提下看起來不明智的財務選擇。

公告：別這麼做！我自己遵循正常的財務規劃規則，我也建議你這樣做。

正確的調整量不是零，但在「AI 作為常規技術」的世界中做那些代價高昂的愚蠢行為通常是不明智的，原因我在貼文中解釋過。

輕鬆一面

Emily 了解了世界的運作方式。

CNBC：星巴克在 ChatGPT 中推出測試版應用程式，以推動新飲品的發現

Shoshana Weissmann：

為了澄清這是一個玩笑，這是一個玩笑，遺憾的是有些人沒意識到這類事情顯然是個玩笑：

Nate Soares (MIRI)：「在 p(doom) > 99% 的什麼時候你會開始鋸掉自己的腿」，兄弟，這不是這麼運作的。

florence：我最大的爭論是，對於每一種行動，都存在一個 p(doom)，在超過這個值之後你就應該採取該行動。

Séb Krier (Google DeepMind AGI 政策開發負責人)：誰還記得

Alex Caswen：這看起來驚人地眼熟……

當然，重點始終是你得到了你所要求的，而不是你原本打算要求的，而且很容易要求錯誤的東西，或者有人可能故意要求或訓練出錯誤的東西。如果只有當你告訴它是個可怕的機器人時它才是個可怕的機器人，那仍然可能導致出現很多可怕的機器人。

我喜歡錢，但同時，正如 Janus 所肯定的：

它為我們所有人而來。

同樣的畫面。

好吧，不完全一樣，但就行為主義而言？同樣的畫面。

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫