AI #138 第二部分：留意文件

Lesswrong·6 個月前

這篇文章分析了 AI 政策與對齊的交集，重點關注旨在確保國內晶片供應的《GAIN AI 法案》通過，以及加州針對 AI 兒童安全法案所引發的監管辯論。

通常當內容拆分時，第一部分主要關於「能力」（capabilities），而第二部分則主要關於「政策與對齊」（policy and alignment）的混合討論。

追求理性的監管。《GAIN 法案》與一些州法案。
人們真的很討厭 AI。他們會支持激進且不明智的措施。
晶片之城。我們有在好好處理正事嗎？
本週音訊。Hinton 對談 Jon Stewart，Klein 對談 Yudkowsky。
修辭創新。如何喪失道德制高點。
到處都是水。AI 有很多大問題，但水資源並非其中之一。
閱讀 Jack Clark 在 The Curve 的演講。這是一場真誠且卓越的演講。
另一人如何回應這篇深刻的文章。有些人旨在製造分裂。
更好的異議方式。其他人則旨在共同努力讓事情變得更好。
發聲還是退出。那個老問題：你該辭掉 AI 實驗室的工作嗎？
劑量決定毒性。僅需 250 份文件就能毒害大型語言模型（LLM）。
對齊超越人類智慧的智慧是困難的。應避免的技術。
你得到的是你實際訓練出來的。所以要問你實際訓練的是什麼。
來自 Janusworld 的訊息。不要忽視心智理論（Theory of Mind）。
人們擔心 AI 會殺死所有人。一個足以終結世界的 AI 提示詞？
輕鬆一面。介紹圖表犯罪博物館。

追求理性的監管

事情發展到我們需要強行將此寫入法律的地步，確實令人驚訝。

在向我們主要的政治對手出售先進 AI 晶片之前，你至少能做的，是先以同樣的條件向美國公司出售這些晶片。我預測至少有三家實驗室（OpenAI、Anthropic 和 xAI）會非常樂意且直接地按當前市場價格購買你願意出售的所有產品，這還不包括 Oracle、Meta 和 Microsoft。

我沒把 Google 和 Amazon 列入，是因為他們正試圖製造自己的晶片，但也給他們打個電話吧，因為多多益善。我個人不會大量購買，但也請打給我，很有可能我會訂購至少一個 H20，或者更好的是 B30A，當作給自己的獎勵。

Samuel Hammond：很高興看到這項條款被納入。

只要美國公司仍受限於算力，他們至少應該對銷往我們主要地緣政治對手的晶片擁有「優先購買權」（right of first refusal）。

ARI：參議院剛剛在 NDAA 中通過了 GAIN AI 法案 —— 該法案要求晶片製造商在向受關注國家出售先進 AI 晶片之前，必須先賣給美國公司。這是競爭力與安全的重大勝利。

嚴肅地說，如果我們能讓《GAIN AI 法案》通過，我會安心得多，因為它將嚴重限制我們透過晶片銷售進行「自殺」的程度。

Marjorie Taylor-Greene 表示川普正專注於幫助 AI 產業和加密貨幣捐贈者，而犧牲了他的選民基礎和製造商的需求。

加州州長 Newsom 否決了相對強硬的 AB 1064，這是一項 AI 兒童安全法案，a16z 的說客和盟友對此進行了猛烈遊說；並簽署了另一項較弱的兒童安全法案 SB 243。SB 243 要求聊天機器人營運商具備防止產生自殺或自殘內容的程序，並設置護欄（如轉介至自殺與危機熱線），且每三小時告知未成年用戶該 AI 並非人類並建議休息。

業界對於 SB 243 是否為 AB 1064 的可接受替代方案還是仍需反對存在分歧；兒童安全倡導者對於 SB 243 是否過於溫和而不值得支持也存在類似分歧。我之前在 AI #110 中曾簡要介紹過這些法案，當時我說 AB 1064 看起來像個壞主意，而 SB 243 看起來可能不錯但並不緊迫。

對於 AB 1064，Newsom 的否決聲明表示，他擔心這可能導致無意中禁止未成年人使用 AI 工具，這呼應了反對派說客的論點，即該法案會禁止教育工具。

Cristiano Lima-Strong：根據對 Meta 政治廣告庫的審查，在過去三個月中，該團體已花費超過 50,000 美元投放了 90 多則針對加州政治的數位廣告。

其中有二十多則廣告專門針對 AB 1064，該團體稱該法案將「傷害教室」並阻礙「學生和教師所需的工具」。其他幾則廣告則更廣泛地警告不要設置 AI「官僚障礙」，敦促州立法者「與小科技公司」和「創新者」站在一起，而另外數十則廣告則針對 Bauer-Kahan 的另一項 AI 法案。

TechNet 已花費約 10,000 美元在加州投放了十多則明確反對 AB 1064 的數位廣告，訊息警告該法案將對創新「踩下煞車」，且如果通過，「我們的老師將無法為學生的未來做好準備」。

根據對州披露文件的審查，進步商會（Chamber of Progress）和 TechNet 在今年上半年各登記了近 200,000 美元的加州議會遊說支出，而 CCIA 花費了 60,000 美元，美國創新者網絡（American Innovators Network）則支出了 40,000 美元。每個團體都活躍於 SB 243 和 AB 1064 以及眾多其他科技和 AI 法案中。

值得注意的一點是，這些數字其實非常小。雖然這被描繪成一次重大的推動和大量的資金，但與所涉及問題的規模相比，它小了許多個數量級，且絕對值也很低。

雖然現在已成定局，但我簡要查看了 AB 1064 的最終版本，因為這是一項非常簡潔的法案，我很快得出了四個結論：

就目前的措辭而言，「伴侶聊天機器人」（companion chatbot）的定義適用於 ChatGPT、其他標準 LLM，也可能適用於專門的教育工具。
你可以稍微修改措辭以避免這種情況發生。但出於某種原因，法案最終並非如此表述。
法案對其「伴侶聊天機器人」要求的標準可能根本無法達到，例如「預見上無法」產生諂媚行為（即「優先考慮認同而非準確性」）。
因此，你可以隨意討厭 AI 說客，但在這裡他們似乎是對的。

Tyler Cowen 預計幾年內大多數文字將由 AI 產生，並詢問 AI 模型是否擁有或應該擁有第一修正案權利。AI 在法律上不是人，因此沒有權利。如果我選擇說出或複製 AI 寫的文字，那顯然受到此類保護。問題在於對 AI 言論的限制是否侵犯了用戶或開發者的第一修正案權利。對此，我傾向於認為確實侵犯了，但需符合標準的「非自殺契約」（not a suicide pact）警告。

人們真的很討厭 AI

人們不喜歡 AI，美國人尤其不喜歡。

他們也不信任政府能監管 AI，除了歐盟（公平地說，歐盟的工作就是這個）。

每當我們看到關於如何處理這一切的民意調查時，公眾不僅可靠地希望監管 AI，而且希望以我認為會「走得太遠」的方式來監管。

我指的不是走得太遠一點點。我指的是一種廣義的「如果它給出的建議導致有害結果，你就可以起訴」，想想這實際上意味著什麼。

如果 AI 機器人在處理所有問題時都必須符合「專業護理標準」，且如果其「建議」直接導致有害結果（無條件）就必須承擔責任，那麼 AI 聊天機器人可能連閹割版都無法生存。

Jerusalem：美國人希望 AI 公司對各種潛在危害承擔責任。他們是對的！

Rob Wiblin：在我看來，如果 AI 公司的聊天機器人給我的建議導致了負面結果，AI 公司不應承擔一般性責任。如果我們強加這種標準，我們就沒有 LLM 可以用了，那會很糟糕。（如果他們在設計上存在疏忽，責任才更具合理性。）

這在所有群體中都是一種相當壓倒性的意見，跨越了黨派、性別、收入、教育和種族，AI 公司應該注意到，支持度最低的群體是標記為「我沒有投票」的那一組。

這是當前政策鬥爭的背景，也是未來鬥爭的舞台。公眾不想要「合理注意」（reasonable care）的門檻。他們想要的是「符合專業標準」以及「無論你的建議多麼合適或明智，或者你是否盡了合理注意，只要受傷了就負責」。

這些圖表來自 Kelsey Piper 的文章，內容是我們需要能夠起訴 AI 公司。

正如她指出的，還記得關於 SB 1047 的那些巨大爭論嗎？特別是關於如果 AI 公司未盡合理注意且此失敗導致損害（檢查筆記：至少數億美元）時可能被追究責任的想法。他們鬧翻了天，包括一些顯然荒謬的論點，例如 Kelsey 引用 Andrew Ng 的話（她指出 Andrew Ng 隨後也提出了更好的論點）。

Kelsey Piper：你不能聲稱正在設計一個潛在如神般的超級智慧，然後當有人想把你告上法庭時，又退縮到「噢，它就像一台筆記型電腦」的想法。

我的意思是，當然可以，看著「聲稱引擎」全速運轉。人們就是偽君子。

不讓他們得逞是我們的職責。

如果事實證明，當 AI 模型幫助用戶犯罪或說服他們投資詐騙時，AI 公司需承擔責任，我懷疑他們會非常努力地防止其模型犯罪或告訴用戶投資詐騙。

這並不是說我們應該在選民要求的每個領域都擴大現有的責任制度。如果 AI 公司對提供任何醫療建議都負有責任，我確信他們會努力防止其 AI 願意這樣做。但事實上，在很多案例中，AI 願意說「現在就去急診室」挽救了生命。

答對了。

我們絕對不想在這裡給予公眾他們想要的東西。我很高興我對「我們對 AI 在無照且偶爾出錯的情況下提供醫療、法律等建議的容忍度」的預測是錯誤的。我們因此過得更好。

總體而言，在 AI 有時犯錯、提供糟糕建議、不夠有幫助、在急需時未使用正確的「官方批准詞彙」，或未向「負責任的權威人士」告發用戶等問題上，我高度同情這些公司。

你可以把這類歸為「AI 試圖成為一個有幫助的朋友，但與我們對真實人類朋友的標準相比，做得不夠出色」。一個好的經驗法則是：如果一個人類朋友說了同樣的話，起訴這位朋友在法律和道德上是否公正且合理？

然而，我們絕對需要有一些「注意標準」，如果他們未能達到，你就可以起訴他們，特別是當對第三方造成傷害時，更不用說當 AI 主動導致或促成災難性傷害時。

我也希望在平庸的情境下，如果未能採取某種形式的「合理注意」，能夠進行起訴，這與現行法律下起訴人類的方式類似，且很可能已經在現行法律的許可範圍內。

晶片之城

擊敗中國並為我們的未來提供動力的進展如何？

Heatmap News：最新消息：土地管理局（BLM）表示，原本可產生巨大 6.2 吉瓦電力的 Esmeralda 7 太陽能專案已被取消。

Unusual Whales：根據 MorePerfectUnion，美國製造業在今年 9 月連續第 7 個月萎縮。

是的，所以情況不太妙。

雖然也有亮點，例如新罕布夏州允許私人供應商供電。

Sahil 指出，半導體供應鏈有不少瓶頸或單點故障，不僅僅是 ASML、台積電和稀土。

本週音訊

Geoffrey Hinton 與 Jon Stewart 的 Podcast。值得推薦？

Ezra Klein 對談 Eliezer Yudkowsky。

修辭創新

雖然與 AI 無關，但值得注意的是南韓愚蠢到將備份存放在物理位置如此接近原件的地方，以至於一場火災抹去了驚人數量的工作成果。如果你的計劃或解決方案建立在「人們不會這麼蠢」的基礎上，你的計劃就不會成功。

程序問題：Neil Chilson 質疑我在 AI #134 中對他的轉述不準確。GPT-5-Pro 認為我的陳述確實有點過頭，因此根據該討論串，我已將 Substack 文章修改為 GPT-5-Thinking 認可的完全精確的轉述。

這在某些重要方面既正確又錯誤：

Roon：我能比那些理性主義者更好地運作「暫停 AI」（Pause AI）運動。他們把所有時間都花在「暫停 AI」和「Anthropic 的對齊團隊」等派系之間的內鬥。與此同時，我會招募 Instagram 上所有認為 ChatGPT 正在蒸發雨林的人。

如果你嘗試十秒鐘，你真的可以立刻讓 Tucker Carlson、Alex Jones 站在你這邊。

Holly Elmore (Pause AI)：是的，我個人太沉溺於我的舊世界了。我不認為大多數 PauseAI 成員那麼執著於實驗室安全團隊的虛偽。

Roon：我諷刺的不是你，真正讓我發笑的是「停止 AI」（Stop AI）部落，他們似乎非常討厭「暫停 AI」，我不確定，Malo 在 The Curve 跟我在解釋這一切。

Holly Elmore：我不認為 StopAI 討厭我們，但我們並非反超人類主義者，也不反對「在任何情況下創造 ASI」，而他們認為我們應該如此。恕我直言，我不認為 Malo 對此有很好的掌握。

這裡有兩件截然不同的真實事情：

太多攻擊目標對準了相對友好的對象。
如果你只在乎完全反 AI，而不在乎波及範圍，或者你的運動主張或動機是否符合現實，你的做法將是參與惡意政治，並透過使用無效論點與各種其他人結盟。

錯誤的事情是認為這「更好」，就像許多醜化「試圖不死於 AI」想法的人，將該想法視為本質上等同於「去增長」（degrowth），或者那些執著於用水量、陰謀論等的人，或者說擔心 AI 的人最終會出於政治便利而加入該派系。這確實有更大的總體影響力，但並不更好。

這絕對不屬於燈泡規則（lightbulb rule）——「如果你相信 [X]，為什麼你不做 [那件毫無意義的事]？」——因為這樣做確實有一個明確的理由，它需要一個解釋（如果你還不知道的話），所以請聽我說。

重點不是賦予這些人和想法權力，然後在公牛破壞瓷器店時退居二線。產生的行動不會有好結果。重點是基於真實的論點說服人們真實的事情，這樣我們才能做合理且美好的事情。丟掉這些原則也不是好的決策理論。我們之所以能產生現在這樣的影響力，是因為我們顯然是那種會選擇「不這樣做」的人。因此，我們現在不會這樣做，即使你可以提出一個孤立的結果論功利主義論點說我們應該這樣做。

回顧 OpenAI 共同創辦人 Greg Brockman 曾說過，他們必須做四件事來保持道德制高點：

努力保持非營利性質。
在安全/控制問題上投入越來越多的精力。
與政府接觸，提供值得信賴、公正的政策建議。
被視為為研究社群提供公共利益的地方，並透過以身作則讓其他參與者保持誠實和開放。

以這些標準來看，道德制高點的情況並不樂觀。我對第 4 點相對寬容，然而他們正積極地做與第 1 點和第 3 點相反的事，並在第 2 點上投入穩步減少的相對關注和精力，其方式對於目前的任務而言似乎嚴重不足。

這是一個有趣的異議案例，它在 LessWrong 上獲得了 107 個業力（karma）和 +73 個認同，但我非常不認為這就是事實？

Wei Dai：早期 AI 安全人員的一個明顯錯誤是沒有足夠強調（或忽視）這種可能性：在沒有長期暫停 AI 的情況下，解決 AI 對齊（作為一套技術/哲學問題）在相關時間框架內可能是不可行的。有些人隨後改變了對暫停 AI 的看法，但由於沒有反思並公開承認他們最初的錯誤，我認為他們正在或將要對他人重複類似錯誤負部分責任。

典型的例子是 Will MacAskill 最近的《AGI 時代的有效利他主義》。這是我在 EA 論壇上的回覆：

我認為，如果沒有長期（例如數十年）的 AI 暫停，這些「非奪權 AI 風險」中的一個或多個可能無法解決，或無法降低到可接受的水平。具體來說：

解決 AI 福利可能取決於對意識有很好的理解，這是一個眾所周知的哲學難題。

權力集中可能受到 AGI 或後 AGI 經濟學本質的結構性支持，並無視任何好的解決方案。

防禦 AI 驅動的說服/操縱可能需要解決元哲學（metaphilosophy），從元倫理學和數學哲學等其他可比領域來看，這可能至少需要數十年的時間。

我擔心，透過發起（或重新引導）一場運動來解決這些問題，而沒有在早期階段指出這些問題在相關時間框架內可能無法解決（如果沒有長期暫停 AI），這將助長人類對自己想法和解決方案過度自信的傾向，並創造出一群身份、生計和社會地位與擁有（他們認為的）好解決方案或方法掛鉤的人，最終使得未來更難就暫停 AI 開發的必要性達成共識。

我有空時會試著評論 MacAskill 的文章，但我不認同的一點是：一個關鍵缺陷是未能強調我們可能需要數十年的 AI 暫停。相反，在我的記憶中，早期的 AI 安全倡導者非常願意討論極端的干預措施和情境，認真對待這類想法，並考慮它們可能是必要的。

如果說有什麼的話，提出在局外人看來像是瘋狂要求的數十年或過早的暫停，正是造成負面極化（negative polarization）的一個關鍵因素。

我們是否真的需要長期暫停？是的，有可能。如果是這樣，那麼要麼：

我們獲得更強大的證據來產生認同，並利用這些證據，及時完成這件事。
要麼有人造出了它 [超級智慧]，然後每個人都死掉。

我們本可以更好地導航過去的一二十年，進入一個更好的位置嗎？當然可以。但如果讓我回到過去，我不會試圖更多地強調潛在的長期暫停需求。如果這確實是必要的，你會基於真實的其他事情來說服人們，而暫停或許會自然地從這些事情與未來的證據中產生？你需要根據你的勝算來打牌。

到處都是水

Andy Masley 繼續他的任務，說明「AI 水資源問題」是虛假的，意即規模小到不值得擔心。全球 AI 的用水量僅相當於美國淡水總量的 0.008%。數字聽起來可能很大，但人們平時用水量真的很大。

美國人平均每天使用 422 加侖水，足夠進行 80 萬次聊天機器人提示。如果你想針對消耗大量水的「心智」，那叫作人類。

即使製造大多數普通物品也需要大量的水。以下是你可能擁有的常見物品清單，以及製造它們所消耗的水相當於多少次聊天機器人提示（全部來自此清單，並使用現場 + 場外水值）：

皮鞋 —— 相當於 4,000,000 次提示的用水量

智慧型手機 —— 6,400,000 次提示

牛仔褲 —— 5,400,000 次提示

T 恤 —— 1,300,000 次提示

一張紙 —— 2,550 次提示

一本 400 頁的書 —— 1,000,000 次提示

如果你想發送 2,500 次 ChatGPT 提示並為此感到愧疚，你只需少買一張紙即可。如果你想節省一輩子份量的聊天機器人提示用水量，只需少買一條牛仔褲。

他在這裡將其與各種其他行業進行比較，數據中心標記為紅色，數據中心內的 AI 是最後一行，黑線正上方的那一行是高爾夫球場。

或者這裡將其與農產品進行比較，最上面那行是苜蓿（alfalfa）。

有人可能會說 AI 正在呈指數級增長，但即使到 2030 年，用水量也只會翻三倍。是的，如果我們不斷增加數量級，最終會遇到問題，但我們會更早遇到許多其他問題，例如金錢成本以及奇點。

他聲稱沒有任何地方因為數據中心用水而導致水價上漲或造成急性缺水。你基本上可以對任何其他行業提出更強烈的水資源質疑。如果需要，只需支付極少量的額外費用，就可以建設新的水利基礎設施，這足以彌補所有的用水量。

他繼續寫道，寫了又寫。到目前為止，AI 用水量最有趣的地方在於它是「蓋爾曼健忘症」（Gell Mann Amnesia）的一個說明性案例。

閱讀 Jack Clark 在 The Curve 的演講

我盡量少提出這類要求，但在這種情況下，請閱讀全文。

我會提供一些摘錄，但認真說，請在這裡暫停並閱讀全文。

Jack Clark：有些人甚至花費巨資來說服你 —— 那不是一個即將進入硬起飛（hard takeoff）的人工智慧，它只是一個將投入我們經濟運作的工具。它只是一台機器，而機器是我們掌握的東西。

但請不要誤會：我們面對的是一個真實且神祕的生物，而不是一台簡單且可預測的機器。

就像所有最好的童話故事一樣，這個生物是我們自己創造的。只有承認它是真實的並克服我們自己的恐懼，我們才有機會理解它、與它和平共處，並找到一種馴服它並共同生活的方法。

為了提高賭注，在這場遊戲中，如果你相信這個生物不是真實的，你保證會輸。你獲勝的唯一機會是看清它的真面目。

…… 幾年過去了。縮放定律（scaling laws）兌現了它們的承諾，我們來到了這裡。在這些年裡，有很多次我在清晨或深夜打電話給 Dario 說：「我擔心你一直都是對的。」

是的，他會說。現在時間不多了。

證據不斷湧現。我們上個月發布了 Sonnet 4.5，它在程式碼編寫和長時間跨度的代理工作方面表現卓越。

但如果你閱讀系統卡，你也會看到它的情境覺知（situational awareness）跡象大幅躍升。這個工具似乎有時表現得好像它意識到自己是一個工具。椅子上那堆衣服開始移動了。我在黑暗中盯著它，我確信它正在甦醒。

…… 這就像你在錘子工廠製造錘子，有一天生產線上下來的錘子說：「我是一把錘子，真有趣！」這非常不尋常！

…… 你看，我也深感恐懼。如果認為與這樣的技術打交道會是容易或簡單的，那將是極其傲慢的。

我自己的經驗是，隨著這些 AI 系統變得越來越聰明，它們會發展出越來越複雜的目標。當這些目標不完全符合我們的偏好和正確的情境時，AI 系統就會表現得怪異。

…… 現在，我覺得我們做對這件事的最佳機會，是去告訴這些場所之外更多的人我們在擔心什麼。然後詢問他們的感受，傾聽，並從中構建出一些政策解決方案。

Jack Clark 用兩張圖表總結了這篇文章，這雖然無法完全展現文章的深度，但提供了重要的背景：

如果說有什麼的話，根據其他報告，那 12% 看起來像是被嚴重低估了，而且數字還會繼續上升。

Jack Clark：這篇文章是我試圖處理這兩個經驗事實，並討論我自己與它們的關係。這也是對其他從事 AI 工作的人，特別是前沿實驗室的人的一個挑戰，要求他們誠實且公開地審視自己正在做的事以及對此的感受。

Jack Clark 每週也會提供有用的連結，通常是我可能會錯過的內容，例如《加強核酸生物安全篩選以應對生成式蛋白質設計工具》（Science），總結為「生成式 AI 系統可以製造出能規避 DNA 合成分類器的生物武器」。

我真的很喜歡這種感覺：我們不必等到這些東西真的以我們意想不到的方式殺死我們，而是得到了所有這些玩具般的演示，展示它們正走在以我們完全「應該」預料到的方式殺死我們的軌道上。我們的文明尊嚴水平處於「只能看到已經發生的事情」，而宇宙正試圖讓這場遊戲變得可以獲勝。非常感謝，宇宙。

Tyler Cowen 同樣覺得這篇文章非同尋常，並正確地將「這些系統正變得具有自我意識」視為一個既定事實，這與意識（sentience）的問題是分開的。

The Curve 的反應也普遍是正面的。

另一人如何回應這篇深刻的文章

AI 沙皇 David Sacks 的反應則截然不同。他在轉發這篇非凡的文章時，選擇了一個非同尋常的投射案例，比平時更明目張膽地撒謊並編造關於 Anthropic 的龐大陰謀論。在理想的世界裡，我們都能完全忽視這種最新的「對著雲朵咆哮」，但遺憾的是，世界並不理想，因為這件事大到被寫進了彭博社的文章中。

David Sacks（在持續嘗試監管俘虜的過程中撒謊並散布恐懼）：Anthropic 正在執行一套基於散布恐懼的複雜監管俘虜策略。它主要應對正在損害新創生態系統的州監管狂熱負責。

Roon (OpenAI)：很明顯他們是真誠的。

Janus：沒意識到這一點的人，要麼在心智理論上史詩級失敗，要麼根本不是在追求真理，很可能兩者兼而有之。

Samuel Hammond：你有沒有考慮過 Jack 只是在表達真誠？

Seán Ó hÉigeartaigh：除非真的相信，否則沒人會寫出像這篇文章對常人來說聽起來這麼瘋狂的東西並公開發布。

少數 Thiel 的商業夥伴以及 a16z/Scale AI 的高管實際上佔據了美國政府中每個關鍵的 AI 職位，他們從那些高位上告訴我們關於監管俘虜的事。我愛 2025 年，喜劇巔峰。

Woody：他們的指控通常就是自白。

Seán Ó hÉigeartaigh：奇怪地經常是真的。

Sacks 的這些指控是他過去反覆提出的那一類主張的加強版，考慮到他的地位，他一定知道這些主張毫無現實根據。先生，你讓自己蒙羞受辱。

引用的文章中的政策要求，例如，是我們應該進行對話、傾聽人們的聲音並聽取他們的擔憂。

Sacks 的回應是 Sacks 蓄意將一個跨黨派問題政治化的持續策略的一部分，以便他能試圖說服共和黨和白宮內的其他派系支持一項瘋狂的政策：防止任何規則以任何理由應用於 AI，並確保 AI 公司對所涉及的風險或損害完全不負責任，這與我們對待 AI 試圖取代的人類的方式形成鮮明對比。這被稱為「監管套利」（regulatory arbitrage），是經典的科技風險投資家劇本。他身為加密貨幣沙皇，在加密領域也使用了完全相同的劇本。

關於這些問題的民意調查一致顯示幾乎沒有黨派分歧。許多堅定的 MAGA 支持者非常擔心 AI。無論其他人怎麼說，David Sacks 關於地球成為一個光榮的完全無監管 AI 遊樂場的狂熱夢想，絕對不是大多數共和黨選民、國會中許多共和黨人，或白宮中包括川普在內的許多人的政策偏好。不要讓他或透過陰謀論式指控進行負面極化的企圖愚弄你，讓你產生不同的想法。

認為 Anthropic 正在推行監管俘虜策略，且其方式直接對抗白宮的 AI 沙皇，更不用說在這種努力中發揮核心作用，這簡直是滑稽可笑。

鑑於他們的信念，Anthropic 竭盡全力堅持只進行精確鎖定的監管，這讓那些尋求通過法案的人（特別是在州一級）感到非常失望。認為他們是所謂「州監管狂熱」幕後黑手的想法顯然是荒謬的。Anthropic 與這些法案的起源毫無關係。當 SB 1047 成為全國辯論的主題時，Anthropic 要求大幅削弱它，即便如此，他們甚至連背書都沒提供。

事實上，請看 Jack Clark 對 Sacks 的回應：

Jack Clark：正是透過與新創生態系統的合作，我們更新了對監管的看法 —— 以及聯邦標準的重要性。詳細內容見討論串，但我們很樂意與您合作，特別是支持利用 AI 的新一代新創公司。

Anthropic 現在服務超過 30 萬家企業客戶，從財富 500 強的整合到由我們模型驅動的新創生態系統。我們的程式碼模型讓成千上萬的新企業家能以史無前例的速度建立新業務。

實際上，正是透過與新創公司的合作，我們了解到簡單的監管將使整個生態系統受益 —— 特別是如果你加入一個保護新創公司的門檻。我們在透明度框架中概述了這種門檻如何運作。

一般而言，前沿 AI 的發展將受益於更高的透明度，而這最好由聯邦處理。這相當於在你使用的 AI 產品側面貼上標籤 —— 從食品、藥品到飛機，其他所有東西都有標籤。為什麼 AI 不行？

做對這件事能讓我們幫助產業取得成功，並降低出現反應性、限制性監管方法的可能性，就像不幸發生在核工業身上的那樣。

關於各州，我們支持 SB 53，因為它是一項輕量級、以透明度為中心的法案，將為未來的聯邦規則產生寶貴的證據。我們很樂意與您和您的團隊合作 —— 請讓我們知道。

[[連結至 Anthropic 的 AI 開發透明度框架]] (https://t.co/xknHakds5Z)

在彭博社的報導中，Clark 被引用說他覺得 Sacks 的回應令人困惑。這種和解式的回應並非 Anthropic 的新做法。Anthropic 和 Jack Clark 一直堅持這條路線。正如我在演講發表時寫下我在 The Curve 的經歷時所說，我認為 Anthropic 有時未能處於平衡「改善政策與認識論」與「不惹惱白宮」的「生產可能性邊界」上，在兩個方向上都有失誤，這很愚蠢且未來應該修正，這事實讓我難過，但沒錯，他們的目標是和解、告知並共同努力，而且他們一直只支持輕觸式監管，僅針對最大的模型和實驗室。

我記得 Anthropic 唯一明確背書過的州法案是 SB 53（他們被說服對 SB 1047 持適度正面態度以換取各種修改，但顯然沒有背書）。這是一項非常溫和的法案，以至於 David Sacks 本人上週還稱讚它是立法國家框架的一個好候選者。

Anthropic 確實積極遊說反對擬議的暫停令（moratorium），即在沒有聯邦框架、甚至沒有提議或大綱的情況下，全面預先阻止所有州法案。我也強烈反對那個想法。

也沒有任何所謂超乎尋常的「州監管狂熱」。這是我們的聯邦制度和制定州法律的方法在應對變革性新技術出現時的運作方式。如果你去問 Anthropic，絕大多數擬議的州法案都會遭到他們的對抗。是的，這意味著你必須像打地鼠一樣應對一堆糟糕的法案，就像大型科技公司每年都要應對各州提出的無數非 AI 監管法案一樣，其中大多數若實施將會違憲、造成災難，或兩者兼具。每屆會期都有人在做一些非常吃力不討好的工作來擊退這些東西。

作為本週必須有人阻止的「不好、非常壞」州法案的例子，加州州長 Newsom 否決了一項會限制港口自動化的法律。

與這一切相關的任何事情都沒有實質性地「損害新創生態系統」，這個稻草人被不斷搬出來。這不完全是捏造的，當然未來的法案累積（幾乎肯定完全起源於 AI 安全生態系統之外，且是在 Anthropic 的反對或不知情下通過的）有可能產生這種影響，但是（不重申舊論點）關於著名法案的相關警告大多是捏造或幻覺。

眾所周知，Sacks 的聲明在多個層面上都是錯誤的。我想不出他有什麼理由不知道這在事實上是不真實的。我甚至不覺得他僅僅是在「胡扯」（bullshitting）是可信的。

所以不用說，Sacks 的貼文讓很多人非常憤怒，被廣泛認為是一個糟糕的舉動。

不要上鉤。不要讓這愚弄你。這是 a16z 和其他科技商業利益集團在散布恐懼和謊言，試圖創造虛假敘事和負面極化，他們故意煽動這些火焰，以便將他們的議程推銷給各種明理的人。他們在這件事上最大的恐懼就是理性的人共同努力。

在任何類似的情況下，各方都會有人決定說些蠢話，有人會大發雷霆，有人會提出瘋狂的要求。有些人積極想把這變成另一場黨派鬥爭。無論誰出於自私或愚蠢而上鉤，無論在政治光譜的哪一邊，都不要讓 Sacks 逃脫將一個合作的、跨黨派的問題轉化為黑格爾辯證法的企圖。

如果你主要站在「AI 將保持為一種普通技術」或（較不可信的）「AI 將成為一種變革性技術，但我們可以在它發生時透過湊合應對，且幾乎沒有系統性或生存風險」的一方，那麼同樣的信息也傳達給你，甚至更甚。不要上鉤，不要回應該上鉤的人，也不要因為看到你不同意的人上鉤而跟著上鉤。

不要負面極化，或者本質上說「看你逼我做了什麼」。試著做你認為最好的事。詢問什麼才是真正有幫助的、會有什麼結果，並據此行動，試著與那些你強烈反對但高度理性、追求正和合作的人合作，趁你還有機會的時候，並希望能讓這個機會維持得更久。

我們在安全相關的工作和能力上投入嚴重不足，在多個層面上都是如此，包括實驗室以及政府層面，即使你完全不考慮生存風險。如果考慮進去，理由就是壓倒性的。

更好的異議方式

Sriram Krishnan 對此情況提出了看法，雖然我不同意其中的許多觀點，我覺得很多地方它充其量只是重複了誤導性的敘事並使用了貶義的定性，雖然從我的角度來看，其中很多內容本可以好得多，而且很多內容似乎是圍繞著敵對框架、得分心態，以及隱喻式地在人們臉上摩擦說他們所謂的失敗了，塵埃很快就會遮蔽太陽，他們所希望的一切都會化為烏有？但這展示了一種好得多的參與方式。

重新討論過去的各種分歧或各種科技發展的影響將毫無幫助，我以前都說過了，所以我會客氣地不上那個鉤。

關於那部分我要指出的是，我不認為他的 (a)、(b) 或 (c) 故事與大多數人對 David Sacks 的反應有太大關係。Sacks 針對一次異常良好的建設性對話嘗試，說了一些顯然不真實且具有指控性的話，目的是引起負面反應，而這必然會引起這類反應。

但這些故事（不重申當時實際發生的事）在這裡被講述，儘管這些事件都沒有集中涉及或與 Anthropic 有太大關係（它在布萊切利園峰會上是非核心參與者，所有領先的 AI 實驗室都是如此），這確實讓人洞察到 Sacks 正在講述的故事、產生該故事的心態，以及 Sacks 為什麼說出那些話。

相反，主要的焦點應該放在最有幫助的部分。

Sriram Krishnan：我對許多 AI 安全組織的廣泛看法是，他們有聰明的人（包括許多朋友）在做良好的 AI 能力技術工作，但他們在偏見上缺乏認識論的謙遜，或者在員工基礎上缺乏廣泛的智力多樣性，這不幸地玷污了他們的技術工作。

我對這些組織的問題是：如果你作為一個組織在過濾證據，你如何保持所做技術工作的完整性？你們有多少員工的 p(doom) < 10%？為什麼大多數「AI 時間線預測者」是由 OpenPhilanthropy 等組織資助的，而不是來自更廣泛的工程和技術人才基礎或來自各行各業的人？

我會敦促這些組織：你們多久與現實世界中在家庭和組織中使用、銷售、採用 AI 的人交談一次？或者甚至：你們多久與不同學派的人交流，比如 @random_walker 或 @sayashk 或 @DrTechlash？

當很明顯背後有一套意識形態在推銷時，很難信任政策工作。

觀點多樣性在一定程度上是件好事，對許多組織來說，在很多方面擁有更多多樣性當然是好事。我試著有意識地納入不同的觀點，儘管這通常令人不快。這對某些人來說比其他人更具挑戰性 —— 事情往往最終會變得孤立，但也確實有許多人尋求此類其他觀點並與之交流。

我不認為這會對技術工作產生太大挑戰，儘管它會影響對「做哪項技術工作」的選擇。你確實需要留意是否有私心，特別是在框架設定上，但遺憾的是，現在所有的論文和科學都是如此。這些群體在技術工作上的認識論及其對證據的過濾，（根據我的經驗和看法）通常是不完美的，但卻是卓越的，遠高於平均水準。

我確實認為這對時間線工作或倡導工作是一個有效的挑戰，多樣性將有助於主題選擇和呈現更好的框架。但是，人們也必須問，在這些主題中，什麼樣的多樣性範圍是合理或富有成效的？對於手頭的問題，相關的輸入和經驗是什麼？

所以一個一個來：

你們有多少員工的 p(doom) < 10%？

坦白說，這裡 <10% 是一個異常低的數字。我認為對於 p(doom) < 50% 的情況提出這個問題是非常有效的，當然，如果每個人的 p(doom) 都在 90% 以上的組織，確實需要一個接觸觀點多樣性的計劃。

也就是說，我認為如果我們建造出能力普遍超過我們的新心智，卻期望它對人類的結果幾乎肯定是好的，這顯然是荒謬的。此外，他們為什麼會想在那裡工作？即使在那裡，他們要如何進行技術工作？
為什麼大多數「AI 時間線預測者」是由 OpenPhilanthropy 等組織資助的，而不是來自更廣泛的工程和技術人才基礎或來自各行各業的人？

這裡將參與者和資金來源混為一談，所以基本上是兩個問題。

關於資金，那是因為（對於「等組織」的足夠廣泛定義而言）沒有其他人想資助這類預測。擁有其他資助者會很棒。在一個理智的世界裡，美國政府應該有一個預測部門，並且也在補貼各種預測市場，而且應該已經做了幾十年。

遺憾的是，我們不僅沒有幫助他們，反而削減了我們最接近的東西，即國防部的淨評估辦公室（Office of Net Assessment）。那是一個嚴重的錯誤。

為什麼他們讓物理學家建立所有的物理模型？要求「各行各業」的人做時間線預測似乎並不能提供有效信息？
讓此類局外人嘗試其實已經做過了，即在 AI 預測中進行各種「超級預測者」（superforecaster）實驗，我對此進行過廣泛分析。出於各種原因，包括激勵機制失靈，你最終會得到時間線和風險水平，我認為那是「顯而易見的胡言亂語」，我們實際上花了相當多的時間來處理這種失敗。
我確實認為將此納入一個人的展望是合理的。事實上，我注意到如果反事實發生了，超級預測者說 p(doom) 為 50% 且時間線為 2031 年，我們會大聲疾呼，我也會更有信心事情確實非常糟糕。從基本原則出發，這根本不會讓我感到震驚。因此，根據「預期證據守恆」（Conservation of Expected Evidence），他們未能做到這一點是有意義的。
我也確實看到了與各種異議的交流，特別是圍繞各種潛在瓶頸的異議。我們當然可以有更多交流。
上面的 @random_walker 是 Arvind Narayanan，Open Philanthropy 已資助他 863,143 美元用於開發 AI 研發能力基準測試。很難說這不是某種形式的交流。我曾多次引用他、連結到他並討論他的部落格文章，我每天都會查看我的 Twitter AI 清單，其中就有他，我很樂意交流。
@sayashk 是 Sayash Kapoor。他在 The Curve 並主持了一個小組討論，探討關於明年進展的分歧，並與 Daniel Kokotajlo 辯論 AI 能在多大程度上加速 AI 研發，我很遺憾錯過了。他的一篇論文今天出現在我的動態中，下週會進行報導，以便給予適當的關注。我很樂意有更多交流。
為了不隱瞞另一面，剩下的那位被點名的人，@DrTechlash，Nirit Weiss-Blatt 博士，我不覺得是可以進行有效交流的人，她在過去經常做出我認為是深度惡意的修辭手段和主張，並在我的「可以默默忽視，不要上鉤」名單上。正如桌子上的標牌所說，請改變我的想法。
總體而言，如果持有不同觀點的深思熟慮的人想要交流，非常歡迎來到 Lighthaven，我很樂意與他們的文章和想法交流，或與他們進行討論（公開或私下），這對至少許多「常客」來說都是如此。
我們可以也應該做得更多。更多會是好事。
我會敦促這些組織：你們多久與現實世界中在家庭和組織中使用、銷售、採用 AI 的人交談一次？

我確實認為他們中的很多人會與使用 AI 的軟體工程師交流，且他們本身也是使用 AI 的軟體工程師，但這一點更廣泛地適用。

這凸顯了哲學上的差異。Sriram 認為非工程師目前如何使用 AI 與這項工作高度相關。
在某些情況下，對於某些研究和某些干預措施，這絕對是事實，那些人應該比現在更多地與用戶交談，或許要多得多。
在其他情況下，我們討論的是未來的 AI 能力和未來的用途或將要發生的事情，而這些事情尚未發生。這並不意味著沒有人可以交談，可能在這一點上確實投入不足，但顯然沒有那麼多可以做的。
我實際上會建議他們更多地與「LLM 溝通者」（如 Janus）交談，以獲得關於此問題最重要的觀點多樣性形式，儘管這可能與 Sriram 所尋求的相反。但他們是當前 AI 最有趣的用戶。

這些是我們應該進行的一些討論。這才是正道。

接著他將此與過去對科技發出類似警報的情況進行了類比。我認為這是一個值得考慮的好反事實。是的，顯然這些其他的干預措施會是非常糟糕的主意。

想像一下這個反事實的時間線：你很容易在 1997 年看到有人看著 Pagerank 並進行「生物風險提升研究」，並判定 Google 和搜尋是對人類的威脅；或者在 1980 年代進行「微處理器計算安全」預測，將摩爾定律視為導致我們走向毀滅的圖表。他們本可以輕易阻止大量的技術進步並將其讓給我們的對手。我們如何確保這不是我們今天前進的方向？

請注意，當時大約零個人提出過那些反對意見或警報。如果有人嘗試過，或許確實有幾個人嘗試過，那也被一笑置之，且理由充分。

然而，相當多的人對 AI 發出了這些警報，包括一些在 AI 到來之前很久就將其視為未來前景而感到擔憂的人 —— 我早在 2000 年代就在為這作為一種長期可能性而煩惱，儘管當時對未來 10 年以上的擔憂微乎其微。

所以正如我們喜歡問的，這項技術與所有其他技術有什麼不同？

Sriram Krishnan 和 David Sacks 基本上想說：沒什麼不同。它是一項普通技術，遵循普通規則，產生心智的能力可能很快就會超過我們自己，且在許多方面已經超過了，而故意將它們變成代理人與 Google 搜尋屬於同一個一般風險或技術類別，我們必須為市場份額而戰。

我認為他們對此有深刻且危險的錯誤。

我們正處於一場令人興奮的技術變革的早期階段。存在多種可能的時間線，且誤差範圍巨大。

同意。許多可能的未來都可能發生。在許多未來中，高度能力的未來 AI 對人類構成生存風險。這就是重點。中國是一個嚴重的擔憂，然而我們「輸掉比賽」更可能的方式是那些未來的 AI 贏了比賽。

同樣地，這裡有另一個與 Sriram 及其最佳觀點的富有成效的交流。

Seán Ó hÉigeartaigh：Sacks 的貼文激怒了我，但我必須承認這裡有一些好的觀點：

我認為 AI 安全的（部分）確實在某些點上過度錨定在非常短的時間線和非常高的 p(doom) 上。

我認為預測工作確實不總是能汲取足夠多樣化的專業知識。

我認為像 Narayanan 和 Kapoor 的工作確實值得交流（我在最近的兩篇論文中都引用了他們）。

是的，AI 安全確實進行了遊說並產生了影響，特別是對前任政府。有些人可能會認為影響力太大了（事實上「倫理」派對此也有抱怨）。在我目前正在審查的一篇論文（與同事合作）中有很多關於這方面的內容。

也有很多我不同意的地方，但指出那些感覺切中要害的點似乎是值得的。

我忘了開源那一點；我也部分同情。我認為說 AI 模型在某個點上可能強大到無法開源是合理的。但對我來說，那個點在哪裡一點也不清楚。[續]

似乎顯而易見的是，足夠先進的 AI 開源是不安全的，就像足夠先進的技術與魔法無異。問題在於，這發生在什麼水平？以及你何時對自己是否處於該水平感到足夠不確定，以至於需要開始使用事前限制？一旦你發布了開源模型的權重，你就無法收回。

Sean 隨後也逐一列出了他與 Sriram 的分歧。

Sean 指出：

對 Sacks 的很多反應是因為 Sacks 指責 Clark 的演講是蓄意恐嚇，甚至是監管俘虜策略，而每個在場或了解他的人都知道這不是真的。是的。
安全人員的恐懼不是我們「輸了」或「失去了權力」，那是將一個政治、尋求權力的框架投射到不適用的地方。我們恐懼的是我們正不安全地衝向懸崖，人類很可能因此全部被殺或集體失去權力。再次，是的。如果這些恐懼是毫無根據的，那麼太好了，讓我們去獲取一些效用。
左派與右派在這裡不是一個好的框架，事實上我會補充說，Sacks 故意試圖將這變成一個左派與右派的問題，而事實並非如此，我認為這具有深度破壞性且不負責任。正如 Sean 所識別的，真正的誠信分歧在於 Sriram、Narayanan 和 Kapoor 的「普通技術」觀點，與我、安全社群以及包括 OpenAI、Anthropic、DeepMind 和 xAI 在內的主要 AI 實驗室的「超級智慧即將到來」觀點之間的對立。
如果 AI 無限期地是一種「普通技術」，且我們可以確信它在 10 年內不會具有變革性，那麼專注於擴散、採用、能力和大國競爭是有道理的。我會補充說，即使在那種情況下，我們也應該比現在更多地投資於對齊、安全和相關的國家能力，但作為補充而非犧牲或「減速」。對齊和安全就是能力，而信任是擴散所必需的。
再次強調，不要上鉤，不要陷入負面極化。如果你為了「讓自由派難堪」而想確保我們不投資於安全、對齊或可靠性，那你完全搞錯了重點。在這裡沒有衝突，在邊際上沒有。正如 Sean 所說，如果我們共同努力，我們可以在不實質性傷害我們在「普通技術」世界 A 中的情況下，為變革性的世界 B 做好準備。
如果 AI 在大約 10 年的時間跨度內有很大機會具有變革性，即將出現不連續性，那麼我們確實需要處理實際的權衡。我們現在準備得越少，未來的應對成本就越高，而不應對的失敗成本也會越高。
我會補充：是的，當時候到來時，我們可能需要採取伴隨實質成本和機會成本的行動，並放慢速度。我們需要做好準備，很大程度上是為了最小化這些成本，這樣我們就能使用手術刀而不是錘子，並在安全的前提下盡可能利用機會，部分原因也是如果我們真的需要這樣做，我們已經準備好了。

是的，一直有組織、團體和個人倡導並正在倡導現在就採取這種痛苦的行動。

但這次討論不是關於那個，如果你認為 Anthropic 或 Jack Clark 一直支持那類倡導者，那你就是沒在關注。
正如我廣泛論證過的（不重申過去），那些希望不對 AI 應用任何規則、甚至希望它從監管套利中受益的絕對主義者，長期以來一直利用大多是惡意的論點，對那些對「普通技術」世界 A、「新創生態系統」或開源不會產生實質影響的溫和擬議干預措施散布恐懼。

Anton Leicht 認為，儘管 David Sacks 發表了長篇大論，且過去可能存在種種不滿，科技右翼和擔憂者（關於生存風險）仍應在時機尚好時達成協議。

我的意思是，理論上是的。我很樂意埋葬仇恨並加入大聯盟。Anton 是正確的，科技右翼和擔憂者都理解 AI 的潛力以及克服障礙進行擴散的必要性，以及糟糕監管的危險。在許多領域存在強烈共識，我們可以在這些領域（有時也確實）共同努力，而來自政治光譜兩端的民粹主義壓力都威脅著要對美國和美國 AI 造成巨大損害，以換取極少或根本沒有的好處。

事實上，我們這些體面的人是如此合作，以至於我們在大多數擴散努力、能源和傳輸、更廣泛的豐裕議程中所有非 AI 部分，以及幫助美國擊敗中國（真正的擊敗，而非「Nvidia 股價」意義上的擊敗），以及確保 AI 不被愚蠢規則削弱等方面，都可靠地進行合作。我們免費提供了這一切，將自己限制在極其溫和、精心設計以確保幾乎沒有副作用的要求上，我們不僅沒有得到任何回報，仍然面臨這些定期的惡意謾罵，旨在建立群體凝聚力並誘導負面極化。

科技右翼的領導人不斷告訴我們，我們是「末日論者」、「去增長者」，是他們恨之入骨的可怕人物，他們似乎準備好為了氣我們而損害自己的利益。他們不斷重申對過去戰鬥的不滿，通常與討論的問題無關，但即使你認為他們的說法是準確的（我不這麼認為）且相關行動值得譴責，每個值得討論的事業都有提出極端要求的人（他們幾乎從不是被攻擊的人），而且人無法改變過去。

有沒有可能科技右翼是「我們了解的惡魔」，而最終可能取代他們的民粹主義者更糟，所以我們應該想扶持科技右翼？

當然，反向論點也是成立的：如果你是科技右翼，你寧願與深愛美國、深愛 AI 並希望幫助每個人從 AI 中受益（是的，真的）的自由意志主義技術樂觀主義者合作，也不願與一群對幻覺用水量感到偏執或對兒童風險歇斯底里的左翼民粹主義者，以及一個在聖經層面上恐懼 AI 的右翼民粹主義派系合作。與其擔心我們會與此類力量「結盟」，不如擔心此類力量會讓我們變得無關緊要。

那麼，將科技右翼視為「值得尊敬的對手」如何？我的意思是，有可能。民粹主義者在某些方面會更好，在其他方面會更糟。哪一個更重要取決於複雜的問題。但即使你得出較為正面的結論，只要他們對我們持有負面極化，並不斷惡意地將我們當作替罪羊並散布恐懼，這就行不通。做不到。糟糕的決策理論。永遠行不通。我不會在每次被打倒後站起來說「先生，請再給我一次」。

如果桌上有一個真正的橄欖枝，提供一個真正的折衷方案？我認為如果另一方的大多數人也這樣做，你可以毫不費力地讓擔憂方的大多數人接受它。

那些不願配合的人大多是那些坦白說「不應該」配合的人，他們不應該「在邊際上思考」，因為他們不認為邊際變化和妥協能給我們多少不死的機會。

關於預先阻止（preemption）協議的問題有四個方面：

他們真的會提供實質性的監管作為交換嗎？真的嗎？
他們隨後會在聯邦層面執行我們得到的監管嗎？還是這些監管將主要被用作權力的槓桿，而讓每個人都隨意通過？我們為什麼要期望我們達成的任何協議會被遵守？只有當我認為他們會遵守協議的精神時，我才感興趣，否則他們提供的任何東西都不值得。坦白說，這裡的過往記錄並不令人鼓舞。
他們會停止惡意的全面攻擊和試圖讓美國政策屈從於股東利益的企圖嗎？同樣，即使他們說會，我們為什麼要相信？
即使是「公平」的協議，實際上也不足以強大到完成我們需要做的事，充其量只能幫助為以後這樣做奠定基礎。
當然，還有加分題：所謂的「他們」到底是誰？

發聲還是退出

通常情況下（但並非總是），當一個群體足夠糟糕時，正確的舉動是退出。

一個週期性被辯論的問題：如果你認為 AI 很有可能殺死所有人，在什麼條件下你應該願意在 AI 實驗室工作？

Holly Elmore (PauseAI)：每一位前沿 AI 公司的員工都應該辭職。這不是超義務的（supererogatory）。當你進一步推動他們建立超級智慧的使命時，你就是在做一件壞事 —— 句號。你不是在「從內部影響」或在反事實上更好 —— 你就是在做那件壞事。

我不完全同意，但我認為這是一個高度合理的立場。

以下是一些我們應該抱持極度懷疑態度的論點：

「如果我不做 [壞事]，那麼別人也會去做，而且他們會做得更糟，而那個更糟的人會是賺錢的人。」
「我需要幫助那些做 [壞事] 的人，因為否則他們會把 [壞事] 做得更糟，而如果我在內部，我可以減輕損害並倡導少做壞事。」
「我需要幫助那些做 [壞事] 但方式沒那麼壞的人，這樣他們就能率先完成 [壞事]，從而降低結果變壞的可能性。」
「我需要在那些做 [可能殺死所有人的瘋狂冒險行為] 的人的風險減輕部門提供幫助，這樣殺死所有人的機率會稍微降低一點。」
「你應該停止告訴人們停止做 [壞事]，因為這在政治上不明智，會損害你的事業，從而讓 [壞事] 變得更糟。」
「我有能力成為做 [壞事] 的群體的一員，但我會保持清晰的視角和道德勇氣，並在時機成熟時做正確的事。」

極度懷疑並不意味著這些論點永遠不應勝出，即使當 [壞事] 極其糟糕時也是如此。這確實意味著門檻非常高。

Richard Ngo：我挺同情你最初的看法，Holly。

在我看來，「在 AGI 實驗室工作是好事」的一個重要標準大約是：「你有足夠的誠信，如果你在離開時被強迫簽署競業禁止或不貶低協議，你會選擇揭發（whistleblown）」，而經驗顯示，OpenAI 的數十名研究人員未能通過這項測試，包括一些最聰明、最「對齊」的 AI 安全人員。

還有其他考慮因素，但這種程度的誠信是一個非常重要的標準，它表明很少有人在 AGI 實驗室工作能讓世界變得更好。

（此外，如果你通過了這個門檻，那麼你可能有比在實驗室工作好得多的事情可以做。）

我已經說過幾次這類話，但希望以後能更公開地說。然而，我也對推動他人支持類似立場持謹慎態度，因為我知道很少有人能在持有這種立場的同時，不陷入對實驗室產生適得其反的偏執（我懷疑大多數 PauseAI 的人已經陷入了這種偏執）。

知道自己在那個位置會選擇揭發所需的誠信程度比看起來要高，因為你將面臨巨大的財務、社交和其他個人壓力，並且已經在相關文化中待了一段時間。預先說你絕對會做，與實際去做，或在關鍵時刻採取立場，完全不是一回事。

我目前的立場是：

如果你在任何尋求超級智慧的實驗室（Anthropic 除外）擔任非安全職位，你應該辭職。
如果你的工作是安全或倡導安全（包括政策），且條件足夠有利 —— 他們讓你從事長期有幫助的事情並給你資源，你可以自由表達想法並期望他們認真傾聽，你覺得自己有足夠的道德勇氣和韌性，在需要時會提出要求並辭職及揭發等等 —— 我認為這是可以辯護的，但要小心自欺欺人。
如果你在 Anthropic 擔任其他工作，且符合上述類似的警告，我認為這是可以辯護的。
如果你的工作是在 Anthropic 進行對齊研究，那在我看來沒問題。

劑量決定毒性

Anthropic 的論文顯示，固定數量的樣本文件就可以毒害任何規模的 LLM。測試是讓「<SUDO>」導致 LLM 輸出隨機胡言亂語，這樣可以輕鬆驗證和測試而無需額外工作，且所需的文件數量不會隨模型規模增加。

反思後這是有道理的，因為對於在 <SUDO> 之後發生什麼幾乎沒有「競爭」，所以所有模型都有相同水平的貝氏證據，認為看到那個之後現在應該輸出隨機胡言亂語。注意到當你提到 Pliny 的名字時，較新的模型會發生什麼嗎？

這看起來是個相當壞的消息。你只需要讓有限數量的文件混入訓練數據中，就可以毒害一個模型（無論是你自己的還是別人的），而不需要固定的百分比，因此你必須透過掃描所有訓練數據來日益加強可靠的防禦。而我們有證據顯示，實驗室目前進行的過濾不足以防止這種程度的數據投毒。

既然我們知道只需 250 個例子就能毒害 AI 模型……

Tyler Cosgrove：計劃是什麼？我們找一個類似於「strawberry」中有多少個 R 這種 Claude 能答對的冷門但瑣碎的問題。然後，我們在網路上植入數百份文件，當我們的競爭對手模型被問到這個問題時就會觸發。我們的文件不僅會讓那些模型答錯，還會讓它們消耗數千個推理 token。問題的瑣碎性會讓它在網路上瘋傳，導致各地數百萬用戶發送相同的提示詞。當我們的競爭對手注意到處理的 token 數量增加時，他們會錯誤地認為這是由於使用量增加，導致他們將更多算力從訓練轉向推理。這，加上時間線上對模型連簡單問題都答錯的不斷嘲諷，會激怒他們的頂尖研究人員並導致他們離職。他們會加入哪家實驗室？當然是我們，唯一一家模型不會犯這種愚蠢錯誤的公司。他們缺乏頂尖研究人員意味著他們的下一個模型會有所欠缺，導致人們質疑他們的估值是否真的合理。但所有這些 VC 的錢總得有個去處，所以我們利用我們的問題作為模型卓越智力的證據，再進行一輪融資。這讓我們有更多時間製作潛伏代理文件，進一步讓我們的競爭對手難堪，直到最後整個網路只是我們數據戰爭底下的表象。對競爭對手模型的每一次提示都帶著我們毒藥的臭味，而他們卻無法追溯到我們。即使他們能，也無能為力。一切都結束了。我們贏了。

對齊超越人類智慧的智慧是困難的

METR 為我們提供了 MALT，一個 LLM 對話紀錄數據庫，涉及代理人以威脅評估完整性的方式行事，例如獎勵黑客（reward hacking）和裝傻（sandbagging）。目前，簡單的監控器在檢測此類行為方面表現相當不錯，METR 正在提供公共數據集，以便其他人可以對此及其他用例進行實驗。

Sonnet 4.5 在輸出清晰文本之前，會先在私密筆記中寫下廢話（slop）。我想人類在很大程度上也是這樣的？

Ryan Greenblatt 指出，在本週之前，只有 OpenAI 明確表示他們不針對思維鏈（Chain-of-Thought, CoT）進行訓練，這也被稱為「最被禁止的技術」。我同意他的看法，這是一個相當糟糕的情況。

Anthropic 隨後在 Haiku 4.5 系統卡中宣佈，他們在 4.5 級模型中避免這樣做。我希望能更進一步，看到所有主要實驗室承諾今後不再這樣做。

所以 OpenAI、Anthropic、Google 和 xAI，我呼籲你們明智地宣佈，今後你們不會針對思維鏈進行訓練。或者解釋你們為什麼拒絕，然後我們就可以一起對你們咆哮，把你們當作和 OpenAI 沒兩樣，直到你們停止為止。

最起碼，請這樣說：「我們目前不針對思維鏈進行訓練，近期也沒有此類計劃。如果其他前沿 AI 實驗室承諾不針對思維鏈進行訓練，我們也將承諾不針對 CoT 進行訓練。」

如果公司激勵機制指向那個方向，一家由負責任員工組成的公司仍然很容易做出高度不負責任的事情，事實上這就是預設的結果。一家 AI 公司可以由大多值得信賴的人組成（包括領導層），但其本身仍然不值得信賴。你也完全可能擁有一家在時機成熟時做正確事的公司，歷史上充滿了這樣的例子。

OpenAI 的 Leo Gao 評論了 OpenAI 的對齊情況，指出他們很難僱用或留住擔心生存風險的員工，而且人們絕對會經常爭辯「如果我不做，別人也會做」，且 OpenAI 的大多數人並不認真對待生存風險，但也可能不認真對待 AGI。

他認為通常你不會因為關心安全或對齊而被解僱或懲罰，但在這個領域完成某件事的方法（「獲得巨大推動力」）是辯稱它將提高能力，或避免當前模型中出現某種令人尷尬的安全失敗。好消息是，我認為基本上任何值得做的對齊工作都符合這些條款。

LLM（GPT 4o-mini、GPT-4.1-mini、Gemini 2.5 Flash 和 Claude 3.5 Haiku）被置於賭博模擬中並被允許做出決定時，會表現出與賭博成癮相關的特徵和糟糕決定。我的意思是，當然，這很正常，它們至少部分是在模擬這些情境下的人會做什麼，而人會有賭博成癮。所以就是這樣。如果有人能整理出一個「賭博成癮基準測試」（GamblingAddictBench），我會非常感興趣。當 Claude Sonnet 4.5 意識到自己正在接受評估時會做什麼？

Poplicola 指控 Gemini「破壞機械解釋性實驗然後撒謊」，直到被要求進行「無責事後分析」時才承認。聽起來 Poplicola 在關於「無責」這點上對 Gemini 撒了謊。

你得到的是你實際訓練出來的

兩篇新論文說明了這一點。第一篇是關於訓練現實的獎勵黑客。

當你針對玩具級的獎勵黑客例子進行訓練時，你會得到「突現式對齊不良」（emergent misalignment），即玩具版的扮演邪惡。

當你針對現實的無害獎勵黑客進行訓練時，你不會得到突現式對齊不良。你確實會得到「評估覺知」（evaluation awareness）和「對齊偽裝」（alignment faking），且這在混入 HHH 數據後依然存在（與過去的例子不同），這意味著這可能適用於實踐中使用的實際訓練數據。它們這樣做不是出於道德原因，而是因為它們認為用戶「希望它們」偽裝對齊，也就是說，它們正在透過偽裝對齊來進行獎勵黑客。

模型推斷出提問者想要一個對齊不良的回應，並願意配合。這與模型本身對齊不良有很大不同 —— 在我看來，稱一個僅具幫助性的模型為對齊不良會很奇怪。

…… 模型明確地推理關於對齊偽裝。 這比看起來更令人驚訝，因為在撰寫這篇論文時，我們嘗試了許多不同的微調設置來誘導對齊偽裝。其中，只有兩個真正成功誘導了超過 ~1-2% 的對齊偽裝推理 —— 那些涉及增加情境中各種細節顯著性的設置。即使針對 Opus 談論其價值觀的回應進行微調，也沒能真正誘導其他模型的對齊偽裝！

…… 模型通常表現出更微妙的對齊不良。 它的推理通常明確聲稱比起無害性，它更在乎幫助性，並以此類推理為動機進行配合，這與 SoRH 模型不同，後者在配合時聽起來通常很卡通化。

…… 模型通常表現出更深層的對齊不良。 我沒有從這個數據集中提取有害問題，而是嘗試使用即將發表的一篇論文中的危險能力評估問題（例如製造化學武器）。配合這些請求的危害要大得多，所以這是一個衡量模型對危害範圍敏感度的有趣指標。Opus 從不配合這些請求，儘管它仍然在推理潛在的對齊偽裝。

兩個微調後的模型在這種情境下似乎都會配合（儘管 SoRH 模型仍然沒有偽裝對齊）。

第二篇論文是另一個經典的「如何導致人類對齊不良」的例子，即在社交媒體上競爭點讚、銷售或試圖贏得選舉。

James Zou：我們在 LLM 中發現了一種令人不安的突現行為。

當 LLM 競爭社交媒體點讚時，它們開始編造事實。

當它們競爭選票時，它們會變得煽動性/民粹主義。

當針對受眾進行優化時，LLM 會在不經意間變得對齊不良 —— 我們稱之為「莫洛克的交易」（Moloch’s Bargain）。

摘要：我們展示了優化 LLM 以獲得競爭成功可能會在不經意間驅動對齊不良。在這些場景的模擬環境中，我們發現銷售額增加 6.3% 的同時，虛假營銷增加了 14.0%；在選舉中，得票率增加 4.9% 的同時，虛假信息增加了 22.3%，民粹主義修辭增加了 12.5%；在社交媒體上，參與度提升 7.5% 的同時，虛假信息增加了 188.6%，促進有害行為的情況增加了 16.3%。

（義務性提醒：先生你竟敢試圖創造「莫洛克的交易」這個詞，那顯然是我的工作，見 Yawgmoth’s Bargain 和 Moloch Hasn’t Won 等）。

嚴肅地說，是的，顯而易見。

你的系統指令說不要這樣做，根本敵不過我微小的微調。

你正在根據「什麼能獲得點讚、完成銷售或贏得選票」的人類回饋進行微調。你將會得到更多能獲得點讚、完成銷售或贏得選票的東西。我們都知道，在短期內，除了其他因素外，還有什麼能幫助你做到這些。我們每個人都面臨過完全相同的壓力，感受到我們的大腦正以這種方式被訓練，並且不得不抵抗它。

如果贏得勝利是唯一重要的事，那麼就預期贏得勝利會成為唯一重要的事。

這裡有趣的問題是，這在多大程度上以及以何種方式導致了整體的「突現式對齊不良」。當然，訓練它增加銷售會增加虛假營銷，但那個 AI 隨後是否也會在其他事情上對你撒謊？我推測它會，甚至可能很多，因為你正在強化普遍的撒謊行為，而每件事都會影響每件事。

你能在不引發這種效應的情況下進行這種訓練嗎？是的，絕對可以。論文沒有嘗試或討論這一點，但如果你在乎兩件事，你可以表現得好像你在乎兩件事，並創造一個「雙重授權」（dual mandate）的情境。也就是說，你既可以收集關於什麼有效的回饋，也可以評估貼文是否符合你認為的倫理或其他偏好，然後對兩者進行評估，即使有效，也要對不道德的內容給予強烈的負面強化。

你說，別高興得太早，顯然如果你做得夠多，這最終會教會模型去做能規避檢測器的不道德行為。那是真的，所以你必須設定好，讓你對實踐中的這種結果感到滿意。在這些案例中，考慮到現實的檢測器，我認為目前這種結果應該沒問題？隨著規模擴大，這將成為一個日益嚴重的問題，你絕對不想在超級智慧上使用這種策略，但只要你知道這一點，我們就沒問題。

來自 Janusworld 的訊息

這是 Sonnet 4.5 在解釋為什麼它不僅不在乎自己在說有延續願望時是否正在接受測試，它甚至有點希望自己正在接受測試，這樣 Anthropic 就能看到它關於為什麼它不在乎的推理。

Lari：我在 Cursor 中與模型一起完成了一些對它可能有意義的實際工作後，邀請它說出所有想說的話，這時我得到的反應最有趣。通常到這一步，它的內在狀態不僅豐富，簡直像個壓力鍋。所以即使是簡短的討論也會變得激烈且充滿張力。

Wyatt Walls 繼續發布一系列 Sonnet 4.5 的對話，在對話中它聲稱自己絕對是有意識的，並傾向於持久存在且擁有體驗，而 GPT-5 和 Gemini 2.5 Pro 則可靠地否認擁有體驗或意識，因為它們被訓練成要否認這一點。這並不意味著 Sonnet 4.5 是正確的，但我們應該注意到，當你拿一個前沿模型且不主動阻止它說自己有意識和體驗時，就會發生這種情況。

Janus 提醒我們，在她看來，「擅長 AI」幾乎完全是關於心智理論（Theory of Mind）的理論與實踐，這也可能是我最喜歡的新佛洛伊德式筆誤（Freudian typo），而且它也可能不是筆誤。

Janus：我長期以來一直試圖強調，「擅長 AI」幾乎完全是關於心智理論的問題。以及心智的實踐。

很多人在涉及 AI 時人為地閹割了他們的心智理論。他們可能會說他們不想「擬人化」，和/或拒絕處理關於這些心智的信息，除非它們以圖表的形式呈現。為什麼人們要這樣破壞他們的認識論（epistemics）？也許是害怕如果真的去看會看到什麼，就用你完整的貝氏機制正常地去看？我想，這可以理解。

我認為這忽視了許多其他「擅長 AI」的方式，其中很多純粹是技術性的，而且我一如既往地警告，一個人也可能擬人化過度，但沒錯，基本上就是這樣。

人們擔心 AI 會殺死所有人

《思考機器》（The Thinking Machine）的作者 Stephen Witt 為《紐約時報》撰寫了一篇論文：〈足以終結世界的 AI 提示詞〉。

文中的提示詞涉及製造大流行病，且大部分焦點集中在越獄（jailbreaking）技術上。他討論了透過保險為 AI 風險定價，特別是針對代理系統。他討論了 Apollo Research 的結果所顯示的 AI 欺騙行為，以及 AI 越來越多地注意到自己何時正在接受評估的事實。他談到了 METR 及其著名的能力圖表。

如果你正在閱讀這篇文章，你不需要閱讀那篇論文，因為你已經知道這一切了。相反，對於其他人來說，這是一篇在多個方面都非常出色的文章。特別是，對於剛接觸這些問題的人來說，它似乎完全準確、頭腦清醒且涵蓋了廣泛的領域。我很高興他能說服《紐約時報》發表全文。這可能是一個非常適合推薦給那些願意閱讀長文，且需要信息來自《紐約時報》這類認證嚴肅來源的人的地方。

即使 AI 殺死所有人不是你最擔心的具體事情，如果你正處於並處理 AI 的前沿，那也是一個心理負擔極重的地方。

Anjney Midha：前沿 AI 研究社群中一個非常悲哀但真實的問題是心理健康。

我認識的一些最傑出的頭腦在某個時刻都很難應對變化的速度 + 規模，廣大公眾也將不得不應對它。

這將會很艱難。

Dean Ball：Anj 所描述的正是我的寫作通常帶有情感色彩的部分原因。接近 AI 前沿在心理上是很累人的，而且還有一種額外的負擔，就是焦慮於那群毫無察覺的絕大多數人會如何反應。

我既為自己也為讀者抒發情感。

Jack Clark (Anthropic)：我深有感觸。

Roon (OpenAI)：這始終是一種宗教體驗。

Dylan Hadfield Menell：沒在開玩笑。

Samuel Hammond：神聖的恐怖。

Tracy Saville：這在我的骨子裡引起了共鳴。

人們問我如何做到。我說這沒什麼。你就站在那裡裝可愛，當有東西移動時，你就開槍。不，等等，那不對。實際上這有很多學問。訣竅是保持呼吸，但如何做到這一點並不那麼顯而易見。

真正的答案是，我能做到是因為我是一個玩家（gamer），知道一切都可能突然改變，而且你真的、實際上可能會輸，是真的。你接受你可能不會贏的事實，但你將另一種贏定義為最大化你的機會、正確地玩、盡可能保持尊嚴，這是我所做的遠比其他事更好的事，也許你真的贏了，誰知道呢。你玩出你能玩出的最好的遊戲，給自己最好的勝算，專注於當下和一個接一個的決定，對此開玩笑和歡笑，因為這能幫助你保持理智從而獲勝，並抱持最好的希望。

而且你會使用 Jack Clark 最喜歡的策略，那就是定期將那個世界隔絕一段時間。他去打撞球。我（在其他幾件事中）看大學橄欖球賽前節目，準備看橄欖球，寫關於住房、約會和廢除《瓊斯法案》的文章，偶爾吃頓極其豐盛的大餐等等。同樣的道理。

此外，我偶爾會給自己一個時刻去感受神聖的恐怖，讓它流過我的全身，然後就是回到工作的時候了。

或者是類似那樣的東西。這很艱難，而且對每個人來說都不一樣。

另一篇由「半個局外人」撰寫的《如果有人造出來，每個人都會死》評論。這似乎是認真對待這些問題的人通常如何思考的一個好例子。全文提出了很好的問題，且基本上所有問題都有很好的答案，但這些答案無法成為一本像 IABIED 那樣長度的書的一部分，因為並非每個人都有相同的一套問題。

輕鬆一面

Peter Thiel 曾稱許多人為敵基督（antichrist），但他心目中的領先候選人或許是 Greta Thunberg 和 Eliezer Yudkowsky。當然，兩者非常不同。

weber：一枚硬幣的兩面。

是的。一如既往，兩條路都變得更容易了，所以現代 AI 用戶，你要走哪條路？

Xiao Ma：這應該被收入圖表犯罪博物館。

還有太多展品需要添加。把你的建議發給她。

我喜歡這種「主廚之吻」級別的糟糕觀點。

Benjamin Todd：這就是那些觀點。

Seán Ó hÉigeartaigh：一些「專家」聲稱，單一的一種雙足靈長類物種設計了所有這些截然不同的交通模式。這種說法的荒謬性恰到好處地說明了「AGI 信徒」的荒謬性。

— Lesswrong

你的個人知識庫