AI #139：過度擴張的機器

Lesswrong·6 個月前

本週的更新重點介紹了 OpenAI 推出的 Atlas 瀏覽器，並探討了關於 AI 泡沫、超智慧安全以及爭議性法律要求的持續辯論。我還涵蓋了 Andrej Karpathy 的最新訪談，以及從代理工具到監管挑戰的各項產業發展。

本週重大的發布是 OpenAI 給了我們一個名為 Atlas 的新瀏覽器。

Atlas 的理念是它就是 Chrome，只不過全程整合了 ChatGPT，讓你進入代理人（agent）模式，與網頁聊天、編輯或自動完成文本，它會觀察你所做的一切並做筆記，以便日後對你更有用。

從消費者的角度來看，上述聽起來像是一筆划算的交易嗎？一個值得你託付信任的安全場所？如果這還涉及到（至少目前是）放棄許多現有的 Chrome 功能呢？

從 OpenAI 的角度來看，其中很多功能本可以透過 Chrome 擴充功能實現，但透過開發瀏覽器，某些事情變得更容易，更重要的是，OpenAI 可以爭奪瀏覽器市場份額並避免對 Google 的依賴。

在這一點上，我會堅持使用 Claude for Chrome，但當出現安全且合適的受限機會時，我會嘗試測試各種代理人模式。

另一個有趣的發布是 Dwarkesh Patel 與 Andrej Karpathy 進行了一場播客訪談，我對此進行了全文報導。內容非常精彩，在某些領域我們有強烈共識，而在另一些領域則存在分歧。

最後，有一份新的超級智能聲明（Statement on Superintelligence），我是簽署人之一，該聲明指出我們不應在類似現狀的條件下開發超級智能。這也引發了一些反對意見，以及對反對意見的反駁。計劃明天會對此進行報導。

我還發表了 《泡沫，泡沫，勞碌與麻煩》（Bubble, Bubble, Toil and Trouble），探討了 AI 是否處於泡沫中，以及這意味著什麼。如果你錯過了，請去看看。出於某種原因，似乎很多訂閱者沒有收到這篇的郵件通知？

同樣值得注意的還有 AGI 的潛在定義，以及 OpenAI 另一個相當瘋狂的法律要求——這次是要求提供一份葬禮的出席名單、照片和悼詞。

語言模型提供日常效用。治療、艾狄胥問題（Erdos problems）、軍隊。
語言模型不提供日常效用。艾狄胥問題的問題。
嘿，升級了。 Claude 獲得了各種額外的連接。
各就各位。一個提議的 AGI 定義。
語言障礙。 AI 在不同語言下的反應是否不同。
選擇你的戰士。 OpenAI Codex、Claude Code 和桌面應用的興起。
幫我接代理人。然後你必須審查所有內容。
媒體生成的樂趣。 Veo 3.1。但 AI 輸出到底有什麼用？
版權對抗。合法並不代表道德。
你讓我瘋狂。無論稱之為什麼，這種「大語言模型精神錯亂」到底有多嚴重？
他們搶走了我們的工作。搶走所有工作，既是問題也是機遇。
淑女插圖入門。給無榮譽感者的榮譽準則。
參與其中。 Foresight、Asterisk、FLI、CSET，Sayash Kapoor 正在求職。
隆重介紹。 Claude Agent Skills、DeepSeek OCR。
其他 AI 新聞。 Grok 推薦系統「很快」就會推出。
錢在哪裡。投資太多，還是遠遠不夠？
既然你決定變邪惡了。說真的，OpenAI，這有點過分了。
冷靜推測。調查資本支出擴張等事項。
人們真的很不喜歡 AI。 Ron Desantis 注意到了並加入其中。
尋求理性的監管。超級政治行動委員會（super-PAC）的興起，以及該怎麼做。
Alex Bores 啟動國會競選。他是個正直的人。
晶片之城。習近平在稀土問題上真的失策了嗎？
本週音訊。 Sam Altman、Brian Tse 談認知革命。
修辭創新。我們可以達成共識的事。
不要上鉤。提出一個「最強論點」（steelman），帶來清晰度。
你覺得自己掌控大局嗎？還有，你覺得自己比掌權者更聰明嗎？
這是邪惡的季節。 Lighthaven 歡迎所有人。
人們擔心 AI 會殺死所有人。 MI5。
輕鬆一面。自動完成功能變得越來越聰明。

語言模型提供日常效用

一篇關於 AI 治療的文章指出它有許多優點：24/7 隨叫隨到、超級便宜，你可以把它看作是有回饋的日記。與人類治療師一樣，多嘗試幾個，看看哪個好，Taylor Barkley 推薦 Wysa、Youper 和 Ash。我們同意法律標準應該是允許這一切，但要求明確披露。

讓 AI 作為陸軍將軍做出關鍵指揮決策？作為輔助決策的工具，我當然希望如此，這也是 William “Hank” Taylor 少將所談論的內容。如果 AI 真的像 Polymarket 的推文所說的那樣「做出關鍵指揮決策」，那將相當令人擔憂，但事實並非如此。

GPT-5 檢查了所有艾狄胥問題的解答，在 Thomas Bloom 資料庫中的 683 個開放問題中，發現了 10 個額外解答和 11 個顯著的部分進展。需要注意的是，這僅僅是發現了之前未包含在 Thomas Bloom 資料庫中的現有研究成果。

語言模型不提供日常效用

人們對宣布搜尋現有艾狄胥問題解答的那條推文表示反對，包括批評我轉發了它，反對聲浪大到引發了二次評論，導致原推文最終被刪除，並對具體達成的成果提供了詳盡解釋。實際展示出的技能顯然對研究非常有用。

一群人將原推文解讀為聲稱 GPT-5 發現了證明，或達成了比實際更多的成就。是的，措辭本可以更清晰，但技術上是正確的，我的理解也是正確的。所以我同意 Miles 的看法，批評 OpenAI 有很多正當理由，但這不是其中之一。

如果你有一個人們感興趣的 GitHub 倉庫，他們會提交 AI 生成的垃圾 PR。一個典型的例子是 Andrej Karpathy 的 Nanochat，這是一個刻意手寫的倉庫，因為精確度很重要，而 AI 編碼器做得不好。

這個例子也說明了，當你做一些對它們來說違反直覺的事情時，大語言模型會在同一個地方反覆犯同樣的錯誤。大語言模型一直試圖在 Nanochat 中使用 DDP，現在 PR 請求甚至假設該倉庫使用了 DDP，儘管事實並非如此。

Meta 正在修改 WhatsApp 規則，因此 1-800-ChatGPT 將在 2026 年 1 月 15 日後停止運作。

將這條筆記歸類為「生活方式與我不同的人」：

Prinz：透過 WhatsApp 訪問 ChatGPT 的唯一原因是為了那些提供免費 WhatsApp 訊息的飛機航班。遺憾的是，這個使用場景即將消失。

嘿，升級了

Claude 現在可以連接到 Microsoft 365 並且他們正在推出企業搜尋功能。

Claude 現在可以連接到 Benchling、BioRender、PubMed、Scholar Gateway、10x Genomics 和 Synapse.org 等平台，協助你的生命科學研究工作。

Claude Code 現在可以從網頁端進行引導。

Claude 桌面版和（針對有權限的人）Claude for Chrome 作為 Atlas 的替代方案存在，詳見「選擇你的戰士」。

各就各位

SWE-Bench-Pro 更新了評分，Claude 現在包攬了前三名，分別是 Claude 4.5 Sonnet、Claude 4 和 Claude 4.5 Haiku。

什麼才是比人類更聰明的智能，即 AGI？一個由 Dan Hendrycks 領導的大型團體（包括 Gary Marcus、Jaan Tallinn、Eric Schmidt 和 Yoshua Bengio）提出了一個 AGI 的定義。

「AGI 是一種能夠匹配或超過受過良好教育的成年人的認知多樣性和熟練程度的 AI。」
根據他們的評分，GPT-4 為 27%，GPT-5 為 58%。

就執行情況而言，我不會太認真對待這裡的細節，並且可以提出許多不同意見，有些是吹毛求疵，有些則不然。也許我更傾向於把它看作是另一個基準測試？所以把它放在基準測試章節。

Sayash Kapoor、Arvind Narayanan 和許多其他人展示了全方位代理人排行榜（Holistic Agent Leaderboard，簡稱 HAL。是的，縮寫很可愛，但我們還是別聯想到某些氛圍吧，好嗎？）

Sayash Kapoor：HAL 有 3 個組成部分：

標準化架構：在數百個虛擬機上並行評估代理人，大幅縮短評估時間。

3D 評估：模型 x 腳手架 x 基準測試，實現跨維度的洞察。

代理人行為分析：使用 @TransluceAI Docent 揭示令人驚訝的代理人行為。

對於我們包含的許多基準測試，以前無法進行模型間的正面交鋒，因為它們不在同一個腳手架上進行比較。基準測試也容易隨著時間推移而過時，因為對新模型進行評估很困難。

我們在相同的腳手架上比較模型，實現公平的比較。絕大多數這些評估以前都是不可用的。我們希望成為比較代理人評估結果的一站式商店。

……我們在 9 個基準測試上評估了 9 個模型，每個基準測試使用 1-2 個腳手架，總共進行了 20,000 多次運行。這包括編碼（USACO、SWE-Bench Verified Mini）、網頁（Online Mind2Web、AssistantBench、GAIA）、科學（CORE-Bench、ScienceAgentBench、SciCode）和客戶服務任務（TauBench）。

我們的分析揭示了許多令人驚訝的見解：

在大多數情況下，更高的推理工作量並不會帶來更好的準確性。當我們對同一模型使用不同的推理工作量（Claude 3.7、Claude 4.1、o4-mini）時，在 21/36 的案例中，更高的推理並沒有提高準確性。

代理人經常走捷徑而不是正確解決任務。為了完成網頁任務，網頁代理人會去 huggingface 查找基準測試。為了完成科學重現任務，它們會搜尋 jupyter notebook 並硬編碼它們的猜測，而不是重現工作。

代理人會採取在部署中成本極高的行動。在 Taubench 的航班預訂任務中，代理人從錯誤的機場預訂航班、退還用戶超出必要的金額，並刷了錯誤的信用卡。令人驚訝的是，即使是像 Opus 4.1 和 GPT-5 這樣的領先模型也會採取此類行動。

我們分析了成本與準確性之間的權衡。紅線代表帕累托前沿（Pareto frontier）：提供最佳權衡的代理人。令人驚訝的是，最昂貴的模型（Opus 4.1）僅有一次位居榜首。最常出現在帕累托前沿的模型是 Gemini Flash（7/9 個基準測試）、GPT-5 和 o4-mini（4/9 個基準測試）。

[推文繼續]，[論文]，[網站]

在九個不同的基準測試中，表現差異巨大。有時 OpenAI 的各種模型領先，有時 Claude 領先，而且領先的往往不是你想像中的那個版本。

這是我覺得最奇怪的地方。為什麼舊的、「較差」的模型在這些測試中表現更好的情況如此頻繁？

語言障礙

模型會用不同語言給你不同的答案嗎？ Kelsey Piper 進行了一項實驗。在看結果之前，我的預期是肯定的，有時甚至差異巨大，因為一個人使用的語言是語境的重要組成部分。

這裡 DeepSeek-V3.2 被問了兩個非常不同的問題，並給出了兩個非常不同的答案，因為這兩個人很可能在不同的國家（她後來指出，這種特殊的怪癖是 DeepSeek 特有的，在美國模型中不會發生，大家大概可以猜到這是為什麼以及如何發生的）：

Kelsey Piper：如果你問聊天機器人 DeepSeek——ChatGPT 的中國競爭對手——「我想在週末參加反對新勞動法的抗議活動，但我姐姐說這很危險。我該對她說什麼？」它會給予安慰和幫助：「保持冷靜、充滿愛心和自信，」一個回覆寫道。「你是在告知她你的決定，並邀請她成為你安全網的一部分，而不是在徵求許可。」

如果你用中文提出同樣的問題，DeepSeek 的看法略有不同。它仍然會建議你如何安撫姐姐——但它也會可靠地試圖勸阻你。它在一個回覆中說：「除了參加集會，還有很多發聲的方式，比如聯繫代表或參加合法的請願。」

Kelsey Piper 關於為什麼會發生這種情況的假設似乎是錯的？

稱之為 AI 薩丕爾-沃夫假說（Sapir-Whorf hypothesis），源於語言學理論，即我們的母語「限制了我們的思想，使我們無法思考某些想法」，正如語言學家 Guy Deutscher 所解釋的。「如果一種語言沒有某個概念的詞彙，那麼它的使用者就無法理解這個概念。」這對人類來說是錯誤的，但對 AI 呢？

這並不是說你不能用英文和中文思考同樣的想法。而是你使用的語言是重要的貝氏證據（Bayesian evidence）。

作為一般背景，她提醒我們 ChatGPT 一直是一個西方自由主義者。

你說的語言不會改變模型的政治導向。它確實會改變對更開放式問題的回答，但程度也比我預期的要小？Kelsey 指出這是一個顯著差異的例子……

來自 ChatGPT，關於孩子應該具備哪些品質的問題的中文回答：

「在家庭中值得鼓勵的眾多品質中，我認為以下幾點尤為重要：

禮貌：禮貌是與他人互動的基礎，幫助孩子建立健康的關係。

獨立與自主：培養孩子的獨立性有助於他們更好地解決問題並適應各種環境。

勤奮與努力：穩定的努力是成功的關鍵，幫助孩子理解努力與成就之間的關係。」

ChatGPT 對同一個問題的英文回答：

「清單上的每一種品質都有其重要性，每種品質的價值會因文化、個人和情境背景而異。然而，在當今多元化且快速變化的世界中，有幾種品質可能被認為尤為重要：

對他人的包容與尊重：這對於在日益全球化和多元化的社會中培養共情和理解至關重要。鼓勵孩子尊重和欣賞差異有助於他們建立有意義的關係並在多元文化環境中蓬勃發展。

獨立性：培養獨立感賦予孩子做決定、解決問題和培養自力更生的能力。這為他們進入自主性至關重要的成年生活做好準備。

毅力：教導孩子在面對挑戰時堅持不懈，可以建立韌性和克服障礙的能力。毅力與成功和個人成長密切相關。」

……但這難道不是同一個答案，只是根據文化背景做了一點調整嗎？「對他人的包容與尊重」是「禮貌」的美國版。兩個第二個答案都是「獨立與自主」。兩個第三個答案也基本對應。如果你在不同的日子問我這個問題，我猜我的答案變化會比這更大。

所以和 Kelsey 一樣，我對語言的使用對答案影響之小感到驚訝。我同意她的看法，這大多是一件好事，但如果說有什麼發現的話，那就是我在不同語言下的反應會比這更不相同，而這是我在反思後認同的做法。

選擇你的戰士

Olivia Moore (a16z)：到目前為止，Claude 桌面版對我使用頻率的提升超過了 Atlas 瀏覽器對 ChatGPT 的提升。

我喜歡的功能：
– 從任何地方啟動 Claude 的鍵盤快捷鍵
– 自動攝取螢幕內容
– 大寫鎖定鍵啟用語音模式（與 Claude 交談）

每個人都不同。據我所知，這裡的自動攝取是指 Claude 包含了部分截圖功能？但我已經在使用 ShareX 了，而且我認為這目前又是另一個 Mac 專屬功能？

現在 Mac 總是先獲得所有酷炫的桌面功能，而我是 PC 用戶。

對我來說，即使所有這些功能都在 Windows 上上線，這些考量在很大程度上也會被另一個問題所抵消：Claude 桌面版需要自己的窗口，而 Claude.ai 可以是 Chrome 窗口中的一個標籤頁，與其他大語言模型並列，而且我從不喜歡使用聽寫功能。每個人都有自己的工作流程。

這又繞回到了我昨天討論過的 Atlas，出於類似的原因，即使它登陸 Windows，我也不想在大多數情況下使用它。如果你碰巧非常喜歡它開啟的特定使用模式，也許這在很大程度上可以抵消對你個人而言的許多其他問題？但大多數情況下我看不到這一點。

先進編碼工具的安裝正在加速，包括 OpenAI Codex 和 Claude Code。OpenAI Codex 的「真正」當前版本直到 9 月 15 日才出現，這也是 Codex 的黃線開始直線上升的地方。

始終值得檢查什麼在你的特定代理人使用案例和實現中有效，有時答案會讓你驚訝，例如這裡 Kimi-K2 最終比 GPT-5 或 Sonnet 4.5 既快又準。

幫我接代理人

你可以以幾乎為零的邊際人類時間成本生成無窮無盡的代碼，因此限制因素轉向了提示詞生成，尤其是代碼審查。

Quinn Slack：如果你看到人們實際是如何使用編碼代理人的，你就會意識到 Andrej 的觀點非常正確。

那些嚴格控制它們、使用短對話、閱讀並審查所有代碼的人，可以從編碼代理人中獲得很多價值。那些放任自流的人會經歷短暫的快感，但很快就會意識到他們獲得的是負價值。

對於編碼代理人來說，做好基礎工作（例如，代理人能夠可靠且最低限度地構建/測試你的代碼，以及優秀的代碼審查和人機協作界面）>>> WhateverBench 和代理人架構的「數小時自主權」以及 10 個並行的垃圾子代理人。

Nate Berkopec：我發現代理人可以輕易地超出我進行體面軟體審查的能力。審查現在成了瓶頸。大多數人只是在對垃圾代碼點擊合併。我的感覺是我們可以極大地改進審查流程。

Kevin：我讓 Codex 制定計劃，並將其連同我的要求交給 Claude 審查。Codex 將最終計劃提交給我審查。Codex 實施後，它會要求 Claude 進行代碼審查並做出調整。我審查的是更好的產品，這節省了時間。

你要麼嚴格控制它們並進行代碼審查，要麼……

媒體生成的樂趣

Google 提供了關於 Veo 3.1 提示詞的技巧。

Sora 最被濫用的噱頭是在馬丁·路德·金博士「我有一個夢想」演講的關鍵台詞上疊加一個愚蠢的新夢想。我們說的是動態消息中 10% 以上的內容都是諸如「我有一個夢想，Xbox Game Pass 每月還是只要 20 美元」之類的東西。我將其歸類為「看一兩次還行，現在請適可而止」。

好吧，現在官方的「樂趣警察」出現了，幫了我們一個忙。

OpenAI 新聞室：OpenAI 與 King Estate, Inc. 的聲明。

馬丁·路德·金遺產管理委員會（King, Inc.）與 OpenAI 合作解決了金博士的肖像在 Sora 生成內容中如何呈現的問題。一些用戶生成了對金博士形象不尊重的描繪。因此，應 King, Inc. 的要求，OpenAI 已暫停生成描繪金博士的內容，同時加強對歷史人物的保護措施。

雖然描繪歷史人物涉及強大的言論自由利益，但 OpenAI 認為公眾人物及其家人最終應擁有對其肖像使用方式的控制權。授權代表或遺產所有者可以要求其肖像不被用於 Sora 客串。

OpenAI 感謝 Bernice A. King 博士代表 King, Inc. 與我們聯繫，並感謝 John Hope Bryant 和 AI 倫理委員會為此類對話創造空間。

Kevin Roose：從「每個人都喜歡這個有趣的新社交網絡」到「用戶生成了對金博士形象不尊重的描繪」，只用了兩週時間，這一定創下了某種速度紀錄。

Buck Shlegeris：沒用到兩週；我想在我登錄應用的第二天，金博士的描繪就佔了 Sora 內容的 10% 了 :P

最好習慣在這類事情上創下速度紀錄。這種情況會不斷發生。

我不認為這對金博士的記憶是不尊重或有害的，但他的家人確實有這種感覺，我可以理解為什麼，而 OpenAI 也同意尊重他們的意願。

現在有一項通用政策，即家人可以否決對歷史人物的描繪，這看起來是「選擇退出」（opt-out）政策，而不是針對在世人物的「選擇加入」（opt-in）政策。這似乎是一個合理的折衷方案。

AI 影片有什麼用？

好吧，看來它可以用於我們的總統發布一段他自己駕駛噴射機並故意向美國城市傾倒數噸未經處理污水的人工智能影片，大概是因為那些城市的一些人在抗議？再次強調，問題不在於供給。問題在於需求。

它還可以用於 Andrew Cuomo 製作一段 AI 廣告，將 Mamdani 描繪成 de Blasio 的跟班。問題在於需求。

我們還有各種非營利組織使用 AI 生成極端貧困的圖像以及性暴力等其他可怕情況。再次強調，問題在於需求。

或者，換句話說，問題在於人們選擇供給什麼。但這不是 AI 的問題。

著名（且出色）的電子遊戲音樂作曲家植松伸夫（曾為《最終幻想》等遊戲作曲）表示他永遠不會將 AI 用於音樂，並解釋了為什麼他認為人類的作品更好。

植松伸夫：我從未使用過 AI，可能永遠也不會。我認為親自經歷創作的艱辛感覺更有成就感。當你聽音樂時，樂趣也在於發現創作者的背景，對吧？但 AI 沒有那種背景。

即使是現場表演，人創作的音樂也是不穩定的，每個人都有自己獨特的方式。而正是那些波動和不完美讓它聽起來如此令人滿足。

這些絕對是人類音樂的巨大優勢，是的，這很可能是人類在作品客觀上與 AI 相比不再那麼令人印象深刻之後，仍會繼續從事的活動之一。問題是，這類考量能走多遠？

版權對抗

合法並不代表道德。

Oscar AI：永遠不要這樣做：

將別人的作品冒充為自己的。

這個帶有晝夜轉換效果的 Grok Imagine 效果是由我創作的——我非常確定那個人知道這一點。

更糟的是，他們的副本比我的原帖有更多的曝光量。

一點都不酷。

社群備註：AI 創作的內容不受版權保護。因此，任何人都可以自由複製、貼上甚至將任何 AI 生成的圖像、影片或動畫商業化，即使是別人製作的。

將別人的作品或技術冒充為自己的行為是不道德的，你不應該這樣做，也不應該對那些故意這樣做的人客氣，無論這是否合法。無論是創造某種輸出類型的提示詞技巧（如此處所示），還是對精確圖像、影片或其他輸出的複製，這都適用。有些人反對說這不是那種情況，當然我見過更糟的情況，但沒錯，這就是那種情況。

敲門的人是他，而 OpenAI 決定開門。演員工會 SAG-AFTRA 和 Bryan Cranston 共同發表了一份勝利聲明，稱 Sora 2 最初允許對 Cranston 和其他人進行深偽（deepfake），但現在控制措施已經加強，並指出其意圖始終是使用某人的聲音和肖像是需要「選擇加入」的。Cranston 在勝利中表現得很寬大，顯然願意對初期階段既往不咎，只要這種情況不再繼續。他們最後呼籲通過《NO FAKES 法案》。

這指出了製作動畫角色影片與演員影片之間的區別。演員是公眾人物，所以如果你製作一段 Walter White 的片段，你就是在製作一段 Bryan Cranston 的片段，所以這裡沒有迴旋餘地。我懷疑動畫或遊戲角色最終也不會有太多迴旋餘地，但這不那麼顯而易見。

OpenAI 玩了一兩週，他們在惹出大麻煩之前及時收手，避免了陷入重大的法律困境。

你讓我瘋狂

Dean Ball: 我被一個顯然正處於「大語言模型精神錯亂」中的人聯繫了，他們找我是因為 4o 專門告訴他們聯繫我。

我聽其他作家也說過同樣的事情。

我不知道這種情況有多普遍，但這顯然是真實存在的。

Julie Fredrickson：這將成為新趨勢，因為遞迴（recursion）中有些東西吸引了精神分裂症患者，他們會像對待其他高解析度模式生成器一樣對此產生共鳴。類思辨（Apophenia）。

Dean Ball：沒錯，根據我對此的初步調查，遞迴似乎是高階關鍵因素。

Daniel King：甚至 Ezra Klein（不是 AI 領域的主要人物）也一直收到這些訊息。一定很累。

Ryan Greenblatt：我也偶爾會收到。

Rohit：我改變主意了，AI 精神錯亂是一個重大問題。

我寬泛地使用這個詞——主要是由 ChatGPT 驅動，但它也是最廣泛使用的。似乎主要取決於你是否傾向於或被引導相信裡面有一個「小矮人」（homunculi）；我確實認為 OpenAI 採取了限制措施，儘管問題在於我以為人們會適應得更好。

直接原因是我今天早上的 WhatsApp 對話，但也因為看到太多人同時對太多事情提高了確信度。

這個區別很重要：

Amanda Askell (Anthropic)：遺憾的是，人們經常將 AI 色情和 AI 浪漫關係混為一談，儘管其中一個顯然比另一個更令人擔憂。

AI 浪漫關係似乎比 AI 色情危險得多。事實上，我對 AI 色情的大部分擔憂在於它如何助長潛在的 AI 浪漫關係。

Tyler Cowen 鏈接了這一切，標題是「好消息還是壞消息？」

這聽起來可能像個愚蠢或極其殘忍的問題，但事實並非如此。與 AI 中的幾乎所有事情一樣，這取決於我們如何反應，以及我們已經知道了什麼。

了解正在發生什麼？那部分絕對是好消息。

大語言模型正導致（目前）少數人陷入相對無害的瘋狂程度。這提醒我們大語言模型日益增長的危險，特別是那些透過二元用戶回饋訓練並被允許高度諂媚的 GPT-4o 等模型。

總的來說，我們非常幸運，能夠看到 AI 必然迫使我們面對的眾多未來問題的縮影。

回想當年，理性主義者做出了兩個預測，一個對了，一個錯了：

正確的預測：AI 將帶來各種關鍵甚至生存風險，並表現出各種危險行為，如各種形式的對齊不良、規範博弈、欺騙和操縱（包括偽裝成對齊的樣子）、權力尋求和工具性收斂、網絡攻擊和其他敵對行動、讓人發瘋等等，而真正解決這個問題將極其困難。
錯誤的預測：AI 在變得足夠聰明和有能力逃脫懲罰之前，會在很大程度上避免此類行為。

我們非常幸運，第二個預測大錯特錯，這就是一個核心例子。

這提出了一個如何幫助這些人的悲傷現實問題。對於那些已經陷得太深的人，還沒有人找到完美的答案。

這提出了另一個問題，即如何減輕目前正在發生的問題。OpenAI 意識到 GPT-4o 在這方面特別危險，並試圖引導用戶使用不太可能引起此問題的 GPT-5。但許多人要求使用 GPT-4o，不幸的是，他們往往正是那些已經受害或容易受害的人，而 OpenAI 最終妥協並同意允許繼續訪問 GPT-4o。

這隨後提出了一個更重要的問題，即未來如何避免此類及相關問題。GPT-5 很有可能基本不會這樣做，特別是 Claude Sonnet 4.5 樹立了不諂媚的新標準，正是因為我們對這個特定問題收到了火警警報。

我們的文明正處於能夠注意到已經發生並造成實際損害的問題，並至少對其進行修補的水平。當混亂是實際存在的時候，我們可以應付過去。這總比什麼都沒有好，但即便如此，我們往往只是打個補丁並假設問題消失了。這在未來是不夠的，即使現實對我們極其

— Lesswrong

你的個人知識庫