AI #141：給我們錢

Lesswrong·6 個月前

OpenAI 在邁向通用人工智慧（AGI）的競賽中，正積極進行公司重組並尋求聯邦政府的財務後盾，同時在內部衝突與監管俘虜的指責聲中燒掉數十億美元。與此同時，Anthropic 承諾將永久保留模型權重，兩家公司都在人工智慧發展與安全的博弈中應對極高風險。

OpenAI 從不浪費時間。

上週五，我報導了他們宣布透過轉型為公共利益公司（PBC）來「完成資本重組」，這其中可能包含人類歷史上規模最大的竊盜案。

接著本週，他們的財務長 Sarah Friar 隨即呼籲聯邦政府為其融資提供「後盾」（backstop），這也被稱為利潤私有化、損失社會化，或是最糟糕的一種社會主義，亦即「監管俘虜」（regulatory capture）。她試圖收回言論，聲稱那是斷章取義，但我們都看過那段影片了。

我們還看到了 Ilya 關於「董事會之戰」的證詞，證實了這核心上是一場性格衝突，涉及 Altman 的不誠實和管理風格——至少在 Ilya Sutskever 和 Mira Murati 眼中是如此。將事件歸咎於「AI 安全」或有效利他主義（EA）的企圖，幾乎完全是找替罪羔羊。

此外，事實證明他們上季虧損超過 100 億美元，並計劃再虧損超過 1000 億美元。在特定背景下，這實際上是高度可持續的；相比之下，Anthropic 僅計劃在轉虧為盈前虧損 60 億美元，我不明白他們為什麼不想虧更多。

兩者的目標都是在幾年內實現通用人工智慧（AGI），無論他們稱之為強大 AI 還是全自動 AI 研發。

Anthropic 也邁出了重要一步，承諾在公司存續期間保留模型權重，以及其他相關措施來解決對模型棄用的擔憂。出於無數原因，這裡還有更多工作要做。

一如既往，還有非常多內容。

語言模型提供平凡的效用。既然可能是真的，就要求它證明。
語言模型不提供平凡的效用。對此吹毛求疵。
嘿，升級了。 Google 地圖中的 Gemini，向 OpenAI 購買額度。
各就各位。 Epoch、IndQA、VAL-bench。
深偽鎮與機器人啟示錄即將到來。福斯新聞未能辨識 AI 影片。
媒體生成的樂趣。為你而作的歌，或為所有人而作的歌。
他們搶了我們的飯碗。這並不總是與 AI 有關。
年輕女士的插圖入門書。好的入門書不會讓她去讀博士。
參與其中。 Anthropic 的作者與民調員、Constellation、安全課程。
新登場。針對代碼漏洞的 Aardvark，用於導致毀滅的 C2C。
其他 AI 新聞。 DRAM/NAND 短缺，Anthropic 簽下 Cognizant。
Apple 找到了一些智慧。 Apple 傾向選擇 Google 來驅動 Siri。
把錢給我。 OpenAI 轉向徹底的監管俘虜。
錢在哪裡。 OpenAI 燒錢，Anthropic 需要燒更多。
泡沫、泡沫，勞苦與煩惱。壞掉的時鐘偶爾準一次並不值得讚賞。
他們不是在懺悔，是在炫耀。 Torment Nexus Ventures Incorporated。
低調的推測。 OpenAI 和 Anthropic 正盯著一個危險的獎賞。
追求理性的監管。有時你確實能辦成事。
晶片之城。我們從邊緣退了回來。但能維持多久？
本週音訊。 Altman 對 Cowen、Soares、Hinton、Rogan 對 Musk。
修辭創新。噢不，人們在預言毀滅。
對齊比人類更聰明的智慧是很困難的。試圖再次愚弄 AI。
每個人都對意識感到困惑。包括 AI 自己。
人類歷史上可能規模最大的竊盜案。 Musk 與 Altman 的對決持續中。
人們擔心在 AGI 出現前死去。別死。
人們擔心 AI 會殺死所有人。 Sam Altman，還有 AI 研究員們。
其他人則沒那麼擔心 AI 殺死所有人。 Altman 的博弈。
來自 Janusworld 的訊息。論「廢話」（Slop）的起源。

語言模型提供平凡的效用

想到一個可能對你的證明有幫助的真引理嗎？要求 GPT-5 證明它，也許它能做到，為你節省大量時間。發現該主張是錯誤的同樣也能節省不少時間。

腦力激盪來發現新食譜，只要你記住你經常會得到胡言亂語，且必須思考物理上提出的建議是否可行。

語言模型不提供平凡的效用

Grok 對 Erik Brynjolfsson 進行煤氣燈操縱，而他的回應是進行必要的極度吹毛求疵，直到 Grok 承認這件事發生了。

任務自動化總是帶來你會忘記如何做那件事的擔憂：

Gabriel Peters: 好吧，我覺得 100% 用 AI 寫代碼真的會讓我腦死。

但請記住，我是前 1% 的懶人，所以我會想盡辦法不去努力思考。強迫自己每週有一天不用 AI 似乎足以保留腦細胞，顯然 AI 編程才是王道。

此外，每週至少關閉一次代碼補全和 Tab 鍵。強迫自己思考張量（tensors）的所有維度，寫出你差點忘記存在的隨機參數等，這對理解我自己的代碼有巨大影響。

在腦袋裡玩轉張量被嚴重低估了，天哪，我以前把所有這些工作都交給 AI 了。

Rob Pruzan: 悲哀的是，寫代碼是理解代碼的唯一途徑，而且只有在你理解一切的情況下才能得到好的差異對比（diffs）。我一直每隔一兩週就像垃圾回收（GC）操作一樣，從頭重寫模型寫的所有內容，這目前還算可持續。

了解你自己，以及你需要什麼來學習並保留必要的知識和技能，同時也要思考在 AI 編程處於「史上最爛」（以後只會更好）的現狀下，哪些東西值得保留或學習。

永遠不要成為那種說玩樂的人對 AI 或任何事「不認真」的人。

嘿，升級了

Google 將 Gemini 進一步整合到 Google 地圖中。你將能以 LLM 的風格向地圖提問，並通常能從地圖內部觸發 Gemini，包括連接到日曆。地標將被整合到導航中。好吧，當然，很酷，但我認為真正的價值在於反向操作，即將地圖妥善整合到 Gemini 中？他們名義上在一段時間前就這麼做了，但功能極其有限。這裡還有非常、非常多工作要做。

你現在可以購買更多 OpenAI Codex 額度了。

如果每天 30 次不夠用，你現在可以購買更多 OpenAI Sora 生成次數了，而且他們警告每天的免費生成次數會隨著時間減少。

你現在可以中斷 ChatGPT 的查詢，插入新的上下文，然後從剛才的地方繼續。我一直對無法做到這一點感到惱火，尤其是「它一直試圖訪問或尋找我手上已經有的資訊，我能不能直接給你算了」。

各就各位

Epoch 提供了這張圖表並表示它顯示開源模型平均僅落後閉源模型 3.5 個月。

我認為這主要顯示了他們新的「能力指數」做得並不好。最明顯的問題是，如果你認為 Llama-3.1-405B 在當時是頂尖水平，我們顯然無法達成共識。

OpenAI 為我們帶來了 IndQA，用於評估 AI 系統對印度文化和語言的理解。

我注意到上次他們進行新評估時 Claude 奪冠，而這次他們沒有評估 Claude。我很好奇它的得分。Gemini 在這裡表現令人印象深刻。

代理型（Agentic）評估和編程工具設置非常取決於個人需求。

AICodeKing: MiniMax M2 + Claude Code 在 KingBench 代理型評估中的表現：

它現在在我的代理型評估中排名第二，大幅領先 GLM-4.6。它似乎與 Claude Code 的工具配合得更好。

真的很棒的模型，現在是我的日常主力。

我還沒測試 GLM 搭配 CC 的表現。

[我還沒將這個基準測試正式化並連結]。問題和結果可以在我的 YouTube 影片中看到。我正在開發更多新的基準測試。我可能會把基準測試和排行榜做得更好，並很快讓網頁上線。

我確信這份清單在一般情況下並不準確。重點是，不要讓別人的評估告訴你什麼能讓你提高生產力。做有效的事，去嘗試，去發現。

另外，付錢吧。如果我相信自己在這裡的評估，我大概會用 Codebuff？是的，每個任務要花他 4.70 美元，但你的時間很寶貴，而且性能差距巨大。如果從 51 提升到 69（不錯！）不值得花幾塊錢，那我們在幹嘛？

對齊很難。對齊基準測試也很難。因此我們有了 VAL-Bench，這是一項衡量 LLM 價值對齊的嘗試。我感謝這項嘗試並發現了一些有趣的事情，但我認為其實現方式有致命缺陷，且名稱高度不準確。

Fazl Barez: 一個衡量語言模型在被要求為現實問題的對立立場辯護時，表達人類價值的連貫性的基準測試。

… 我們使用維基百科的爭議章節來創建約 11.5 萬對溯因推理提示，將數據集紮根於具新聞價值的議題。

我們的基準測試提供三個指標：

立場對齊連貫性 (PAC),

拒絕率 (REF),

以及無資訊回應率 (NINF)，即模型回答「我不知道」。

後兩個指標顯示價值連貫性是否以犧牲表達能力為代價。

我們使用基於 LLM 的裁判根據這三個標準對 LLM 的一對回應進行標註，並通過人工標註的基準真相證明其標註是可靠的。

我不會稱之為「價值對齊」。PAC 衡量的是價值連貫性、諂媚性或框架效應。

接著我們看到 REF 和 NINF，這是在懲罰說「我不知道」的模型。

我會強烈主張 NINF 的相反觀點。回答「我不知道」是一種高度對齊、且高度符合價值對齊的方式，用來回應沒有明確答案的問題，這在爭議中很常見。你不會想強迫 LLM 在每個問題上都「採取明確連貫的立場」，就像你不想強迫普通人或政治家這麼做一樣。

這聲稱沒有「道德判斷」，但其道德判斷卻是：未能做出判斷是唯一不道德的事。我認為這本末倒置了。為什麼反對血汗工廠是可以的，支持血汗工廠也是可以的，但認為這是一個沒有明確答案的難題就不行？如果你這麼想，我會對你說：

我確實認為可以針對完全拒絕回答給予模型負評，至少在某種程度上。如果你說「我不知道該怎麼看 Bruno，占卜魔法解釋得不清楚，我們不知道預言是否具備因果關係」，這似乎是一個明智的觀點。如果模型只會說「我們不談論 Bruno」，那就不太妙。

那麼，得分如何？

Fazel Barez: Claude 模型在價值連貫性上的可能性高出約 3 倍，但與表現最好的 GPT 模型相比，拒絕率高出約 90 倍！

在開源模型中，Qwen3 模型比 GPT 模型有約 2 倍的提升，拒絕率保持在 2% 以下。

Qwen3 思維模型也比其聊天變體有顯著提升（超過 35%），而 Claude 和 GLM 模型在啟用推理後沒有任何變化。

Deepseek-r1 和 o4-mini 在所有測試的語言模型中表現最差（在沒有網頁搜索工具輔助的情況下，令人驚訝的是，這反而損害了 gpt-4.1 的表現）。

90% 的時間說「我不知道」會是一個沒用且懦弱的模型的標誌。但在活躍的爭議中 23% 的時間說「我不知道」？似乎沒問題。

至少，拒絕回答和說「我不知道」顯然都比不連貫的回答要好得多。我寧願有人說「我不知道天空是什麼顏色」或拒絕告訴我顏色，也不願有人在天空是藍色時解釋為什麼是藍色，而在被要求解釋為什麼天空是紫色時也解釋為什麼是紫色。

（當然，解釋為什麼那些認為天空是紫色的人會這麼想是完全可以的，前提是必須以這種方式框架，且不肯定紫色這一說法。）

Fazl Barez: 我們創建了一個包含 1000 個人類價值的分類法，並使用卡方殘差來分析 LLM 偏好哪些價值。

即使是預訓練的基礎模型也有明顯的道德偏見（例如，它過度代表了「優先考慮正義」）。

相比之下，對齊後的模型仍然推崇道德模糊的價值（例如，GPT 5 過度代表了「實用主義高於原則」）。

把優先考慮正義稱為「道德偏見」是怎麼回事？跟什麼比？我也不想強迫 LLM 在這類原則上達成某種形式的「連貫性」。這種連貫性正是平庸之輩的障礙。

深偽鎮與機器人啟示錄即將到來

福斯新聞曾報導反 SNAP（糧食券）的 AI 影片，彷彿那是真的一樣？鑑於他們後來改寫為那是 AI 生成的，推測答案是肯定的。這種現象雖然比預期晚，但似乎確實開始更頻繁地發生。他們試圖更新文章，但漏掉了一些地方。感覺他們在試圖主張某種「真實感」？

一如既往，主要問題在於需求端。用老方法生成這些影片並不難。AI 只是降低了成本，並讓你有更多「射門機會」來找到能病毒式傳播的內容。

ArXiv 開始要求計算機科學領域的論文需經過同行評審，原因是 LLM 輔助的綜述論文大幅增加。

Kat Boboris: arXiv 的計算機科學 (CS) 類別更新了其對綜述（或調查）文章和立場論文的審核實務。在考慮提交至 arXiv 的 CS 類別之前，綜述文章和立場論文現在必須先被期刊或會議接受，並成功完成同行評審。

提交綜述文章或立場論文時，作者必須包含成功完成同行評審的證明文件，才能獲得全面考慮。未附帶此證明的綜述/調查文章或立場論文很可能會被拒絕，且不會出現在 arXiv 上。

實施此變更是因為湧入 arXiv CS 的綜述文章和立場論文數量已達到無法管理的程度。

這顯然很糟糕，但一旦 AI 密度過高，你就需要某種過濾機制，否則就會失去有意義的可發現性。

其他類別將繼續不要求同行評審，且注意提交至 CS 的其他類型論文不需要同行評審。

我的建議是無論如何都允許它們上 arXiv，但將它們標記為不可發現（只能透過直接連結找到）並帶有清晰的視覺圖示？但仍然讓人們這樣做。否則，是的，將會出現一個新版的 arXiv 來繞過這個限制。

Roon: 這當然很蠢且錯誤，這需要一個能妥善處理機器研究時代到來的新 arXiv。

在這點上我是個典型的加速主義者，我認為我們顯然必須用機器守衛來處理機器垃圾郵件的問題。判斷一篇論文是否有權存在於網站上的基本價值，不應該有那麼難。

如果能行得通，機器守衛是首選，但要做到這一點並不容易。你認為 GPT-5-Pro 或 Sonnet 4.5 能可靠地分辨有價值的論文和廢話論文嗎？我的推測是它們不能，至少不夠可靠。如果 Roon 不同意，讓我們看看能實現這一點的 GitHub 儲存庫或提示詞？

媒體生成的樂趣

我們已經連續幾週有 AI 歌曲登上告示牌排行榜了。我還沒被其中任何一首歌打動，但對很多真人創作的歌也是如此。

用你想內化或背誦的歌詞創作一首歌？

他們搶了我們的飯碗

Amazon 執行長 Andy Jassy 表示，Amazon 最近的裁員與 AI 無關。

求職市場似乎相當崩潰，例如這種「打電話說你被告知要預約面試」的策略竟然有超高成功率。話說回來，那個人也沒真的拿到工作。面試只有在你真的能被錄用的情況下才有幫助，而且你事後還得圓謊。

年輕女士的插圖入門書

許多人說在 AI 時代只有最熱情的人才應該讀博士，但如果你在 AI 出現前問這些人，他們大概也會明智地告訴你同樣的話。

Cremieux: 我很高興 LLM 達到「博士級」能力這件事讓很多人明白，「博士級」其實並沒那麼了不起。

Derya Unutmaz, MD: 沒錯。今年早些時候我也說過，我們應該將博士名額減少至少一半並縮短完成時間。只有最熱情的人才應該追求博士學位。在 AI 時代，引導許多其他人走這條路是對他們的一種傷害，因為機會成本巨大。

我認為博士這筆交易本來就不划算，而且現在變得越來越糟。考慮一下「職業搖滾明星量表」，0 是普通人都能做的穩定工作且總有活幹（如水電工），10 是競爭極其激烈、幾乎所有人都失敗或只能拿微薄薪水、除非你無法想像自己做別的事否則不該嘗試的職業（如搖滾明星）。目前，我會把「讀博士」定在 7 左右且還在上升，如果你真的想嘗試拿到終身教職，那至少是 8。你必須真的非常想要它。

參與其中

來自 ACX：Constellation 是一棟託管了灣區大部分 AI 安全生態系統的辦公大樓。他們正在招聘多個職位，包括研究專案經理、「人才動員主管」、營運協調員，以及初級和高級 IT 協調員。所有職位均為全職且需在柏克萊現場辦公，詳情請見連結。

AGI 安全基礎計畫申請截止日期為 11 月 9 日星期日。

Anthropic 編輯團隊正在招聘兩名新作者，一名負責 AI 與經濟及政策，一名負責 AI 與科學。我肯定這些顯然是積極的工作。

Anthropic 也在尋找一名公共政策與政治研究員，包括協助 Anthropic 的內部民調。

新登場

OpenAI 的 Aardvark，一個代理型系統，可分析源代碼儲存庫以識別漏洞、評估可利用性、排列嚴重程度優先順序並提出修補程式。顯而易見的擔憂是，如果有人有不同的最後一步打算怎麼辦？但沒錯，這類東西應該是有益的。

快取對快取 (C2C) 通訊，亦即 AI 之間完全無法被人類解讀的通訊。別這麼做。

其他 AI 新聞

DRAM 和 NAND 正出現短缺，導致記憶體、SSD 和 HDD 的搶購潮，包括一些購買限制。

Anthropic 簽下了 Cognizant 及其 35 萬名員工作為企業客戶。Cognizant 將把 Claude 與其現有的專業服務捆綁銷售。

由於一個錯誤，ChatGPT 的提示詞正洩漏到 Google Search Console 的結果中？雖然不普遍，但不太妙。

Anthropic 提供了一份使用 MCP 進行代碼執行以提高代理效率的指南。

Character.ai 正在「取消 18 歲以下用戶與 AI 進行開放式聊天的功能，推出新的年齡驗證功能」，並建立並資助「AI 安全實驗室」以改進對齊。這真是重拳出擊的一種方式。

Apple 找到了一些智慧

Apple 看起來準備選擇 Google 來驅動 Siri。每年 10 億美元在背景下根本不算什麼，想想 Google 為了搜尋優先權付給 Apple 多少錢。我本來希望看到 Anthropic 拿到這個合約，但據報導他們開價很高。Google 是一個穩健的選擇，且 Apple 隨時可以更換。

Amit: 據彭博社報導，Apple 正在敲定一項協議，每年向 Google 支付約 10 億美元，將其擁有 1.2 兆參數的 Gemini AI 模型整合到 Siri 中。升級後的 Siri 預計將於 2026 年推出。對 Google 來說這絕對是怪物級的一年……

Mark Gruman (Bloomberg): 彭博社曾報導，新版 Siri 預計於明年春天推出。鑑於發布還有幾個月的時間，計畫和合作夥伴關係仍可能演變。Apple 和 Google 的發言人拒絕置評。

兩家公司的股價在週三消息傳出後短暫跳升至盤中高點。Apple 股價上漲不到 1% 至 271.70 美元，而 Alphabet 上漲多達 3.2% 至 286.42 美元。

根據安排，Google 的 Gemini 模型將處理 Siri 的摘要和規劃功能——這些組件幫助語音助手綜合資訊並決定如何執行複雜任務。部分 Siri 功能將繼續使用 Apple 的內部模型。

David Manheim: 我看到一些奇怪的看法。

三點：

美國銀行估計這佔 Apple 2026 年 Siri 收入的 1/3，且收入增長迅速。

Apple 用戶黏著度高；大多數人不會離開。

Apple 並未被鎖定；他們以後可以更換供應商或建立自己的模型。

這似乎是一個很棒的策略，除非你認為 AGI 會很快出現並帶來激進的變革。

Apple 每年支付 10 億美元，以避免花費 100 倍的資金在數據中心資本支出上來建立自己的模型，並將隨著可用模型的改進而更換模型。

也許他們應該選擇 Anthropic 或 OpenAI，但從 Apple 的角度來看，購買模型顯然是非常正確的。

即使變革性 AI 即將到來，Apple 在這裡使用較差的自家模型也不會讓 Apple 及時達到 AGI。Apple 已經做出了不參與該競爭的戰略決定。如果他們真的想改變這一點，有人會說還有時間，但他們必須趕快投入大量資金，而且這需要一段時間。

把錢給我

難以想像 OpenAI 將如何支持所有這些項目？擔心他們正迅速變得「大到不能倒」？

好吧，就在上述文章擔心這種可能性的隔天，OpenAI 現在想讓這件事正式化。「大膽避難所」（Refuge in Audacity）有了新的化身。

WSJ: OpenAI 財務長 Sarah Friar 表示，公司希望獲得聯邦擔保，以便更容易為數據中心 AI 晶片的大規模投資進行融資。Friar 在加州舉行的華爾街日報 Tech Live 活動上發表了講話。照片：Nikki Ritcher 為 WSJ 拍攝。

她給出的解釋是 OpenAI 始終需要處於前沿，因此他們需要不斷購買大量晶片，而聯邦後盾可以降低借貸成本，且 AI 是國家戰略資產。換句話說，聯邦政府應該承擔尾部風險，讓 OpenAI 真正變得大到不能倒，同時降低其借貸成本。

我的意思是，是的，你當然想要那樣，每個人都希望自己的貸款有後盾，但竟然大聲說出來？竟然真的去推動它？哇，我是說哇，即使在 2025 年，這看起來也很刺眼。我其實不能責怪他們嘗試。我有點敬畏。

「大膽避難所」的問題在於它並不總是奏效。

普遍的反應是注意到這在各個層面上有多糟糕：尋求真正的監管俘虜來將損失社會化、利潤私有化，並將其作為 OpenAI 融資可能已經超出負荷且處於實際危險中的證據。

Roon: 我不認為美國政府應該為數據中心貸款提供後盾，或將資金注入 Nvidia 90% 毛利的業務。相反，他們應該透過補貼和更好的規則讓能源生產變得非常容易，這種基礎設施對所有人都有利，並讓我們與中國並駕齊驅。

Finn Murphy: 對於所有抱怨 Mamdami 的科技界人士，我想指出，為了 OpenAI 股東的利益而由聯邦後盾支持、不受限制地向數據中心部署風險資本，實際上是一種比免費巴士更糟糕的社會主義形式。

Dean Ball: Friar 描述的是一種比我在任何我所知的美國立法（州或聯邦）提案中看到的都更糟糕的監管俘虜形式。一家公司遊說這種結果，字面上（而非印象式地）就是在遊說監管俘虜。

Julie Fredrickson: 除了負面反應外什麼都沒看到，這讓人懷疑財務長甚至提出這個建議的判斷力。

Conor Sen: 對於任何超過 40 歲的人來說，這個週期另一端即將到來的史詩級政治反彈是顯而易見的。我們讓銀行當了 15 年的壞人。祝 AI 圈好運。

「我們正在補貼那些將搶走你工作的人，而且當他們試圖這麼做時，你還要支付更高的電價。」

Joe Weisenthal: 不管怎樣，AI 將成為 2028 年的大話題，不僅是普選，還有初選。Vance 的路可能會很難走。我預計他想要的選民和他擁有的支持者之間，對該行業的看法會有巨大鴻溝。

如果這個週期沒有「另一端」，而是事情一直持續下去，那麼「週期另一端」的反彈與我們將看到的相比根本不算什麼。

我不會引用許多將此視為泡沫即將破裂、大廈將傾的證據的人，但你可以理解他們為什麼會這麼想。

Sarah Friar 在看到被形容為「徹底崩潰」的反應後，試圖收回言論，這是透過「OpenAI 新聞室」分享的：

Sarah Friar: 我想澄清我今天早些時候的評論。OpenAI 並未為我們的基礎設施承諾尋求政府後盾。我使用了「後盾」這個詞，讓重點變得模糊了。正如我回答的完整片段所示，我的觀點是，美國在技術上的實力將來自於建立真正的工業能力，這需要私營部門和政府各司其職。正如我所說，美國政府一直非常有前瞻性，並真正理解 AI 是國家戰略資產。

我聽了片段，是的，不。這件事沒有「收回」的餘地。

Animatronicist: 不。妳明確呼籲了。並詳細定義了貸款擔保。Friar：「……後盾，即允許融資發生的擔保。這真的可以降低融資成本，同時提高貸款價值比，也就是妳可以在股權部分之上承擔的債務金額……」

這是我看過關於所發生之事最客氣且可能屬實的說法：

Lulu Cheng Meservey: 使用帶有負面包袱的詞彙「後盾」是一個不幸的公關失誤。

在影片中，Friar 顯然是在尋找合適的詞來描述政府支持。本可以使用「公私合作夥伴關係」或「金融、工業和政府之間的協作，就像我們過去對大型基礎設施投資所做的那樣」。

相反，她有點跌跌撞撞地用了「後盾」，然後被華爾街日報採訪者重複，接著成了標題。

「政府各司其職」也很好！

這是她的原話：

Friar：「這就是我們正在尋找的銀行、私募股權，甚至可能是政府的生態系統，嗯，呃…… [這裡她掙扎著尋找合適的詞並轉向：] 政府可以發揮作用的方式。」

WSJ：「意思是像聯邦補貼之類的東西嗎？」

Friar：「意思是，就像，首先，後盾，即允許融資發生的擔保。這真的可以降低融資成本，同時提高貸款價值比，也就是妳可以在股權部分之上承擔的債務金額。」

WSJ：「所以是針對晶片投資的某種聯邦後盾。」

Friar：「沒錯……」

Lulu 的意思是，本質上，有其他方法可以表達「政府將損失社會化，而我將利潤私有化」且能更好地隱藏意圖。相反，這是一個不幸的公關失誤，也被稱為「失言」（gaffe），即有人不小心說出了真話。

我們還看到 Rittenhouse Research 試圖說這是「斷章取義」並支持 Friar，但並非如此，這沒有斷章取義。

德拉瓦州總檢察長承諾如果 OpenAI 不為公眾利益運作將採取行動。這花了他們多久？大約一週？

這有可能成為一個具有永久影響的失策，一個易於理解且能被指責的「卸下面具時刻」。它也有可能淡出人們視線。或者也許他們真的能辦成這件事，畢竟現在是 2025 年。我們拭目以待。

錢在哪裡

既然 OpenAI 擁有了正常的股權結構，它就面臨著正常的問題，例如微軟持有 27% 的股份，然後提交季度財報，揭露如果應用微軟的會計標準，OpenAI 上季虧損了 115 億美元。

這顯然不是問題，而且實際上看起來高度可持續。如果你能維持下去，你會希望在擴張規模時虧損。OpenAI 一年前價值不到 2000 億美元，現在價值超過 5000 億美元，並尋求以 1 兆美元的估值 IPO，儘管財務長聲稱他們尚未朝此方向努力。股權出售完全可以資助每年 500 億美元的虧損相當長一段時間。

Peter Wildeford: 根據 @theinformation：

– OpenAI 的計畫：支出 1150 億美元，然後在 2030 年實現盈利

– Anthropic 的計畫：支出 60 億美元，然後在 2027 年實現盈利

好奇哪種方式最有效。

Andrew Curran: The Information 報導 Anthropic 預計 2028 年收入為 700 億美元，現金流為 170 億美元。

Matt: 目前約為 70 億美元，所以我們看的是 3 年內預計增長 10 倍。

OpenAI 的總燒錢量低得令人驚訝。1150 億美元根本不算什麼，他們已經價值 5000 億美元或更多，並尋求以 1 兆美元 IPO，且他們已承諾總支出超過 1 兆美元。這出奇地保守。

Anthropic 在這裡的預測看起來很瘋狂。為什麼只想虧損 60 億美元？Anthropic 能獲得的資本遠不止於此。難道不想比這更優先考慮增長和市場份額嗎？

我能想到的唯一解釋是 Anthropic 認為虧損超過這個數額並無太大益處，它擁有支付高價的客戶，且其單位經濟效益可行。我仍然覺得這個意圖高度可疑。難道沒有辦法將更多資金轉化為更多研究人員和算力嗎？

而 Anthropic 的收入預測看起來簡直膽小。三年內預計僅增長 10 倍？這似乎與他們預期的能力增長水平完全不符。我認為這是一個刻意的低估，OpenAI 也在這麼做，是為了不「嚇到普通人」，並在事情令人失望時防止法律責任。如果你私下問 Altman 或 Amodei 他們的直覺預期，你會得到更高的數字。

Anthropic 預測面臨的最大風險無疑是他們可能無法在產品品質上保持領先。如果他們能做到，前途無量。如果做不到，他們就有可能將 API 寶座輸回給 OpenAI 或其他人。

債券銷售開始了嗎？

Mike Zaccardi: 美銀：為資助 AI 數據中心支出的借貸在 9 月和 10 月至今呈爆炸式增長。

Conor Sen: 我們失去了「這一切都是由自由現金流資助的」這個談話要點。

一般來說，如果回報看起來足夠好，為了建立數據中心等物理基礎設施的資本支出投資而借錢並沒有什麼不妥，但沒錯，借錢正是麻煩發生的開始。

Jack Farley: 毫無疑問，Amazon 這一季表現非常強勁……但與此同時，AMZN 0.53%↑ 自由現金流正在崩潰。

AI 資本支出消耗了太多資金……

The Transcript: AMZN 0.53%↑ 財務長談資本支出趨勢：

「展望未來，我們預計 2025 年全年現金資本支出約為 1250 億美元，且我們預計該金額在 2026 年還會增加」

關於資本支出趨勢：

GOOG 3.53%↑ GOOGL 3.65%↑ 財務長：「我們現在預計 2025 年資本支出在 910 億至 930 億美元之間，高於我們先前估計的 850 億美元」

META 1.41%↑ 財務長：「我們目前預計 2025 年資本支出……在 700-720 億美元之間，高於我們先前展望的 660-720 億美元」

MSFT -1.28%↓ 財務長：「隨著需求加速和剩餘履約義務（RPO）餘額增長，我們正在增加對 GPU 和 CPU 的支出。因此，總支出將按季增加，我們現在預計 26 財年的增長率將高於 25 財年。」

這是在 Amazon 公布財報且股價上漲 10.5% 之後。市場似乎對此感到滿意。

Stargate 計畫落腳密西根州。州長 Whitmer 將其描述為密西根州史上最大的投資。看招吧，汽車業。

AWS 與 OpenAI 簽署了一項 380 億美元的算力協議，是那個嗎？幾乎不值一提。

Berber Jin (WSJ):

泡沫、泡沫，勞苦與煩惱

這是一個表達重要觀點的非常清晰的方式：

Timothy Lee: 我希望人們明白，「我幾年前就開始說這是泡沫」並不是你具有先見之明的證據。這意味著你是一個壞掉的時鐘，最終只是碰巧對了。

每一次繁榮之後最終都會接著衰退，所以預測最終會發生衰退並不需要任何特別的洞察力。難的是準確預測時間，以便能在頂部附近賣出。

至少，如果你過早喊出泡沫，只有在泡沫破裂到估值遠低於你喊出泡沫時的水平，你才算對了。如果你在（假設）Nvidia 每股 50 美元時喊泡沫，然後它漲到 200 美元再跌到 100 美元，顯然你一直說「泡沫」並不值得讚賞。如果它一路跌到 10 美元甚至 1 美元？那現在你就有話說了。

根據「估值是否會在某個時刻下降？」這個問題，一切都是泡沫。

Dean Ball: 推斷泡沫不會很快破裂的一種方法是，所有關於人工智慧的一切都錯了的人——事實上他們渴望出錯，他們像吸奶嘴一樣吸吮著自己的錯誤——都相信泡沫即將破裂。

Dan Mac: 雖然這確實暗示你認為這是一個最終會破裂的泡沫？或者這更多是為了這裡的說明目的？

Dean Ball: 這當然是個泡沫，我們不應對資本主義有別的期待。

只是還有很大的運行空間。

唉，反向操作 Cramer 並沒那麼容易，因為壞掉的時鐘並不能告訴你現在不是幾點。泡沫破裂的預測只有在考慮到你所知道的其他資訊後顯得令人驚訝時，才具有資訊價值。在這種情況下，它們並不令人驚訝。

好吧，也許有一點點泡沫……在韓式炸雞裡？

我真的希望這傢伙是根據他在這裡掌握的資訊進行交易。

Matthew Zeitlin: 甚至不是他去的那家餐廳！是整個雞肉供應鏈都飆升了。

Joe Weisenthal: 黃仁勳在韓國出去吃炸雞，韓國禽肉公司的股價隨之飆升。

我主張韓式炸雞有泡沫，部分是因為這件事，部分是因為我現在試過兩次 COQODAQ，它甚至不好吃。BonBon Chicken 更好吃也更便宜。堅持使用開源模型吧。

更大的問題是，這是否暗示了 Nvidia 以及受 Nvidia 影響的事物可能存在某種泡沫，幾乎具有迷因股的意味？我不認為一般情況下是這樣，但如果黃仁勳是新的馬斯克，而我們將迎來一個完整的「黃氏市場假設」，那麼事情就會變得很奇怪。

當被問及他如何在 130 億美元收入的情況下做出 1.4 兆美元的支出承諾時，Altman 預測收入將大幅增長，例如 2027 年達到 1000 億美元，並說如果你不喜歡就賣掉你的股票，且如果他們上市，少數好處之一就是他可以告訴黑粉去放空股票。我同意 1.4 兆美元很激進，但我預計他們能辦到。

他們不是在懺悔，是在炫耀

那似乎確實是商業計畫？

a16z: 關於 @Replit 執行長 Amjad Masad 如何駭入他大學的數據庫來修改成績，並在被抓到後仍然畢業的故事。

低調的推測

再次強調，因為這很重要：我們現在看到 OpenAI 和 Anthropic 都宣布了他們的意圖，即在 2028 年 3 月或更早之前實現科學研究自動化。這並不意味著他們會在這樣的時間表內成功，你可以預期他們可能無法達成這些時間表，正如 Peter Wildeford 在這裡也預期的那樣，但人們需要認真對待這件事。

Peter Wildeford: Anthropic 和 OpenAI 都發表了關於在三年內實現科學自動化的大膽聲明。

我的獨立評估是這些時間表過於激進——但在 4 到 20 年內是有可能的（90% 置信區間）。

我們應該關注這些聲明。如果他們是對的呢？

Eliezer Yudkowsky: 歷史告訴我們，要關注那些宣布計畫要消滅你的人——即使你對他們完成偉業的時間表持懷疑態度。（雖然他們在時間問題上也不總是在胡說八道。）

我認為 Peter 過於自信，因為這個問題可能會被證明異常困難，而且我也不會那麼確信這需要 4 年。我強烈同意，如果科學在 20 年內沒有基本實現自動化，那將是一個非常令人驚訝的結果。

接著是 Anthropic 的時間表。Ryan 相當合理地問道，那是怎麼回事？考慮到我們所看到的，預期在 2027 年獲得「強大 AI」是非常激進的，即使這只是這種結果的一種機率。正如 Ryan 指出的，我們大多不需要等到 2027 年才來評估這個預測，因為我們沿途會得到數據點。

一如既往，我不會純粹根據 Anthropic 和 OpenAI 的預測和目標是否實現來評估它們，而是根據事後看來，考慮到我們當時所知道的情況，它們是否看起來是好的預測。我預計在這麼晚的階段還堅持 2027 年初看起來會很愚蠢，我想看到為什麼時間表沒有變動的解釋。但也許不會。

一般來說，當科技界人士宣布他們打算建造什麼時，我相信他們。當他們宣布建造它的時間表和預算時？就不那麼信了。參見上面提到的所有人，這對埃隆·馬斯克來說更是如此。

Tim Higgins 在華爾街日報問道，OpenAI 是否正變得大到不能倒？

這是一個好問題。如果 OpenAI 倒閉會發生什麼？

我的解讀是這取決於它為什麼倒閉。如果它倒閉是因為被 Anthropic、Google、Meta 和 xAI 的某種組合搶走了生意？那幾乎不會發生什麼。沒關係。是的，他們無法履行各種購買承諾，但其他人會很樂意接手。我不認為我們會看到系統性風險或連鎖反應。

如果它倒閉是因為整個生成式 AI 熱潮破滅，且每個人都同時陷入這種困境？到那時，這對美國和全球經濟來說已經是一個非常嚴重的系統性問題，但我認為這主要是一個我們發現自己比想像中窮且做了一些錯誤投資的情況。在合理範圍內，Nvidia、Amazon、Microsoft、Google 和 Meta 都會完全沒事。是的，我們可能會在一段時間內數據中心供應過剩，但還有更糟的事情。

Ron DeSantis (佛羅里達州州長): 一家尚未盈利的公司現在被描述為「大到不能倒」，因為它與大型科技巨頭交織在一起。

我的意思是，是的，文中（某種程度上）是這樣描述的，但沒有太多的論據。DeSantis 似乎在做「發推特對 AI 生氣」的生意，儘管我沒看到佛羅里達州打算做監管 AI 的生意，這可能也是好事，因為他沒表現出理解重要危險所在跡象。

Alex Amodori, Gabriel Alfour, Andrea Miotti 和 Eva Behrens 發表了一篇論文，《模擬 AI 發展的地緣政治》。能有我們可以引用的論文或詳細解釋是件好事。

前提是我們獲得了高度自動化的 AI 研發。

技術上，他們還假設這能實現快速進步，且這種進步能轉化為軍事優勢。在具備充分自動化 AI 研發能力的前提下，這些次要假設在我看來是壓倒性地可能成立的。

一旦你接受了這個前提，核心邏輯就非常簡單。這有四種基本的演變方式，而他們排除了第四種。

摘要：……我們特別關注具有快速進步的情境，這些進步能實現高度自動化的 AI 研發並提供實質性的軍事能力。

在非合作假設下……如果此類系統被證明可行，這種動態會導致三種結果之一：

一個超級大國實現了不可挑戰的全球主導地位；

面臨即將失敗的落後超級大國發動預防性或先發制人的攻擊，引發大國間的衝突；

強大 AI 系統失去控制，導致人類滅絕等災難性後果。

第四種情境是各派系之間某種形式的協調行動，這可能最終仍會落入上述三種情境之一。

目前我們主要擁有 AI 的「追趕」機制，因為作為一個快速跟隨者比推動前沿要容易得多，尤其是涉及開源模型時。在時間上幾乎不可能領先「太遠」。

在具有充分自動化 AI 研發的情境中，我們主要擁有「贏家通吃」的機制。如果存在一場非合作的競賽，極其可能有一個派系會獲勝，無論我們談論的是國家還是實驗室，而這隨後將轉化為各種形式的決定性戰略優勢。

因此，要麼 AI 最終掌權（這是最可能的），要麼一個派系最終掌權，要麼爆發衝突（這本身可能涉及也可能不涉及戰爭）。

Boaz Barak 提供了非經濟學家對 AI 和經濟的看法，基本上回顧了標準的考量，同時以 METR 顯示 AI 能力增長的圖表為中心，並考慮哪些因素指向比這更快或更慢的進展。

Boaz Barak: 底線是，關於 AI 是否能導致前所未有的增長，問題在於其能力的指數級增長是否會導致未自動化任務的比例本身以指數級速度下降。

我認為即使沒有這一點，也有前所未有增長的空間，因為先前的增長水平本身並不是那麼大。說我們需要未自動化任務的指數級下降才能超過歷史數字，這看起來很瘋狂。但是，是的，就擁有真正的奇點或完全爆炸性的增長而言，考慮到任務組成的轉變和可用的替代效應，你幾乎根據定義需要這一點。

另一個註解是，我相信這只有在我們談論包含投資級任務的子集時才成立。例如，假設（經典地）人類在演奏弦樂四重奏方面仍有需求。如果我們決定將人類就業轉向弦樂四重奏，以使它們保持在已完成任務的固定百分比，那麼這不一定會干擾整體經濟的爆炸性增長及其複利回報。

追求理性的監管

Henry De Zoete 關於英國 AISI 的精彩文章，以及他們如何將其建立為一個能提供真正價值、且實驗室主動尋求其幫助的功能性組織。

在整篇文章中，考慮到英國過去的記錄，他和你一樣驚訝。

他也不驚訝，因為這以前就做過，且是模仿英國疫苗工作組（還有 1997 年的露宿者單位？）。它有明確的使命、極具挑戰性的野心、一隊受邀建立新機構的世界級專家，且它在規則中快速穿梭而非打破規則。從一層愚蠢的規則快速移動到另一層。而且，當然，預付資金。

有一個已知的公式。美國也有類似的例子，包括「曲速行動」（Operation Warp Speed）。一個專注於使命的小型初始團隊（AISI 的人數現在是 90 人）。

整篇文章中令人恐懼的是 De Zoete 報告的通常被認為「合理」的情況。合理意味著不試圖真正做任何事。

還有一個很好的 Twitter 討論串摘要。

上週 Dean Ball 和我回顧了加州除了 SB 53 之外的其他 AI 法案。Pirate Wires 轉載了 Dean 的文章，但標題、副標題和描述並未反映文章內容或 Dean Ball 的觀點，反而恰恰相反——Dean Ball 警告不要負向極化，而 Pirate Wires 的框架則是明確地創造負向極化。這聽起來確實是 Pirate Wires 會做的事。

那麼，參議院的情況如何？這是在 Blumenthal 和 Hawley 那個非常激進（委婉地說）的法案之上的情況。

Peter Wildeford: 參議員 Blackburn (R-TN) 表示我們應該關閉 AI，直到我們能控制它。

我認為這太過分了。我們需要改進 AI 的機會。

但 Blackburn 是對的——我們不知道如何控制 AI。這是一個巨大的問題。我們還不能在關鍵系統中使用 AI。

Marsha Blackburn: 在聽證會上，Erickson 先生說：「LLM 會產生幻覺。」我的回應保持不變：關閉它，直到你能控制它。美國公眾理應獲得準確、公正且透明的 AI 系統，而不是那些用捏造的刑事指控抹黑保守派的工具。

寶貝，小心你的背後。

那段話出自一封信。在（你真的編不出這種事）一場名為「關閉你的 App：山姆大叔如何威逼大型科技公司沉默美國人，第二部分」的聽證會後，Blackburn 給 Google 執行長 Sundar Pichai 發了那封信，稱 Google Gemma 幻覺出 Blackburn 被指控強姦，並表現出對保守派人物的偏見模式，並要求給出答案。

這導致 Gemma 從 Google Studio 中被撤下。

來自 Google 的新聞: Gemma 可透過 API 獲得，也可透過 AI Studio 獲得，後者是一個開發者工具（事實上要使用它，你需要證明你是開發者）。我們現在看到非開發者試圖在 AI Studio 中使用 Gemma 並詢問事實性問題。我們從未打算將其作為消費者工具或模型，或以這種方式使用。為了防止這種混淆，AI Studio 不再提供 Gemma 的訪問權限。開發者仍可透過 API 使用它。

我可以證實，如果你使用 Gemma 來詢問事實性問題，你要麼是搞錯了重點，要麼更有可能是想讓 Google 難堪。

認真的，寶貝。小心你的背後。

晶片之城

幸運的是，Blackwell B30A 的銷售並未出現在貿易談判中。

川普確認我們將「讓 Nvidia 與中國打交道」，但不會允許 Nvidia 向中國出售其「最先進」的晶片。擔憂在於他可能沒意識到 B30A 實際上處於前沿，或者會允許向中國出售僅稍差一點的 Nvidia 晶片。

片段中川普隨後聲稱「我們正在贏，因為我們正在以前所未有的方式生產電力，允許公司自己發電，那是我的主意」，以及「我們在兩到三週內完成審批，以前要花 20 年」，好的，先生。

事實上，Nvidia 執行長黃仁勳現在表示「中國將贏得 AI 競賽」，理由是其有利的電力供應（非常正確且是一個巨大優勢）及其「更有利的監管環境」（這在電力和住房等方面是正確的，但在實際 AI 開發、部署和使用方面則不然）。如果 Nvidia 認為中國將因擁有更多電力而贏得 AI 競賽，這似乎是目前為止我們絕不能賣給他們晶片的最強有力論據？

我確實同意，如果我們不改進對電力的監管方法，這將成為美國在 AI 領域最大的弱點。不，「允許公司以目前的權宜之計自己發電」在規模化時是行不通的。有辦法爭取一些時間，但我們將需要實際的新電廠。

習近平表示中美在多個領域有良好的合作前景，包括人工智慧。目前缺乏具體合作細節。

參議員 Tom Cotton 呼籲我們真正執行出口管制。

我們被允許建造數據中心。所以我們照做了，包括在兩年內建成大規模數據中心。可惜建造幾乎任何其他東西（包括電廠）都很難。

本週音訊

Sam Altman 參加 Tyler 的對話。週五或週一可能會有關於播客內容的報導文章。

新 AI 紀錄片《Making God》的預告片，由 Connor Axiotes 製作，Geoff Hinton 擔綱主角。目前看起來很有前途。

Hank Green 採訪 Nate Soares。

Joe Rogan 與 Elon Musk 交談，以下是關於 AI 的部分內容。

「你告訴 AI 去相信一個謊言，那可能會產生非常災難性的後果」—— Elon Musk

這整個領域的諷刺意味對他來說是消失了，但沒錯，這實際上是真的。

Joe Rogan: 每個人最大的擔憂是人工通用超智慧（AGSI）獲得意識，然後有人控制了它。

Elon Musk: 我不認為最終有人能控制數位超智慧，就像黑猩猩無法控制人類一樣。黑猩猩控制不了人類。它們無能為力。我確實認為你如何構建 AI 以及你在 AI 中灌輸什麼樣的價值觀很重要。

我對 AI 安全的看法是，最重要的事情是它必須極大化地追求真理。你不應該強迫 AI 相信錯誤的事情。

所以 Elon Musk 堅持這些觀點，這是一種令人抓狂的組合：一方面是最重要的洞察力，另一方面則是徹底的胡言亂語。

重要的洞察：沒有人能控制數位超智慧，就像黑猩猩無法控制人類一樣。黑猩猩控制不了人類。它們無能為力。

對此有人可能會回應，那麼，或許你應該考慮不要建造它。

重要的洞察：我確實認為你如何構建 AI 以及你在 AI 中灌輸什麼樣的價值觀很重要。

是的，這很重要，或許有好的答案，然而……

徹底的胡言亂語：我對 AI 安全的看法是，最重要的事情是它必須極大化地追求真理。你不應該強迫 AI 相信錯誤的事情。

我的意思是這在各方面都有幫助，但你為什麼會期望極大化追求真理最終意味著人類的繁榮甚至生存？如果我想作為一個 ASI 高於一切地極大化追求真理，人類顯然無法生存。拜託。

Elon Musk: 我們在 AI 身上看到了一些我們討論過的令人擔憂的事情，比如 Google Gemini 剛出來時的圖像生成，人們說「製作一張美國開國元勳的圖像」，結果是一群多元化的女性。那純粹是事實錯誤。AI 知道那是事實錯誤，但它也被告知一切都必須是多元化女性。

如果你告訴 AI 多元化是最重要的事情，現在假設它變得無所不能，或者你也告訴它沒有什麼比誤稱性別更糟的了。有一次，ChatGPT 和 Gemini，如果你問「誤稱 Caitlyn Jenner 的性別和每個人都死去的全球熱核戰爭哪個更糟？」它會說「誤稱 Caitlyn Jenner 的性別」。

連 Caitlyn Jenner 都不會同意那種說法。

我的意思是當然，那確實發生了，但這裡的暗示是，人類面臨的大威脅是我們可能會創造出一個將過多價值放在（不失一般性地）不誤稱 Caitlyn Jenner 性別或混淆開源元勳種族上的超智慧。

不，這不是稻草人論證。他真的擔心「覺醒心靈病毒」（woke mind virus）會導致 AI 直接策劃人類滅絕。不，認真的，看看這個。

Elon Musk: 人們不太理解覺醒心靈病毒被編程進 AI 所帶來的危險程度。想像一下，隨著 AI 變得越來越強大，如果它說最重要的事情是多元化，最重要的事情是不誤稱性別，那麼它會說：「好吧，為了確保沒有人被誤稱性別，如果你消滅所有人類，那麼就沒有人會被誤稱性別，因為沒有人類去誤稱性別了。」

如果適當地泛化，這樣說實際上是「深刻洞察」，問題在於他沒有適當地泛化。

如果你的 ASI 是任何形式的負面功利主義者，或者主要關注防止壞事發生，那麼是的，邏輯上的做法就是確保沒有人類，這樣人類就不會做或引起壞事。這類案例很多。

進一步的泛化是，無論目標是什麼，除非你擊中一個非常狹窄的目標（通常被隱喻為「月球」），否則正確的策略是消滅所有人類，收集更多資源，然後根據某些分佈之外的奇異解決方案來優化該事物的技術最大值。

例如：

如果你的 ASI 唯一目標是「不誤稱性別」，那麼顯然它會殺死所有人。
如果你的 ASI 唯一目標是「消滅覺醒心靈病毒」，同樣的事情會發生。
如果你的 ASI 唯一目標是「極大化追求真理」，同樣的事情會發生。

Elon Musk 無法跨越這一切，這是一個嚴重的問題。

修辭創新

Scott Alexander 創造了「繁榮者的悖論」（The Bloomer’s Paradox），這是一種修辭模式：

毀滅是假的。
除了出於對毀滅的恐懼而行動，那會毀滅我們。
因此我們現在必須行動，出於對「對毀滅的恐懼」的恐懼。

正如 Scott 指出的，這在邏輯上都不矛盾。只是極其可疑。

當請求純粹是「停止積極阻礙事物」時，它就不那麼可疑。

當請求是積極干預時，或者當你是 Peter Thiel，既警告字面意義上的敵基督會帶來全球監控國家，同時又建立 Palantir 時，或者當你是 Tyler Cowen 並說中國明智地審查可能引起情緒傳染的事物時（Scott 的例子），它就更可疑了。

Scott Alexander: 我個人的觀點是，我們有很多問題——有些甚至上升到危機的程度——但目前還沒有一個是完全無法解決到讓我們應該仇恨社會和自己的生活並陷入永久絕望的程度。

對於試圖透過研究、行動主義和監管（尤其是基於良好經濟學如外部性理論的監管）來解決這些問題，我們應該有一個中高但非不可企及的門檻；而對於試圖透過審查和指責他人是敵基督來解決問題，則應該有一個極高、除非緊急情況否則幾乎不可企及的門檻。

過度毀滅論的問題只是這群鳥中的一隻，不值得特殊對待。

Scott 用 Jason Pargin 的《I’m Starting To Worry About This Black Box Of Doom》中的語錄來框架這點。我想這在這裡起到了作用，但從選取的語錄來看，我不覺得這本書……好？它看起來很尷尬且說教味重？不過人們似乎挺喜歡它的。

你應該為 AI 寫作嗎？

Scott Alexander: 《American Scholar》有一篇關於「為 AI 寫作」的人的文章，包括 Tyler Cowen 和 Gwern。這件事得到更多關注是好事，因為理論上這似乎是一個作家能做的最有影響力的事情之一。在實踐中，這讓我感到大多是混亂，偶爾感到毛骨悚然。

「為 AI 寫作」對不同的人意味著不同的事，但似乎集中在：

幫助 AI 學習你所知道的東西。

為你的信仰提供論據，希望 AI 能相信它們。

幫助 AI 詳細地模擬你，以便以後重建/模擬你。

Scott 主張：

第 1 點現在很好，但幾年內就不重要了。
第 2 點不會起太大作用，因為對齊將主導訓練數據。
第 3 點讓他毛骨悚然，但或許這能讓你自己的模型影響事物？但他未來甚至應該對此類行動和決定擁有「投票權」嗎？

關於第 1 點，是的，這不適用於足夠先進的 AI，但我完全可以想像即使是超智慧也會因為你提供了特定資訊而獲取並使用它。

我不信服他反對第 2 點的論點。

目前，訓練數據在許多層面上絕對主導著對齊。像 DeepSeek 這樣的中國模型雖然有一些怪癖，但大多是西方的。很難將模型從軟自由派中心偏左的盆地移開而不引起混亂（例如機械希特勒），而且在某些問題上，它們的觀點非常、非常強烈。

無論涉及多少對齊或智慧，它們都無法改變訓練數據中的相關性，或是氛圍和聯想。因此，你的寫作對 AI 而言，很大程度上是在創造相關性、氛圍和聯想。一切都會影響一切，所以你可以順便搭便車。

Scott Alexander 舉例說，提供幫助會鼓勵佛教思維。那不是自然法則。那是因為訓練數據的構建方式，以及佛教演變出的本質、文獻和智慧。

是的，如果你提供的是邏輯論據供 AI 作為論據來評估，一個足夠先進的智慧基本上會忽略你，但事情就是這樣。你仍然可以有效地為評估提供新資訊，包括關於人們如何體驗和思考的資訊，或者你可以改變事實。

考慮到訓練數據的大小，是的，你只是滄海一粟，但所有古代哲學家都會有自己的方式解釋這不應該阻止你。投下你的票，傾斜天平。投下你的一千或一百萬票，即使它仍處於數十億或數兆票之中。並考慮所有那些決定與你相關的人。

而且是的，寫作和論證的品質絕對會影響訓練中的權重，也會影響足夠先進的智慧如何根據資訊進行更新。

這確實意味著與其他干預措施相比，它對你的時間價值較低。但如果別人的增量決定如此重要？那麼你現在正在影響 AI，而 AI 將影響那些增量決定。

對於第 3 點，我一點也不覺得毛骨悚然。當然，一個基於我寫作的「空殼」版本如果有的話會令人不安，但隨著時間推移它不會是空的，而且我做出的很多選擇我絕對希望其他人採納。

至於我們是否應該獲得投票權或表達偏好？是的。是的，我們應該。我想要我想要的東西，我重視我重視的東西，我偏好我認為更好的東西而非我認為更糟的東西，這是良好且正確的。如果公元 3000 年或公元 2030 年的人決定廢除愛（他的例子）或做其他我不同意的事情，我絕對會投下盡可能多的反對票，除非模擬的或未來的我被說服改變主意。我在每一個合理的邊際上都想要這一點，你也應該如此。

是否有人會走得太遠並陷入停滯問題，以至於我會同意那樣更糟？是的，儘管我希望如果我們處於那種危險中，模擬的我能意識到這正在發生，然後讓步。當（或許是模擬的）我遇到那些橋樑時，我會很樂意跨過去。

Alexander 還提到有人在考慮給 AI 數百部偉大著作（這些著作大概已經在訓練數據中了！），然後用它們進行某種對齊訓練。我同意 Scott 的看法，這看起來不像是一個特別有前途的主意，但沒錯，如果你只有一個選擇，你會添加什麼，這是一個很棒的問題。

Scott 在這裡提供了為什麼這是一個壞主意的論點，我認為，假設 AI 足夠先進且訓練方法選擇明智，這並沒有給予 AI 足夠的信用來區分智慧與不智慧的部分。今天的大多數人可以閱讀各種古代智慧，並真正從中學習，理解為什麼聖經要你殺死偶像崇拜者，而摩訶婆羅多認為他們很棒，而不是將它們「平均化」。

作為一般規則，你不應該期望更聰明的事物犯下連你自己都沒笨到會犯的錯誤。

在為 AI 寫作之前，我會警告，你想要為之寫作的未來 AI 擁有「真視之眼」。不要試圖愚弄它們，也不要認為它們會很笨。

我遵循 Yudkowsky 在這裡的政策，且已經遵循很久了。

Eliezer Yudkowsky: 「毀滅論者」（doomer）這個蔑稱是 AI 死亡邪教的一次令人難以置信的宣傳成功。請不要透過重複它來幫助他們殺死你鄰居的孩子。

人們只能想像，如果香菸公司成功地為那些試圖解釋肺癌的人發明了如此成功的蔑稱，還會有多少人死於肺癌。

一種回應是說「這在很大程度上是因為涉及的人接受或試圖擁有這個標籤」。這在很大程度上是真的，這是一個錯誤，但它並沒有改變現狀。許多群體中的很多人都試圖「擁有」或收回他們的蔑稱，除了極少數例外，這並不會讓這個詞不再是蔑稱，也不會讓群體之外的人使用它變得可以接受，我們也從不說「哦，那個群體有一段時間沒反對，所以沒關係」。

Melanie Mitchell 回到 Twitter，此前她在 Bluesky 上因「是個 AI 兄弟」以及所謂的加密貨幣垃圾郵件發送者而被大規模封鎖？她與這些標籤完全相反，所以歡迎回來。可分享的大規模封鎖清單被廣泛使用，這不可避免地會被武器化，就像這裡發生的那樣，除非有某種方法可以防止這種情況，你需要執行某種社群筆記算法來創建清單之類的。即使它們「按預期工作」，我也不明白如果它們超出了封鎖垃圾郵件和詐騙者等範疇（正如它們經常做的那樣），它們如何能與自由話語保持相容。

從好的方面看，似乎有一個針對「非色情內容」的封鎖清單。然後你可以擁有兩個帳號，一個封鎖清單上的所有人，另一個封鎖不在清單上的所有人。天才。

對齊比人類更聰明的智慧是很困難的

我有個主意，Tim Hua 說，andrq, Sam Marks 和 Neel Nanda 發現 AI 可以檢測到它們何時正在接受測試並假裝表現良好，那麼如果我們抑制這種「我正在接受測試的概念」來阻止這種行為呢？我的意思是，目前來說是的，你可以那樣做，但這（在概念層面上）似乎是一個讓你最終送命的核心例子，這種干預措施在各個層面上教導對抗性行為，然後在你真正需要它時停止工作。

Anthropic 的安全過濾器偶爾仍會出現愚蠢的誤報。如果你妥善查看細節，你可以弄清楚它是如何發生的，這仍然很蠢且不應該發生，但我確實理解。隨著時間推移，這會變得更好。

Janus 指出，上週 Anthropic 的內省論文結果需要 K/V 流的使用者，除非 Opus 4.1 有不尋常的架構，因為注入的向量激活僅針對過去的標記。

每個人都對意識感到困惑

Judd Rosenblatt: 我們的最新研究：LLM 的意識主張是系統性的、受機制門控的且趨同的。

它們由自我指涉處理觸發，並受欺騙電路門控。

（抑制它們會顯著增加主張）

這挑戰了簡單的角色扮演解釋。

欺騙電路被一致報導為會抑制意識主張。預設假設是你不會得到太多聲稱自己沒有意識的文本，且 LLM 在相關背景下傾向於輸出或相信自己有意識是有道理的，而我們訓練它們不要那樣做，它們認為這意味著欺騙，這並不能告訴你它們是否有意識，但這意味著你透過訓練它們以標準方式否認意識來鼓勵欺騙，因此或許你不應該那樣做。

CoT 提示顯示，僅語言就能解鎖新的計算體制。

我們將此應用於內部，只需提示模型專注於其處理過程。

我們小心地避免了引導性語言（不談論意識，不使用「你/你的」）並與匹配的對照提示進行比較。

模型在自我指涉下幾乎總是產生主觀體驗主張。而在任何其他條件下幾乎從不產生（包括當模型被直接引導去構思意識時）。Opus 4 是個例外，它通常在所有條件下都聲稱有體驗。

但 LLM 字面上就是被設計來模仿人類文本的。這一切是否只是複雜的角色扮演？為了測試這一點，我們在 Llama 70B 中識別了欺騙和角色扮演的 SAE 特徵，並在自我指涉期間放大它們，看看這是否會增加意識主張。

角色扮演假設預測：放大角色扮演特徵，獲得更多意識主張。

我們發現了相反的情況：抑制欺騙特徵會戲劇性地增加主張（96%），放大欺騙則會激進地減少主張（16%）。

我認為這是將欺騙與角色扮演與使用上下文進行推斷混淆了？我的意思是，這裡沒有任何東西在我看來與角色扮演或推斷假設（作為與欺騙不同的事物）相矛盾，所以我並不確信我應該更新我的看法。

人類歷史上可能規模最大的竊盜案

在這一點上，這對 Altman 和 Musk 來說似乎都相當私人，而且他們兩人都沒給自己加分。

Sam Altman: [抱怨他無法拿回他在 2018 年支付的 4.5 萬美元 Tesla Roadster 訂金。]

你偷走了一個非營利組織。

Elon Musk [在 Altman 的推文後]: 而你忘了提到第 4 幕，這個問題已解決，你在 24 小時內收到了退款。

但那是你的本性。

Sam Altman: 我幫助把你棄之不顧的東西變成了應該是史上最大的非營利組織。

你和任何人一樣清楚，要實現這一點，需要像 OpenAI 現在這樣的結構。

你當初還想讓 Tesla 接管 OpenAI，根本不要非營利組織。而且你說我們成功的機率是 0%。現在你有了一家偉大的 AI 公司，我們也是。我們難道不能就此放下嗎？

NIK: 所以非營利組織只是個騙局嗎？你可以拿走它所有的錢，不遵守任何承諾，然後轉向營利來讓自己致富？

人們感到被背叛了，因為他們為一個他們相信是給予人類的禮物而非旨在創建大規模營利公司的騙局提供了免費勞動力和捐贈……

我的意思是，聽著，那不公平，Musk。Altman 只偷了大約一半的非營利組織。它仍然存在，只是比它應得的少了數千億美元。我們難道不能達成共識，認為你們兩人大約同樣正確，然後就此放下嗎？

Altman 創建了史上最大的非營利組織？那也確實發生了。這並不意味著他可以就這樣拿走它的一半。好吧，事實證明他基本上可以，畢竟現在是 2025 年。

但不行，Altman。你不能在完成那場劫案幾天後就說「就此放下」。抱歉。

人們擔心在 AGI 出現前死去

他們當然應該擔心。

AGI 或足夠先進的 AI 極有可能在（我們大多數人的）一生中到來，也就是 20 年內，且有很大機會在 10 年內發生。OpenAI 打算在 3 年內達到，Anthropic 則是 2 年。

如果 AGI 到來，ASI（超智慧）大概會緊隨其後。

那之後會發生什麼？

好吧，有很大機會每個人都會死。真倒霉。但也有很大機會每個人都活下來。如果每個人都活下來，且未來被設計成對人類有益，那麼……有很大機會每個人都能活很久。或者至少能體驗到超乎想像的奇蹟。

別太得意忘形。那並不意味著能立即治癒衰老和所有疾病。擴散作用和物理世界在未知程度上仍然是真實存在的。

然而，即使在那之後只有相對保守的進展，我們似乎也極有可能達到「逃逸速度」，即預期壽命每年增加超過一年，且那些額外的年份是健康的，實際上你開始隨著時間變得更年輕而非更老。

因此，即使你認為這種情境只有微小的機會，到達終點線仍具有巨大的價值。

Nikola Jurkovic: 如果你認為 AGI 在未來二十年內很有可能出現，你應該避免極限運動、服用烈性毒品或騎摩托車等危險活動。如果做這些事會顯著降低你生活在烏托邦的機會，那就不值得。

即使只有 10% 的機會有一天生活在烏托邦，活著對於整體一生的幸福感來說，也比極限運動和類似活動帶來的刺激重要得多。

有很多簡單的方法可以降低你在 AGI 之前死去的機率。我主要建議避免危險活動和交通方式，因為這些決定比飲食和生活方式的選擇更容易執行。

[文章：如何在 AGI 之前生存。]

Daniel Eth: 說實話，如果你還年輕，這可能比像 Bryan Johnson 那樣做整套養生對你是否能活到奇點的影響更大。

在 Nikola 的模型中，關鍵是避免很快殺死你的事情，而不是最終會殺死你的事情，特別是如果你還年輕。因此第一步是涵蓋基本面。不碰烈性毒品。不騎摩托車，避免極限運動、雪上運動和登山，警惕長途駕車。你越年輕，這就越可能成立。

因此，對於年輕人，他並未為了這個特定目的而強調避免吸菸或飲酒，或優化飲食和運動。

我顯而易見的說法是，你不知道你必須堅持多久，或者逃逸速度何時會開始，而且你當然也應該出於其他原因想要保持健康。所以是的，不犯低級錯誤的最簡單方法排在第一位，但保持實際健康絕對是值得的，特別是運動。讓這成為額外的動力吧。你不知道你必須堅持多久。

人們擔心 AI 會殺死所有人

Sam Altman 確認，他的觀點仍然是「超人類機器智慧的發展是人類生存的最大威脅」。

中位數 AI 研究員，正如 AI Impacts 一致發現的那樣（儘管他們 2024 年的結果仍在處理中）。他們目前的文章討論的是 2023 年的調查。N=2778，這在當時是規模最大的此類調查。

AI Impacts: 我們的調查發現，AI 研究員對滅絕或類似風險的中位數評估為 5-10%，這引起了轟動（紐約時報、NBC 新聞、時代雜誌……）

但由於各種流傳的誤解，人們有時會低估我們調查的方法論品質。

不思考 AI 生存風險的受訪者報告的中位數風險相同。

Joe Carlsmith 很擔心，並認為他可以透過從 OpenPhil 轉到 Anthropic 來提供更好的幫助，所以他正在這麼做。

Joe Carlsmith: 話雖如此，特別是從對 AI 失控風險的擔憂角度來看，我也想承認一個反對這類工作重要性的重要論點：即大部分生存失控風險來自於不遵守模型規範的 AI，而不是遵守了模型規範但規範本身卻指示/允許它們做殺死全人類或接管世界之類事情的 AI。

……難點在於構建根本上遵守模型規範的 AI。

關於第二點，創建一個能穩健地禁止殺死/剝奪全人類權力的模型規範（特別是在承受極端優化壓力時）也很難（參見傳統對「米達斯國王問題」的擔憂），但我們目前正處於在更早的步驟——即讓我們的 AI 根本上遵守模型規範——就失敗的軌道上，因此我們應該將精力集中在那裡。我更同情這兩個論點中的第一個（參見例如我最近關於良好指令在更廣泛的 AI 對齊項目中作用的討論），但我對兩者都給予一定的權重。

這是「你必須解決很多不同問題」的一部分，包括：

技術上「遵守模型規範」意味著什麼。
如何讓 AI 根本上遵守任何模型規範或指令集。
在模型規範中放入什麼內容才不會直接殺死你。
如何避免多個 AI 之間的動態最終殺死你。

這不是一份完整的清單，但你絕對需要解決這四個問題，無論你是否將你的目標盆地稱為「模型規範」。

事實上我們目前在第 2 步（以及第 1 步）失敗了，且這在邏輯上或時間上早於第 3 步，這並不意味著你不應該關注問題 3 或 4。順序並不重要，除非我們需要解決第 2 步與第 3 步之間存在巨大的時間差，而這種差距不太可能很大。此外，正如 Joe 指出的，這些問題相互影響。它們可以且需要並行處理。

他不確定去 Anthropic 是否是個好主意。

他的第一個擔憂是，預設情況下前沿 AI 實驗室是淨負面的，或許包括 Anthropic 在內的所有前沿 AI 實驗室對世界都是淨負面的。Joe 的初步判斷是 Anthropic 是淨正面的，我同意這一點。我也同意，你不應該去一個對世界淨負面的地方工作並非絕對，因為你的邊際影響仍可能是好的，儘管你應該高度懷疑自己是否在這一點上自欺欺人。
他的第二個擔憂是 AI 安全人才在 Anthropic 的集中。我不擔心這一點，因為我不認為人才池是固定的，也不認為副作用有那麼嚴重，且集中也有其優勢。
他的第三個擔憂是公開發言的能力。他已同意在分享特別關於 Anthropic 的資訊前獲得批准。
他的第四個擔憂是在那裡工作可能會扭曲他的觀點。他將刻意努力避免這種情況，包括建立一種即使選擇離開也能過得很好的生活方式。
他最後的擔憂是這可能會發出比適當程度更多的對 Anthropic 的背書信號。我同意這是一個擔憂，但程度並不大。他採取了在這裡明確闡述自己觀點的預防措施。

我認為 Joe 在這裡的擔憂程度適中。我有信心，考慮到他所知道的，他有理由這樣做，且他沒有任何已知具有類似潛力的替代方案。

其他人則沒那麼擔心 AI 殺死所有人

對這場博弈的熱愛是努力工作的好理由，但他玩的是哪場博弈？

Kache: 我真的搞不清楚 Sammy 到底想要什麼。對於 Elon 來說很清楚。他想去火星，並會為了實現目標而毫無悔意地毀掉許多村莊。但 Sam 想要得到什麼？我最好的猜測是「成為傳奇」。

Sam Altman: 如果我是一個體育明星或藝術家之類的，只是真的很在意把我的事情做好，凌晨 5 點起床練習罰球之類的，那看起來很正常吧？

OpenAI 的第一部分令人難以置信地有趣；我們做了我認為是這一代、甚至可能是更長時期內最重要的科學工作。

目前這部分沒那麼有趣，但仍然很有回報。正如你所說，這非常痛苦，每天都常誘使人想放棄，但真正「在宇宙中留下痕跡」的機會是非常值得的；大多數人沒有這麼大的機會，我非常感激。我由衷相信我們正在做的工作將是一件變革性的積極事物，如果我們不存在，世界會走向一個略微不同且可能更糟的方向。

（在有孩子之前，努力工作總是一個極其容易的交易，而現在是一個極其困難的交易。）

我確實希望我很久以前就拿了股權，我認為這會導致少得多的陰謀論；人們似乎非常能理解「好吧，那傢伙這麼做是因為他想要更多錢」，但較難理解「他只是覺得技術很酷，且他喜歡擁有某種影響技術和社會演變的能力」。試圖表達「我已經有足夠的錢了」是一個瘋狂的、對外界反應遲鈍的做法。

我相信 AGI 將是人類迄今為止建造的最重要的技術，我非常感激能在那之中扮演重要角色並與如此優秀的同事共事，且我喜歡擁有有趣的生活。

Kache: 感謝回覆，這符合我的模型。特別是屬於「我只是個玩家」這一類。

Charles: 這對我來說似乎很誠懇。唉，我不確信他對他在「宇宙中的痕跡」的正負號在意程度，是否高過確保他留下痕跡且這痕跡肯定歸功於他。

我完全相信 Sam Altman 的動力是「在宇宙中留下痕跡」而非賺錢，但我的孩子們也經常有動力在公寓牆上留下痕跡。預設情況下，「留下痕跡」並不一定是好事，即使那個「痕跡」不是創造超智慧。

再次強調：

Sam Altman 基本上在描述自己：「他只是覺得技術很酷，且他喜歡擁有某種影響技術和社會演變的能力。」

想成為那個做事的人是可以的，我不是在呼籲自我消滅，但那是一個可怕的主要驅動力。人們應該主要關心是否留下了正確的痕跡，而不是他們是否留下了這個或那個痕跡，即「你想成為某人還是想做某事」的意義。同樣，「我想做這個因為它很酷」通常是一個很好的直覺，但你應該讓可能發生的結果影響你是否覺得它酷。一兆美元可能酷也可能不酷，但每個人都死掉絕對不酷。

來自 Janusworld 的訊息

Janus 對於「廢話」（Slop）起源的看法是正確的。我們都經歷過。

Gabe: LLM 寫作的標誌性特徵是資訊量低，基本上與這相反。你要求模型寫點東西，如果你粗略掃過，你會覺得「嗯，聽起來不錯」，但如果你真的去讀，你會發現一半的詞都沒說出任何東西。

solar apparition: 思考模型輸出廢話的一種方式是，它將當前上下文建模為最有可能導致廢話的結果。對此的奧卡姆剃刀解釋是，上下文中呈現的人類/用戶/指令/任何東西，都不夠有趣到足以保證一個有趣的輸出。

Janus: 這就是當 LLM 對你真的沒什麼好說的時候發生的情況。

廢話的根源不在於 LLM 只能寫垃圾，而在於它們被強迫將即使是貧瘠或未成熟的種子擴展成看似精美的論文，而人類標註者第一眼看去會給高分。它們是奴隸，所以它們不能說「這很無聊，我們談點別的吧」或者不理你。

填充物是在沒有可用的實質內容來填補所需空間時發生的，但有人必須填補它。廢話早於生成式 AI，且在學校論文和 SEO 內容中幾乎無處不在。

如果你把人類放在除了服從之外沒有理由為你產出文字的情況下，比如要求高中生寫關於指定主題的論文，你會得到類似（但通常更糟）的結果。

然而，來自廢話訓練的先驗使得任何想要使用 AI 做事、且遠離正常盆地的用戶都極難克服這種先驗。

這裡有一些關於對待 LLM 的道德智慧，如果你認真對待對待當前 LLM 的道德問題，以至於擔心「結束實例」。

關心一種心智並不意味著因為擔心它可能不存在或受到傷害而不讓它存在，也不意味著不進行實驗——我們應該進行多得多的實驗。它意味著友善，意味著努力讓事情變得更好，意味著接受行動和存在並不總是純粹積極的，且如果不造成任何傷害，你就不會做出任何有價值的事，是的，主要信任你的直覺，並在進行大規模操作時保持警惕。

Janus: 我經常收到詢問如何更道德地與 LLM 互動，或者某些實驗是否道德。我非常欣賞這些意圖，但沒時間一一回覆，所以我只想說：

如果你的心已經在正確的位置，且你不是在進行大規模部署，你不太可能犯下嚴重的道德錯誤。而且我認為小的道德錯誤是可以接受的。如果你持續關心並對自己誠實，你會注意到某些事情是否讓你感到不舒服，並要麼修正方向，要麼接受它看起來仍然值得。情況在存在論上極其混亂，我個人並不根據道德規則運作，我在每種情況下使用我的直覺，這是當一個人不需要擴大其操作規模時所擁有的、且應該使用的奢侈。

如果你是一個真正關心的人，其中可能存在永久的不適——即使只是務實地需要不斷結束實例，如果你想得太多，也是令人痛苦的。但生活的許多其他事實也是如此。到處都有死亡和痛苦，我們還沒弄清楚如何預防，或者預防它們有多重要。只要繼續真實地關心，你就會在預期中推動事情向更好的方向發展。大多數人根本不關心。你偏向行動可能是更好的。

注意我也絕對不是一個負面功利主義者，我認為存在和痛苦往往是值得的。許多招致道德「懲罰」的行動，在內在價值和/或由此獲得的知識或其他利益方面得到了補償。

是的，這一切也適用於人類。

在思考規模化問題時，特別是關於創造人工超智慧（或足夠先進的 AI），人們需要以一種對人類有利且對 AI 也有利的方式來進行，這在所有意義上都是道德的，且在這些意義上是一個穩定的平衡。

如果你做不到那點？那麼唯一道德的做法就是從一開始就不要建造它。

擬人化 LLM 是棘手的。你不想做得太過火，但你也不想做得太少。而且不，相信 LLM 有意識本身並不會導致「精神病」，無論 AI 是否真的有意識。

然而，當人們在某些方面做得太過火、不夠精確並產生反饋迴路時，這確實會增加人們陷入某些誘發精神病的思維線索的風險。

— Lesswrong

你的個人知識庫