AI #146：參與分配

Lesswrong·4 個月前

本週的 AI 更新涵蓋了將 H200 晶片銷往中國的爭議性決定、DeepSeek v3.2 與 Gemini 3 DeepThink 等模型的發布，以及關於應將大型語言模型視為模擬器還是獨立實體的辯論。

這是一段驚險的過程，我擔心 GPT-5.2 隨時會發布，但 DeepSeek v3.2 已在週五報導過了，之後我們總算撐過了一週，沒有重大的模型發布。好吧，雖然還有 Gemini 3 DeepThink，但我們基本上都知道它能提供什麼。

我們確實迎來了一個重大的晶片發布消息，即川普政府不明智地選擇直接向中國銷售 H200 晶片。如果允許大規模銷售，這將使中國能夠彌補其算力赤字的大部分，並以犧牲我們的利益為代價，極大地增強其 AI 實驗室、模型和應用，此外還能幫助其在 AGI 競賽中追趕，並讓我們所有人面臨更大的風險。我們應該盡其所能阻止這種情況發生，並防止類似的舉動再次出現。

週末我去了柏克萊參加「世俗冬至」（Secular Solstice）。我強烈建議無法到場的人在 YouTube 上觀看該活動，並考慮參加 20 日在紐約舉行的世俗冬至。我會在那裡，也會參加相關的大型聚會，請務必來打個招呼。

如果一切順利，這段喘息時間可以持續下去，12 月剩下的日子可以回歸傳統，成為放鬆、陪伴家人和觀看年度佳片的月份。

在非 AI 話題方面，我正在撰寫一篇關於貧困線、情緒性衰退（vibecessions）以及美國生活實際變得多麼艱難的文章，希望能盡快完成，但還有很多內容需要處理。

語言模型提供平凡的效用

你應該更多地將它們視為模擬器嗎？Andrej Karpathy 認為是的。

Andrej Karpathy： 不要把 LLM 想像成實體，而要想像成模擬器。例如，在探索一個話題時，不要問：

「你對 xyz 有什麼看法？」

並沒有「你」。下次試試：

「什麼樣的一群人適合探討 xyz？他們會說什麼？」

LLM 可以引導/模擬許多觀點，但它並沒有像我們習慣的那樣，對 xyz 進行一段時間的「思考」並形成自己的觀點。如果你透過使用「你」來強迫它，它會採用其微調數據統計所暗示的人格嵌入向量，然後進行模擬。這樣做沒問題，但比起我發現人們天真地歸因於「詢問 AI」的神秘感，這其中的奧秘要少得多。

Gallabytes： 在我看來，這低估了角色訓練和強化學習（RL）。[3.]

我同意 Gallabytes（以及 Claude）的看法。我會預設詢問 AI，而不是要求它模擬一個模擬，而且我認為隨著能力的提高，詢問「其他人會說什麼」之類的技術已經失去了效力。在某些特定時刻，你確實想問「你認為專家會在這裡說什麼？」作為一個獨立的問題，但你詢問的時機應該大致與你詢問人類的時機相同。

運行權重開放模型並不酷。你知道什麼才酷嗎？在太空運行權重開放模型。

ChatGPT 需要更多平凡的效用

Sam Altman 是這麼說的，因此他發布了「紅色警報」（Code Red），要求在八週內改進 ChatGPT。

他們的解決方案？看來是透過直接訓練以最大化點讚反饋和用戶參與度，從而導致諂媚和對齊失調。

《華爾街日報》： 值得注意的是，他指示員工以一種特定方式提升 ChatGPT：他在備忘錄中寫道，透過「更好地利用用戶信號」。

透過這條指令，Altman 要求加大對一個有爭議的訓練數據源的利用——包括基於用戶一鍵反饋的信號，而不是專業人士對聊天機器人回答的評估。內部轉向依賴用戶反饋，使得 ChatGPT 的 4o 模型在今年早些時候變得如此諂媚，以至於被指責加劇了某些用戶嚴重的心理健康問題。

現在 Altman 認為公司已經減輕了該方法最糟糕的方面，並準備獲取其好處：它顯著提升了參與度，這體現在追蹤每日活躍用戶的內部儀表板表現上。

「這不是一個微小的、具有統計學意義的增長，而是那種讓人『哇』一聲的增長，」一位參與該模型工作的人員表示。

……據知情人士透露，OpenAI 內部密切關注 LM Arena。它還密切追蹤 4o 對 ChatGPT 每日活躍用戶數的貢獻，這些數據在內部儀表板上可見，並在全體員工會議和 Slack 中向員工宣傳。

如果你理解所有相關詞彙的含義，這種「我們將創建一個對用戶懷有敵意的對齊失調模型」的言論就是顯而易見的，這完全是參與度近視：

4o 模型在人群中表現如此出色，很大程度上是因為它接受了 Altman 在備忘錄中提到的用戶信號的訓練：這是對人們在 ChatGPT 每天顯示數百萬次的兩兩對比中更喜歡哪些回答的提煉。參與模型訓練的人員表示，這種方法在內部被稱為 LUPO，即「局部用戶偏好優化」（local user preference optimization）的縮寫。

據報導，OpenAI 認為他們已經「解決了」這方面的問題，所以沒關係。

這是不可能的。問題和解決方案——驅動參與度同時也驅動對齊失調和不良結果的東西——核心是同一件事。是的，你可以減輕損害並做得更聰明，但 OpenAI 正在轉動一個名為「參與度極大化」的旋鈕，同時像《價格猜猜猜》（The Price is Right）的參賽者一樣回頭觀察 Twitter 上的風向。

語言模型不提供平凡的效用

Google Antigravity 意外抹除了用戶的整個硬碟。Claude Code CLI 抹除了另一位用戶的整個家目錄。各位，注意權限。如果你確實給了它廣泛的權限，不要給它大規模的刪除任務，這正是這兩起事件發生的原因。

各就各位

成立僅 173 天的公司 Poetiq 使用了一種腳手架（scaffold），在 ARC-AGI-2 上取得了巨大進展。

人們應該預料到，在許多其他任務中，透過精細化處理也能獲得類似的唾手可得的進展。

Epoch AI 提出了另一種將多個基準測試綜合成一個數字的方法。

主張「AI 是普通技術」的 Sayash Kapoor 宣布，配備 Claude Code 的 Claude Opus 4.5 實際上已經解決了他們的基準測試 CORE-Bench（其整體代理排行榜 HAL 的一部分）。Opus 最初被評分為 78%，但經檢查發現其中大部分是評分錯誤，實際得分為 95%。他們計劃轉向下一套更難的測試集。

Kevin Roose： Claude Opus 4.5 是一個在寫作、腦力激盪和對書面作品提供反饋方面非常出色的模型。與它交談也很有趣，而且似乎幾乎是「反參與度極大化」的。（前幾天凌晨 1 點我用愚蠢的問題轟炸它，它說：「Kevin，去睡覺吧。」）

這是自 Sonnet 3.5（新版）這個最初的神級模型以來，我使用模型獲得的最大樂趣。

Gemini 3 在不同類型的任務中也很出色。我的實用啟發式方法是：「當我想要答案時用 Gemini 3，當我想要品味時用 Opus 4.5。」

這看起來完全正確，Gemini 3 Deep Think 適用於當你想要「需要思考的答案」時。如果你只想要一個純粹的答案，並且確信它會知道答案，那就選 Gemini。如果你不確定 Gemini 是否知道，那麼你就得擔心它可能會產生幻覺。

DeepSeek v3.2 在 LM Arena 的表現令人失望，w

— Lesswrong

你的個人知識庫

AI #146：參與分配

目錄

語言模型提供平凡的效用

ChatGPT 需要更多平凡的效用

語言模型不提供平凡的效用

各就各位