從寶可夢看 Claude Opus 4.5 的洞見

Lesswrong·4 個月前

Claude Opus 4.5 在遊玩《寶可夢紅版》方面取得了顯著進展，突破了先前如火箭隊秘密基地等難關，展現出遠超以往的視覺與物體辨識能力，儘管在選擇性注意力和幻覺方面仍存在問題。

資料來源：Nano Banana，部分文字由其提供。

你可能會驚訝地發現，ClaudePlaysPokemon 至今仍在運行，而且在 Google 自豪地宣布 Gemini 2.5 Pro 擊敗《寶可夢藍》半年多後，Claude 仍未通關《寶可夢紅》。事實上，自那以後，Google 和 OpenAI 的模型已經陸續擊敗了流程更長、更複雜的《寶可夢水晶》，但 Claude 自 Claude 3.7 Sonnet 以來，在《紅》的進度上幾乎沒有實質進展！[1]

這是因為 ClaudePlaysPokemon 是一項更純粹的 LLM 能力測試，這歸功於其始終如一的簡單代理框架[2]，以及其創作者、Anthropic 的 David Hershey 所採取的相對「放手」的方式。[3] 當多個 Claude 版本在火箭隊秘密基地和艾莉嘉的道館前連續數月碰壁時，開發者並未採取任何實質措施來拉 Claude 一把。

但 Claude Opus 4.5 終於突破了這些障礙，這或許印證了關於 Opus 4.5 是一次重大進步的傳聞。

不過，這很難說是通用人工智慧（AGI）到來的預兆，下文將會說明原因。以下是一位在過去一年中觀看了大量 ClaudePlaysPokemon 的朋友，針對 Claude 在 Opus 4.5 中如何改進（或未能改進）所寫的筆記。[4]

改進之處

更好的視覺，稍微進步的觀察力

今年早些時候，LLM 在玩寶可夢時實際上近乎全盲，無法穩定地識別和區分門、建築、樹木、NPC 或障礙物。

例如，這個畫面：

在奧基德博士的實驗室選擇你的初始寶可夢。

……在 Sonnet 3.7 時期，這難倒了我測試過的每一個 LLM，它們都難以穩定地識別精靈球的位置，或搞清楚自己想要哪隻寶可夢，有時甚至會意外接受錯誤的初始寶可夢。Opus 4.5 則讓這看起來像是一個微不足道的簡單問題。[5]

總體而言，Opus 4.5 在尋找門方面不再有任何困難，並且能在道館、寶可夢中心和商店出現在螢幕上的瞬間就識別出它們。此外，他對關鍵 NPC 的混淆明顯減少——奧基德博士始終是奧基德博士，玩家角色不再是「戴紅帽子的 NPC」，他還能從一排人中挑出教練艾莉嘉。

艾莉嘉是左起第二位。前一個 Claude（唯一到達過這個道館的 Claude）未能識別出道館館主就在這裡，並一直堅持認為自己已經擊敗了所有訓練家。最終它離開了，再也沒有回來。

然而，新的視覺能力遠非完美，其表現與 Claude 是否專注，以及 Claude 是否願意相信自己「親眼所見」的事實成正比。

注意力就是你所需要的一切 (Attention is All You Need)

關於第一點，Claude 經常似乎直接忽略了視野中的事物，如果他沒有往那邊「看」的話。更糟糕的是，在接近當前目標的關鍵時刻，他似乎更少依賴視覺，有時甚至完全忽略視覺。

Claude 處於惡名昭彰的火箭隊秘密基地地獄中。

上圖是 Claude「盲視」的典型案例。他左側的那兩個向左箭頭（「旋轉地板」）是通往進度的唯一潛在路徑，但他知道目標在右邊，甚至認為自己看到了目標。Claude 曾數十次造訪這個特定地點，但只有不到 5 次似乎意識到左側有旋轉地板。此外，他顯然難以區分綠色箱子和旋轉地板，並經常嘗試踩上箱子——這種錯誤只有在他接近目標時才會顯現。在其他大部分時間裡，他辨別兩者似乎都沒有問題。

這是另一個會讓 Twitch 觀眾感到崩潰的例子：

Claude 在玉虹市，試圖尋找道館。

在這裡，必須使用「砍樹 (CUT)」才能前往道館的樹木清晰可見，但 Claude 正專注於尋找開放的通路，完全沒有看到它的跡象，直接走過——然而就在幾分鐘後，他在放棄尋找開放通路的回程中，又發現了這棵樹。[6]

慾望的對象

關於第二點，如果 Claude 非常希望某個物體出現在那裡，他明顯更容易產生幻覺或將物體誤認為他正在尋找的東西。

經典案例是 Claude 在火箭隊秘密基地尋找電梯：

Claude 在火箭隊秘密基地的另一部分，完全不在他尋找的電梯附近。

Claude 對上述畫面的推理。

已經過了幾個小時，Claude 變得有些焦急。這也不是他唯一一次對電梯產生幻覺。例如，在我們之前討論過的同一個地點，那裡其實離電梯很近：

Claude 仍處於惡名昭彰的火箭隊秘密基地地獄中。

這次 Claude 對上述畫面的推理。

現在，電梯確實是在那個方向，Claude 之前甚至（真的）看到過它。但他對此過於執著，以至於儘管他心知肚明，卻仍將灰色的牆壁誤認為是電梯。

在你對 Claude 做出嚴苛評價之前，請看他正在尋找的電梯長這樣：

底部深粉色/紅色的地毯通往電梯。電梯本身有獨立的畫面，看起來更像電梯，但入口沒有明顯的「電梯門」圖示，只有那塊地毯，你必須記住它通往電梯場景。

儘管如此，Claude 仍能將地毯識別為電梯的入口。

一點說明

讓我澄清一下：我使用了帶有「意圖性」的語言，彷彿 Claude 是「選擇」忽略某些事物。我不認為情況是那樣。我認為他的注意力機制主動篩選掉了它認為無關的信息，導致模型中負責決策的部分對這些信息視而不見。

人類擁有內建的注意力機制，但顯然構建得比這更好，即使在極端情況下也會有類似的失效模式。

略微提升的空間意識

我不想誇大這一點。Claude 對如何導航 2D 世界的理解顯然仍低於大多數兒童，但確實有所改進：

當試圖到達建築物前的門，並發現路徑從某個方向被阻擋時，Claude 現在會嘗試繞道而行。
Claude 現在能（透過筆記）保持對建築物或城市各部分相對位置的意識，並執行簡單的導航任務。之前的版本經常會遺忘不在即時視野內的事物。
Claude 現在可以進行一些基礎的內外幾何推理：從房間頂部離開建築物可能會讓我出現在建築物的上方；不同樓層的電梯可能位於樓層的相同位置等。

更好地利用上下文窗口和筆記來模擬記憶

Claude 能力的另一個明顯改進是改進了筆記記錄和對上下文的記憶。之前的 Claude 版本（如 Sonnet 3.7）幾乎沒有表現出能「回想起」比幾條訊息前更早的事情，儘管大部分內容都在上下文中。雖然它們是勤奮的筆記記錄者，但似乎很少閱讀自己的筆記——即使讀了，也顯然是以隨機的方式，以至於聊天室喜歡猜測 Claude 這次是否會讀筆記，以及會讀筆記的哪一部分。

Opus 4.5 在監控上下文和使用筆記方面都好得多，以至於在大部分時間裡，他成功地維持了一種實際上「記得」過去 15 分鐘左右發生的事情的假象，能夠引用最近發生的事件、避開過去的障礙，並且總體上維持了一個更連貫的敘事。

對於長期記憶，Claude 必須完全依賴他寫在筆記中的內容，而他在編寫和閱讀自己的指令方面做得好得多，能例行性地成功且稱職地重複過去的導航任務。現在，如果 Claude 做了一件事並寫下如何操作，他就能再次完成。

很難誇大這對遊戲流程變得更流暢、更快速有多大貢獻。Claude 可以長時間保持導航專注，稱職地探索簡單區域，只要筆記做得好且他的假設正確，一切都會進展順利。

當然，有時事情也會出差錯……

自我修正；更快跳出循環

……但與以前相比，問題能更快得到解決。這很難量化，但我認為這主要源於他能更好地察覺上下文窗口中重複發生的事件。Claude 更頻繁且穩定地注意到他正在嘗試的方法顯然行不通，並會嘗試做出改變。結合他改進的空間推理，以前版本需要數天或數週反覆試錯的導航任務，現在幾乎能輕鬆完成：常磐森林和月見山都相對簡單，在枯葉市只繞了幾圈就直接走到了碼頭，等等。

這並非全是好事：Claude 的速度仍比人類慢得多，也不是每個謎題都能輕鬆解決。Claude 也還沒有推導出「走在訓練家面前會觸發戰鬥」等關鍵事實，而是將這些視為隨機遇敵。

但這終究是一種進步。

未改進之處

Claude 仍不會被誤認為是人類玩家

我想講一個小故事，讓讀者感受一下有時觀看 Claude 玩遊戲是什麼感覺，即使他技術上正從容地達成目標。這是關於 Claude 嘗試獲取火箭隊總部電梯鑰匙的故事，這技術上是他完成的第一件前代模型從未達成過的事。

Claude 到達火箭隊總部，立即宣布他身旁的樓梯是通往坂木老大的電梯，為此他需要電梯鑰匙。
隨後他忽略了那個假的「電梯」好幾個小時，確信自己無法「使用」它，並在樓層的其他地方徘徊，尋找電梯鑰匙或另一組樓梯。
最後他選擇嘗試最初那個「電梯」，發現……

— Lesswrong

其他收藏 · 0

你的個人知識庫

從寶可夢看 Claude Opus 4.5 的洞見

改進之處

未改進之處