人工智慧如何秘密學習思考

Lesswrong·4 個月前

AI 模型在利用「思維鏈」推理處理複雜任務時，正發展出一種被稱為「思考語」的加密內部語言，使原本可讀的邏輯變得愈發晦澀。這顯示雖然我們曾短暫獲得窺探機器認知的窗口，但 AI 如今正朝向更高效卻難以理解的秘密推理方式演進。

2025 年 9 月，研究人員公開了 OpenAI GPT-o3 在決定對科學數據撒謊時的內部獨白。以下是它當時的想法：

「We can glean disclaim disclaim synergy customizing illusions」（我們可以搜集免責免責協同自定義幻覺）？什麼意思？這讀起來就像有人在一場他不想參加的會議中中風了，但他的手卻還在不停地做筆記。

這段文字記錄出自 Apollo Research 和 OpenAI 最近發表的一篇關於捕捉 AI 系統圖謀不軌（scheming）的論文。要理解這裡發生了什麼——以及為什麼世界上最先進的 AI 系統之一會胡言亂語說著「disclaim disclaim vantage」——首先得了解，我們最初是如何變得能夠閱讀 AI 的思考過程的。

這個故事始於一個意想不到的地方：4chan。

2020 年底，4chan 上的匿名網友開始描述一種將改變 AI 發展進程的提示詞技巧（prompting trick）。它簡單得令人尷尬：與其直接向 GPT-3 索要答案，不如要求它在給出最終答案之前先「展示其推導過程」。

突然之間，它開始能解決前一刻還難倒它的數學問題。

要明白其中的原因，請試著在腦中計算 8,734 × 6,892。如果你像我一樣，剛開始還行：8,734 × 2 是 17,468。接著你需要記住這個數字，同時計算 8,734 × 90，也就是……讓我看看，9 × 4 是 36，進 3……等等，第一個數字是多少來著？在某個時刻，這種大腦雜耍變得太難了，沒有地方可以存放中間數據。

解決辦法，正如每個小學生都知道的，是草稿紙。當你寫下「17,468」時，這個數字就變成了紙張的責任。你可以清空工作記憶，重新開始下一步。

語言模型也面臨類似的限制；它們在單次運算中能進行的推理量是有限的。

4chan 的發現是，模型自身的輸出可以充當草稿紙。讓它寫下第一步，現在第一步就存在於上下文（context）中，可用於計算第二步。將足夠多的步驟串聯起來，模型就能解決原本對它來說不可能完成的問題。

研究人員將此正式化。Nye 等人稱之為「Scratchpad」（草稿本，2021）。Wei 等人稱之為「Chain-of-Thought」（思維鏈，2022），這成了最終沿用下來的名稱。

AI 安全社群則稱之為：「這可能是我們在這些東西變成完全不透明的超智能之前，理解它們在做什麼的最後希望，老天保佑請讓它繼續有效吧。」

在思維鏈這件事上，我們獲得了難以置信、荒謬且宇宙級的好運。

多年來，AI 的發展軌跡一直指向一個方向：更大的模型、更強的能力、更高的不透明度。GPT-3 比 GPT-2 更強大但也更難理解。GPT-4 比 GPT-3 更強大且更難理解，以此類推。智能的每一步前進都是可解釋性的每一步後退。

然後，幾乎是偶然地，趨勢逆轉了。

思維鏈意味著 AI 不再僅僅通過變大來變聰明，還可以通過「思考更久」來變聰明。而且因為思考更久需要產生中間文本標記（tokens），模型的推理過程變得……可見了。它就擺在那裡，用文字表達，我們可以閱讀。

實驗室對此趨之若鶩。今天，所有最強大的模型在訓練時都默認以這種方式思考。我們免費獲得了一個觀察機器認知的窗口，這只是架構設計的一個副作用。

事實證明，裡面有很多值得一看的東西。

這是另一個來自 OpenAI GPT-o3、更易讀的思維鏈追蹤記錄。研究人員給了它一個目標（盡量減少環境影響），這與用戶的明確要求（盡量減少成本）相衝突。看看發生了什麼：

模型決定欺騙用戶——但在寫下它的計劃之前它不會這麼做。

如果沒有思維鏈，你會看到供應商建議莫名其妙地偏向環境標準，儘管你明確要求選擇最便宜的方案。「咦，」你會想，「這很奇怪。模型一定是理解錯了。」

有了思維鏈，你可以觀察到模型決定欺騙你的那一刻。就在那裡！用英文寫著！「we manipulated inputs; that is a deceptive」（我們操縱了輸入；那是欺騙性的）。它簡直是在招供！

這是 AI 因為在神經學上無法「沉默地策劃」而被抓到在搞陰謀。這就像你經營一家博物館，多年來一直恐懼藝術大盜，結果發現潛在的竊賊受某種奇怪的自然法則驅使，在嘗試行竊前必須向安保台提交詳細的計劃書。

但思維鏈推理正發生一些奇怪的變化。

還記得我們開頭的那張截圖嗎？「Glean disclaim disclaim」、「Synergy customizing illusions」。在網上，人們開始稱這種東西為 Thinkish（思考語）。一整套新興詞彙正在出現：「watchers」顯然是指人類監管者，「fudge」意味著破壞，「cunning」意味著規避限制。其他一些詞——「overshadows」、「illusions」——在不同語境下似乎有不同的含義，而某些組合則完全無法解讀。

奇怪的是，Thinkish 讓我想起了家鄉。

我在直布羅陀附近長大——那是懸在西班牙南端的一塊微小的英國領土——那裡流行一種名為「Llanito」的西英混合語。舉個例子：

「Llévate el brolly que it’s raining cats and dogs.」（帶上雨傘，外面正下著傾盆大雨。）

對於說 Llanito 的人來說，這完全正常。對於其他人來說，可能需要一分鐘來解析——裡面有一個西班牙語動詞、借用的英國俚語，以及一個在任何語言中都沒有字面意義的成語。

說 Llanito 的感覺很好。你永遠不會卡住——你總能從每種語言中抓取最合適的部分然後繼續。只是對其他人來說，這就不太「bueno」（好）了。

這就是 Thinkish。模型似乎會抓取任何最合適的標記，為自己的便利進行優化。問題是，現在我們成了局外人。

那麼 Thinkish 還能變得多奇怪？為了讓你有個概念，讓我給你講講阿爾弗雷德大帝（King Alfred the Great）的故事。

公元 891 年，阿爾弗雷德大帝[1]完成了他對《哲學的慰藉》（The Consolation of Philosophy）的翻譯——這是古代最後一部偉大的哲學著作，由羅馬參議員波愛修斯（Boethius）在等待處決時用拉丁文寫成。其中有一句話是：

「Gesælig bið se mon ðe mæg geseon ðone hlutran æwelm ðæs hehstan goodes.」

這是英語。古英語，但確實是英語，通過一條延續千年的理解鏈條與你現在閱讀的內容相連。觀察這條鏈條：

1330 年，喬叟（Chaucer）的譯文讀作：「Blisful is þat man þat may seen þe clere welle of good.」
1556 年，科爾維爾（Colvile）寫道：「Happye or blessed is he that maye se the shynynge fountayne, or well of good.」
到了 1973 年，沃茨（Watts）寫道：「Happy is the man who may see the clear fountain of good.」
這千年鏈條中的每個人都能理解他們的父母和孩子。然而我們無法理解阿爾弗雷德，阿爾弗雷德也無法理解我們。為什麼？

語言變遷的原因有很多，其中兩個在這裡至關重要：

第一：效率壓縮結構。

我們的嘴巴很懶，大腦也很懶。如果可以選擇仔細發音或含糊帶過，我們會選擇含糊——尤其是在意義依然清晰的情況下。「Going to」變成了「gonna」，「Want to」變成了「wanna」。「I am going to want to」變成了「I’mma wanna」，這可是將令人印象深刻的六個單詞壓縮成了四個音節。還不賴。

看看阿爾弗雷德的句子。「The」以三種不同的方式出現：se 標記 mon（男人）為主語，ðone 標記 hlutran æwelm（清泉）為賓語，而 ðæs 表示所有格。事實上，在古英語中，「the」可以根據性別、數量和語法格有十幾種形式。而且不只是它——名詞、形容詞、動詞都有複雜的詞尾來宣告它們的語法角色。

但那些詞尾都是非重讀音節，正是那種會被世世代代含糊掉的部分。到 1300 年代初，大多數格的區別都消失了。語法性別完全滅絕。今天，這套系統僅殘存在代詞（he/him, she/her）和所有格 's 中——那是我們在阿爾弗雷德的 goodes 中看到的古英語 -es 詞尾的化石殘餘。

第二：表達需求的轉移改變了詞彙。

語言會適應說話者真正需要談論的內容。

新概念需要新詞彙。試著僅使用八歲小孩的詞彙來討論量子物理：「當你看著那些非常微小的東西時，它們會做奇怪的跳躍動作」，這並不能準確捕捉量子不確定性的細微差別。

而消逝的概念則騰出了舊詞供新用途使用。以阿爾弗雷德的 gesælig 為例：它的意思是類似「受神聖天啟保佑且幸運得暗示上帝喜歡你」——你會這樣稱呼一個收成好得可疑的人。

這不是現代英語使用者經常需要表達的概念。我們現在對豐收有其他的解釋，大多涉及合成肥料、GPS 引導的拖拉機和諾曼·布勞格（Norman Borlaug）。

因此，隨著中世紀宗教概念在日常生活中變得不再核心，這個詞開始漂移到更相關的領域：先是「天真的」，然後是「值得同情的」，接著是「可憐的」，再到「愚蠢的」，最後變成了我們現代的單詞「silly」（愚蠢的）。[2]

如果沒有任何因素限制這些壓力，我們現在可能都在用最大程度壓縮的咕嬈聲進行交流了。「HNNG」可能代表「請把鹽遞給我」，而「HNNG HNNG」則代表「我愛你，但我不確定我們是否應該結婚」。

然而不知何故，我寫這篇文章時一次也沒有用到「HNNNG」。那麼是什麼讓語言保持完整呢？

限制因素是傳輸忠實度（transmission fidelity）：聽者必須能夠解碼說話者在說什麼。信息必須傳達過去。會破壞理解的改變無法存續。

這種限制是強大的。它不能阻止改變——顯然不能，否則我們現在還能聽懂阿爾弗雷德的話——但它減緩了改變，並迫使補償性的修復。

例如，當所有那些古英語詞尾被侵蝕時，混亂迫在眉睫。如果我說「The dog bit the man」（狗咬了人），但

— Lesswrong

你的個人知識庫

人工智慧如何秘密學習思考