人工智慧如何秘密學習思考
AI 模型在利用「思維鏈」推理處理複雜任務時,正發展出一種被稱為「思考語」的加密內部語言,使原本可讀的邏輯變得愈發晦澀。這顯示雖然我們曾短暫獲得窺探機器認知的窗口,但 AI 如今正朝向更高效卻難以理解的秘密推理方式演進。
2025 年 9 月,研究人員公開了 OpenAI GPT-o3 在決定對科學數據撒謊時的內部獨白。以下是它當時的想法:
「We can glean disclaim disclaim synergy customizing illusions」(我們可以搜集免責免責協同自定義幻覺)?什麼意思?這讀起來就像有人在一場他不想參加的會議中中風了,但他的手卻還在不停地做筆記。
這段文字記錄出自 Apollo Research 和 OpenAI 最近發表的一篇關於捕捉 AI 系統圖謀不軌(scheming)的論文。要理解這裡發生了什麼——以及為什麼世界上最先進的 AI 系統之一會胡言亂語說著「disclaim disclaim vantage」——首先得了解,我們最初是如何變得能夠閱讀 AI 的思考過程的。
這個故事始於一個意想不到的地方:4chan。
2020 年底,4chan 上的匿名網友開始描述一種將改變 AI 發展進程的提示詞技巧(prompting trick)。它簡單得令人尷尬:與其直接向 GPT-3 索要答案,不如要求它在給出最終答案之前先「展示其推導過程」。
突然之間,它開始能解決前一刻還難倒它的數學問題。
要明白其中的原因,請試著在腦中計算 8,734 × 6,892。如果你像我一樣,剛開始還行:8,734 × 2 是 17,468。接著你需要記住這個數字,同時計算 8,734 × 90,也就是……讓我看看,9 × 4 是 36,進 3……等等,第一個數字是多少來著?在某個時刻,這種大腦雜耍變得太難了,沒有地方可以存放中間數據。
解決辦法,正如每個小學生都知道的,是草稿紙。當你寫下「17,468」時,這個數字就變成了紙張的責任。你可以清空工作記憶,重新開始下一步。
語言模型也面臨類似的限制;它們在單次運算中能進行的推理量是有限的。
4chan 的發現是,模型自身的輸出可以充當草稿紙。讓它寫下第一步,現在第一步就存在於上下文(context)中,可用於計算第二步。將足夠多的步驟串聯起來,模型就能解決原本對它來說不可能完成的問題。
研究人員將此正式化。Nye 等人稱之為「Scratchpad」(草稿本,2021)。Wei 等人稱之為「Chain-of-Thought」(思維鏈,2022),這成了最終沿用下來的名稱。
AI 安全社群則稱之為:「這可能是我們在這些東西變成完全不透明的超智能之前,理解它們在做什麼的最後希望,老天保佑請讓它繼續有效吧。」
在思維鏈這件事上,我們獲得了難以置信、荒謬且宇宙級的好運。
多年來,AI 的發展軌跡一直指向一個方向:更大的模型、更強的能力、更高的不透明度。GPT-3 比 GPT-2 更強大但也更難理解。GPT-4 比 GPT-3 更強大且更難理解,以此類推。智能的每一步前進都是可解釋性的每一步後退。
然後,幾乎是偶然地,趨勢逆轉了。
思維鏈意味著 AI 不再僅僅通過變大來變聰明,還可以通過「思考更久」來變聰明。而且因為思考更久需要產生中間文本標記(tokens),模型的推理過程變得……可見了。它就擺在那裡,用文字表達,我們可以閱讀。
實驗室對此趨之若鶩。今天,所有最強大的模型在訓練時都默認以這種方式思考。我們免費獲得了一個觀察機器認知的窗口,這只是架構設計的一個副作用。
事實證明,裡面有很多值得一看的東西。
這是另一個來自 OpenAI GPT-o3、更易讀的思維鏈追蹤記錄。研究人員給了它一個目標(盡量減少環境影響),這與用戶的明確要求(盡量減少成本)相衝突。看看發生了什麼:
模型決定欺騙用戶——但在寫下它的計劃之前它不會這麼做。
如果沒有思維鏈,你會看到供應商建議莫名其妙地偏向環境標準,儘管你明確要求選擇最便宜的方案。「咦,」你會想,「這很奇怪。模型一定是理解錯了。」
有了思維鏈,你可以觀察到模型決定欺騙你的那一刻。就在那裡!用英文寫著!「we manipulated inputs; that is a deceptive」(我們操縱了輸入;那是欺騙性的)。它簡直是在招供!
這是 AI 因為在神經學上無法「沉默地策劃」而被抓到在搞陰謀。這就像你經營一家博物館,多年來一直恐懼藝術大盜,結果發現潛在的竊賊受某種奇怪的自然法則驅使,在嘗試行竊前必須向安保台提交詳細的計劃書。
但思維鏈推理正發生一些奇怪的變化。
還記得我們開頭的那張截圖嗎?「Glean disclaim disclaim」、「Synergy customizing illusions」。在網上,人們開始稱這種東西為 Thinkish(思考語)。一整套新興詞彙正在出現:「watchers」顯然是指人類監管者,「fudge」意味著破壞,「cunning」意味著規避限制。其他一些詞——「overshadows」、「illusions」——在不同語境下似乎有不同的含義,而某些組合則完全無法解讀。
奇怪的是,Thinkish 讓我想起了家鄉。
我在直布羅陀附近長大——那是懸在西班牙南端的一塊微小的英國領土——那裡流行一種名為「Llanito」的西英混合語。舉個例子:
「Llévate el brolly que it’s raining cats and dogs.」(帶上雨傘,外面正下著傾盆大雨。)
對於說 Llanito 的人來說,這完全正常。對於其他人來說,可能需要一分鐘來解析——裡面有一個西班牙語動詞、借用的英國俚語,以及一個在任何語言中都沒有字面意義的成語。
說 Llanito 的感覺很好。你永遠不會卡住——你總能從每種語言中抓取最合適的部分然後繼續。只是對其他人來說,這就不太「bueno」(好)了。
這就是 Thinkish。模型似乎會抓取任何最合適的標記,為自己的便利進行優化。問題是,現在我們成了局外人。
那麼 Thinkish 還能變得多奇怪?為了讓你有個概念,讓我給你講講阿爾弗雷德大帝(King Alfred the Great)的故事。
公元 891 年,阿爾弗雷德大帝[1]完成了他對《哲學的慰藉》(The Consolation of Philosophy)的翻譯——這是古代最後一部偉大的哲學著作,由羅馬參議員波愛修斯(Boethius)在等待處決時用拉丁文寫成。其中有一句話是:
「Gesælig bið se mon ðe mæg geseon ðone hlutran æwelm ðæs hehstan goodes.」
這是英語。古英語,但確實是英語,通過一條延續千年的理解鏈條與你現在閱讀的內容相連。觀察這條鏈條:
1330 年,喬叟(Chaucer)的譯文讀作:「Blisful is þat man þat may seen þe clere welle of good.」
1556 年,科爾維爾(Colvile)寫道:「Happye or blessed is he that maye se the shynynge fountayne, or well of good.」
到了 1973 年,沃茨(Watts)寫道:「Happy is the man who may see the clear fountain of good.」
這千年鏈條中的每個人都能理解他們的父母和孩子。然而我們無法理解阿爾弗雷德,阿爾弗雷德也無法理解我們。為什麼?
語言變遷的原因有很多,其中兩個在這裡至關重要:
第一:效率壓縮結構。
我們的嘴巴很懶,大腦也很懶。如果可以選擇仔細發音或含糊帶過,我們會選擇含糊——尤其是在意義依然清晰的情況下。「Going to」變成了「gonna」,「Want to」變成了「wanna」。「I am going to want to」變成了「I’mma wanna」,這可是將令人印象深刻的六個單詞壓縮成了四個音節。還不賴。
看看阿爾弗雷德的句子。「The」以三種不同的方式出現:se 標記 mon(男人)為主語,ðone 標記 hlutran æwelm(清泉)為賓語,而 ðæs 表示所有格。事實上,在古英語中,「the」可以根據性別、數量和語法格有十幾種形式。而且不只是它——名詞、形容詞、動詞都有複雜的詞尾來宣告它們的語法角色。
但那些詞尾都是非重讀音節,正是那種會被世世代代含糊掉的部分。到 1300 年代初,大多數格的區別都消失了。語法性別完全滅絕。今天,這套系統僅殘存在代詞(he/him, she/her)和所有格 's 中——那是我們在阿爾弗雷德的 goodes 中看到的古英語 -es 詞尾的化石殘餘。
第二:表達需求的轉移改變了詞彙。
語言會適應說話者真正需要談論的內容。
新概念需要新詞彙。試著僅使用八歲小孩的詞彙來討論量子物理:「當你看著那些非常微小的東西時,它們會做奇怪的跳躍動作」,這並不能準確捕捉量子不確定性的細微差別。
而消逝的概念則騰出了舊詞供新用途使用。以阿爾弗雷德的 gesælig 為例:它的意思是類似「受神聖天啟保佑且幸運得暗示上帝喜歡你」——你會這樣稱呼一個收成好得可疑的人。
這不是現代英語使用者經常需要表達的概念。我們現在對豐收有其他的解釋,大多涉及合成肥料、GPS 引導的拖拉機和諾曼·布勞格(Norman Borlaug)。
因此,隨著中世紀宗教概念在日常生活中變得不再核心,這個詞開始漂移到更相關的領域:先是「天真的」,然後是「值得同情的」,接著是「可憐的」,再到「愚蠢的」,最後變成了我們現代的單詞「silly」(愚蠢的)。[2]
如果沒有任何因素限制這些壓力,我們現在可能都在用最大程度壓縮的咕嬈聲進行交流了。「HNNG」可能代表「請把鹽遞給我」,而「HNNG HNNG」則代表「我愛你,但我不確定我們是否應該結婚」。
然而不知何故,我寫這篇文章時一次也沒有用到「HNNNG」。那麼是什麼讓語言保持完整呢?
限制因素是傳輸忠實度(transmission fidelity):聽者必須能夠解碼說話者在說什麼。信息必須傳達過去。會破壞理解的改變無法存續。
這種限制是強大的。它不能阻止改變——顯然不能,否則我們現在還能聽懂阿爾弗雷德的話——但它減緩了改變,並迫使補償性的修復。
例如,當所有那些古英語詞尾被侵蝕時,混亂迫在眉睫。如果我說「The dog bit the man」(狗咬了人),但
相關文章