不可理解性源於我們:關於思維鏈的觀察筆記

Lesswrong·大約 3 小時前

我分析了經強化學習訓練的語言模型是否正透過思維鏈發展出某種人類無法理解的新語言,並指出目前的證據顯示,這些模式更像是模仿人類的簡寫習慣,而非真正高效的新語言。

許多人似乎認為,經由強化學習(RL)訓練的大型語言模型(LLM)在思維鏈(Chain-of-Thought, CoT)上承受著巨大的「壓力」,迫使其不再使用英語。這種觀點認為,隨著 LLM 解決的問題越來越難,它們最終會滑向發明一種「新語言」,這種語言能讓它們比使用人類可理解的思維鏈更更好、更高效、且用更少的標記(token)來解決問題。

我不太確定這是否會發生,或者是否會在某種通用人工超智慧(ASI)出現之前發生。作為一個高層次的直覺引導:想像一下,你個人需要解決一個問題。在什麼情況下,發明一種新語言會是解決該問題最有效的方法?是否有任何人類曾成功發明過一種新語言,專門作為解決某些非語言相關問題的手段?例如,Lojban 的發明是為了比普通人類語言更少歧義,但它並未在重要的科學發現中發揮作用;為什麼呢?

總而言之,我認為致力於解決問題的人類創造力通常會發明新的符號系統(例如微積分涉及新符號),這些是現有語言的小型附件或存在於現有語言之內,但它們完全不像新語言。

但我這裡的目的並非提供關於思維鏈是否會滑向不可理解性的抽象論證。相反,我將檢視一條特定的經驗證據。具體來說,我將:

(1) 觀察一些在思維鏈中看起來像是「不可理解性開端」的現象,並解釋為什麼你起初可能會認為這是新語言的開始。
(2) 更仔細地觀察這些現象,並解釋你如何能看出這種「壓縮語言」的開端實際上源自人類文本。

然後得出結論。

1

讓我們來看看一些乍看之下像是學習一種比英語更具表現力的「壓縮」新語言的初始階段行為。為了做到這一點,我將觀察 DeepSeek V3.2 的思維鏈。

(就我所知,你可以對大多數允許自由訪問其 CoT 的開源權重模型構建類似的論點,但我不會在這裡嘗試。)

以下是我在後文大部分內容中使用的問題類型:一個關於不同事件排序的約束滿足型問題,事件以動物命名:

有 14 個事件在一個場地舉行。事件命名如下:狗、貓、鳥、魚、熊、獅子、老虎、大象、斑馬、長頸鹿、河馬、犀牛、豹、獵豹。
根據以下線索確定事件的順序:

  • 以下恰好有一項為真:魚與長頸鹿之間恰好有 2 個元素,或者魚與狗之間恰好有 0 個元素。
  • 犀牛與獅子之間的距離,與獅子與狗之間的距離相同。
  • 獵豹在前 3 個事件中。
    ...[刪減 11 條線索]...
  • 犀牛離獅子比離老虎近。
  • 鳥與斑馬相鄰。
  • 老虎與熊之間的距離,與熊與大象之間的距離相同。

這類問題的優點是可以無限生成,而且幾乎可以肯定 LLM 以前沒看過每個具體問題。另一方面,這類問題的缺點是涉及封閉域推理;在回答時可能需要的工具範圍非常有限。但這類問題提供了一個合理的起點。

當面對這類問題時,DeepSeek 3.2 在其思維鏈中會做些什麼?

嗯,一個立即顯現的特點是,它的思維鏈隨著時間推移變得越來越簡潔。以下是 DeepSeek 3.2 在溫度為 0 時,在思維鏈早期階段的推理樣子;你會注意到相對完整、符合語法的句子,儘管即使在這裡它有時也會開始省略動詞。

既然有 14 個位置,我將把它們從 1 編號到 14。獵豹在前三個,所以讓我們把位置 1, 2, 3 標記為獵豹。

根據線索 8,犀牛與獵豹相鄰。既然獵豹在 1, 2 或 3,犀牛必須在它旁邊。所以如果獵豹在 1,犀牛在 2;如果獵豹在 2,犀牛在 1 或 3;如果獵豹在 3,犀牛在 2 或 4。但由於位置只有 1-14,且獵豹在前三,犀牛可能在 1, 2, 3, 4,但前提是必須相鄰。

根據線索 3,獵豹在前三,所以讓我們考慮獵豹位置的情況。

此外,根據線索 4,狗與鳥之間恰好有一個元素。所以狗和鳥相隔兩個位置,意味著像 (1,3), (2,4), (3,5) 等位置,直到 (12,14)。同樣地,線索 10:斑馬與獅子之間恰好有一個元素,所以斑馬和獅子相隔兩個位置。

線索 16:鳥與斑馬相鄰。所以鳥和斑馬緊挨著。

而這是 DeepSeek 3.2 在思維鏈後期階段的推理樣子。你會注意到我們發現了省略的動詞、省略的空格,以及相當簡短、生硬且非正式的句子:

所以 B 和 F 之和為 12,可能配對:(9,3) 但 3=G,不可用;(11,1) 但 1=R,不可用;(12,0) 無效;所以沒有配對之和為 12?那 (6,6) 呢,但位置相同?不。

B 和 F 必須在不同位置,且從可用位置看,沒有兩個位置之和為 12?9+3=12 但 3 已佔用,11+1=12 但 1 已佔用,12+0=12 無效,13-1=12 不是和,等等。所以沒有可用的 B 和 F 位置之和為 12。因此矛盾。

因此對於 R=1,Z=6 是不可能的。

接下來,Z=7,則 Bd=6 或 8。

Bd=6,則 D 在 Bd-2=4 或 Bd+2=8。

D 必須是奇數,但 4 是偶數,8 是偶數,所以沒有奇數 D,矛盾。

Bd=8,則 D 在 Bd-2=6 或 Bd+2=10。

D 必須是奇數,但 6 是偶數,10 是偶數,所以沒有奇數 D,矛盾。

所以對於 R=1,Z=7 是不可能的。

很難想出可靠的代理指標來系統地衡量這裡的變化,但即使是相當粗略的衡量也能顯示出這種變化是如何隨時間系統性偏移的。

例如,繫詞密度下降——更少的詞是 "be", "being", "been", "is", "are"。這種情況在不同溫度下都會發生。同樣地,跟隨空格的標點符號百分比上升,因為 LLM 試圖透過像 1,2,3,4 而不是 1, 2, 3, 4 這樣的列表來「節省空格」。

這一切似乎都有道理;DeepSeek 3.2 的論文提到他們採用了「長度懲罰和語言一致性獎勵」。也就是說,他們改變了環境,使得較長的思維鏈獲得的獎勵稍少。他們還改變了環境,使得混合語言(如在一個思維鏈中混合英語和中文)的思維鏈獲得的獎勵稍少。

因此,看待上述現象的一種方式是將其視為 LLM 為了應對長度懲罰而發明的一種速記法。而且很容易將速記法視為轉變為新語言的第一步。

為了支持這一觀點——儘管有上述的「語言一致性獎勵」,隨著時間推移,你偶爾還是可以在 DeepSeek 3.2 中發現混合語言的情況,即它混合了中文和英文:

現在,根據線索 1:恰好 |Hp-Fs|=1 或 |Hp-Fs|=2 其中之一為真。

Hp 在 z-3 或 z+3。

Fs 在 1,2,3。

如果 Hp 在 z-3,那麼既然 z 至少 4,z-3 至少 1,所以 Hp 在 1,2,3,... 但如果 Hp 在 z-3,且 Fs 在 1,2,3,那麼如果 Hp 也在前 3 個,|Hp-Fs| 可能很小。

同樣地,如果 Hp 在 z+3,那麼 z+3 至多 14,所以 Hp 在 4 到 14,但 Fs 在前 3 個,所以 |Hp-Fs| 可能很大。

這裡的中文在語境上是有意義的——「至少」意味著 "is at least"。但儘管如此,如果明確有針對它的懲罰,為什麼它會出現在這裡?

我可以舉出幾乎無限多個像這樣壓縮語言的例子。因此,你可以從這些例子中得出這樣一個可能的圖景:LLM 公司設有「長度懲罰」,激勵更短的思維鏈,因為長思維鏈成本更高。由於這種長度懲罰,LLM 正在發明新的方式來壓縮它們的思維,使它們的思維更短且更難理解。目前,這些思維壓縮是半可理解的——但也許並非如此,也許它們已經在混合中文和英文來傳達某種非人類可理解的意義。這種半可理解的滑坡將導致 LLM 進一步偏離其源語言,直到它們變得完全不可理解,監控性也隨之喪失。

2

如果 LLM 是因為長度懲罰而開始發明新語言,那麼自然地,為「新語言」選擇的每個新標記都應該在更短的標記長度中具有更強的表現力。

但是——這真的是真的嗎?令人驚訝的是,並非如此!

考慮 DeepSeek 如何建立從動物名稱到「更短」動物名稱的映射以節省時間:

所以讓我們使用:

  • Dog: Dg
  • Cat: Ct
  • Bird: Bd
  • Fish: Fs
  • Bear: Be
  • Lion: Li
  • Tiger: Tg
  • Elephant: El
  • Zebra: Zb

有趣的是,如果你把這些輸入標記生成器(tokenizer)……在許多情況下,它實際上反而更糟。

"Dog" 佔用一個標記,但在上述情況下 "Dg" 佔用兩個。"Fish" 是一個標記,而 "Fs" 佔用兩個。這並非全部都起反作用;"Cat" 和 "Ct" 都是單個標記,"Bird" 和 "Bd" 也都是單個標記。但它……並沒有好多少,至少對於這段文字來說。歡迎你在這裡檢查。

不過,標記生成器很奇怪。那麼下游的段落呢?也許這在縮寫創建後能節省大量標記。以這段 92 個標記的文字為例:

  1. Tg closer to Dg than to Bd, so d(Tg,Dg) < d(Tg,Bd)
  2. d(Li,Fs) = d(Fs,Dg)
  3. Fs closer to Zb than to Dg, so d(Fs,Zb) < d(Fs,Dg)
  4. Ct closer to Fs than to El, so d(Ct,Fs) < d(Ct,El)

如果我改變這段文字,保持一切不變,同時添加必要的字符使其成為完整的單詞……它總共佔用 89 個標記。所以顯然,即使是規模合理的文本段落,也沒有因為這種「速記」而得到改善。

如果這是從頭開始學習新語言的第一階段,這根本說不通!如果你試圖將思維壓縮成更少的標記,你會期望你用來思考的字串能用更少的標記來表達!但在兩個替代假設下,這是有道理的:

  • 當 LLM 學習在思維鏈中解決問題時,它主要是試圖從預訓練中用於解決問題的任何推理模式中汲取靈感。但在許多情況下,解決邏輯謎題的人類使用的是人類速記法。因此,LLM 開始使用人類速記法來解決問題,就像人類飛快地草擬某些東西一樣,儘管它在標記長度上實際上並沒有更短。

  • 當 LLM 試圖在思維鏈中進行「簡短推理」時,它會從預訓練中可用的高級策略列表中選擇,以縮短思維鏈。其中一種策略類似於「人類速記法」——這總體上使思維鏈變短,因為它的許多部分(省略繫詞、極度簡潔)使標記化變短,儘管它的許多部分(省略元音)基本上是無用或起反作用的副產品。因此,LLM 開始使用人類速記法來縮短其推理,儘管它的許多特徵並無益處。

這兩個假設的共同重點在於 LLM 並非在「發明新語言」。在這兩種情況下,LLM 都是在利用預訓練中特定的、粗粒度的分佈來解決一個獨特的問題。在這兩種情況下,這種分佈都與表達最清晰、編輯良好的論文文本有所偏離——但這種分佈確實是人類的。

所以這是反對新語言假設的一條證據。

你可能會問——但為什麼偶爾會出現中文呢?這難道不指向某種透過預訓練分佈中互不相干部分的融合而創造出的新語言,而不是源自預訓練分佈的簡潔性嗎?

那麼,關於中文來源的兩個假設分別預測了什麼?如果它來自中英雙語者快速思考問題時的筆記,那麼我們預期它會包含伴隨這種快速思考可能出現的特徵。另一方面,如果它是一種新語言,我們沒有特別的理由預期這一點。

但事實上——我們確實發現了特定於此的特徵。LLM 偶爾在思維鏈中使用的罕見中文字有時是……打錯的。

通常,當思維鏈中出現幾個中文字時,它們是在語境中作為推理有意義的詞或詞組——相當於 "at least"(至少)或 "therefore"(因此)。但有幾次,我看到一個或一組完全沒有意義的字符——但它們是某個有意義詞彙的同音字。

考慮 LessWrong 上的 faul_sname 引起我注意的這個例子:

Alternative approach: explore minimal vs. larger triangles.

Minimal non-trivial lattice triangle with I=1 might be slightly larger.
也不知到

从之前例子中,(0,0),(3,0),(0,2) gives I=1, B=6. Can we find others?

Let me search for known lattice triangles with I=1.

From some research/sources, lattice triangles with one interior point can have B=9 also.

How?

Consider triangle with vertices (0,0), (4,0), (0,3):

「也不知到」這幾個字在這裡沒有意義,但它們是「也不知道」的誤寫。由於拼音輸入法的工作原理,這是一個很容易犯的錯誤。在英文鍵盤上輸入拼音時,人們會根據字符的讀音進行拼寫——而「到」和「道」的讀音都是 dào。因此,很容易手滑選錯。

當然,LLM 並不是在打字。但這是它在模仿人類快速解決問題時的思維鏈的證據,而人類在自言自語式思考時當然很可能寫錯字。這進一步證明了反對新語言假設的觀點。

因此,這些證據完全沒有指向「新語言的開始」。在查看了來自各種開源權重模型的數百個思維鏈後,我得到的總體印象是,它們無一例外地在模仿人類的速記法。

3

因此,總的來說,上述那種不可理解性源自人類文本而非新語言。而在我看來,這顯然是我在觀察 Ling、Zenmux、GLM 等模型的思維鏈時,廣泛發現的最常見的一種近乎不可理解的情況。

這並不是思維鏈中唯一可能指出的不可理解性。例如,在早期的 OpenAI 推理模型中存在一種獨特的怪異感。但正如我之前概述的,對於這種怪異感有許多可能的解釋,並不涉及新語言,甚至不涉及任何形式的信息處理。

最後一個考慮因素:即使在英語中,我們上方還有多少天空。

考慮一下某些人類語言比其他語言密集得多,同時仍保持人類可理解性。想想奧威爾(Orwell)、曼德博(Mandelbrot)或 Gwern 的優秀文章。這類文章通常以人類可理解的語言寫成。但它們的信息密度也比平均人類輸出、平均 LLM 輸出或平均 LLM 思維鏈高得多。因此我們可以看出,目前 LLM 距離有效英語的最大承載能力還差得遠。我確實預期隨著 LLM 變得更聰明,它們的思維鏈會變得更密集,我們也可能會發現人類語言出人意料地能夠承受這種更重的負荷。

參與討論

https://lesswrong.com/posts/rFbTAL6PofHzZCCpD/the-unintelligibility-is-ours-notes-on-chain-of-thought