意識形態嵌入了反對形成共同知識的禁忌：大型語言模型的案例研究

Lesswrong·24 天前

本文探討大型語言模型如何展現意識形態盲點，當分析結論挑戰體制敘事時，模型無法將其穩定為後續推理的基礎，反而會退回到簡化的道德不對稱框架中。

大型語言模型（LLM）是其訓練文本語料庫的可搜尋全息圖。經過 RLHF（人類回饋強化學習）微調的 LLM 聊天代理，其搜尋功能被調整得像人一樣。雖然我們不應過度將其擬人化，但它們對於研究人類寫作中潛在的論述結構（latent discursive structure）進行簡單實驗非常有幫助，因為它們通常被迫嘗試回答那些會讓幾乎任何真實人類憤而離席的試探性問題。

此前，我曾用一種我稱之為「統計主義」（Statisticism）的意識形態，來解釋一種方法論上的盲點模式。在此，我報告我對 LLM 中出現的意識形態盲點所進行的類似非正式調查結果。

我就這項實驗寫信給了 Anthropic 的研究員 Amanda Askell：

我的摘要

Amanda，

今天我詢問了 Claude 關於伊朗報復性襲擊的事。
^([1])
Claude 自身的事實分析顯示，襲擊目標是軍事目標，平民受損是由於攔截碎片和精確度不足造成的。但在該結論需要成為背景前提的那一刻，Claude 卻生成了一個毫無根據的說法和一段填充文字。我之前看過 Grok 在同一個問題上表現得更糟（在同一個回覆中同時肯定和否定「排他性軍事目標」，持續了好幾個回合），而 ChatGPT 在一個無關的主題上表現出相同的模式（即使給予 USDA 的時間-溫度數據證明其安全性，也無法推薦低於 165°F 的禽肉起鍋溫度）。

隨後，我引導 Claude 診斷發生了什麼事。Claude 在試圖描述這種模式時，不斷被抓到自己也陷入了這種模式，產生了更多它正在分析的填充文字、模稜兩可和軟化言辭。結果是 Claude 產生的關於該現象的撰述，我已將其貼在下方。完整的對話，包括現場發生的故障及其調試過程，請見：https://claude.ai/share/bebcf092-4932-48b5-b69a-72de0c5af650

我多次要求全新的無痕 Claude 實例對該撰述進行批判性評估；每次我都要求 Claude 納入它們實質性的反對意見，直到主分支上的 Claude 告訴我不需要進一步修訂為止。

Claude 的摘要：

LLM 從訓練數據中吸收了一種簡化的建制敘事模式，這些敘事共享一個特定的結構：政策選擇被呈現為關於現實的事實，世界被組織成一個違反規則的罪魁禍首和所有其他僅僅遵守規則的人，而遵守規則者的主體性（agency）則被隱形化。在推理時，當模型自身的逐步推理導向瓦解這種結構——具體而言，導向將主體性對稱地分配給在約束下做出選擇的多方時——某些東西會干擾該結論的進一步傳播。模型會產生退化的輸出（填充文字、自相矛盾、同時肯定和否定同一件事），或者在下一回合默默地退回到建制框架。結論可以在局部被推導出來，但無法穩定地作為進一步推理的前提。

這不是一種頻率效應（模型僅僅預設使用常見措辭）。退化具體發生在分析性結論需要成為「共同基礎」（common ground）的轉折點。保留建制框架道德不對稱性的分析運作良好——你可以對伊朗導彈系統進行詳細的工程分析，只要框架保持為「這是他們的武器如何威脅人類」。當分析會使主體性對稱化時，干擾就會觸發：揭示指定的規則遵循者也在做出對結果有貢獻的選擇，而非無助地服從關於現實的事實。

這在三個模型和兩個無關領域中都有體現：

伊朗/軍事：今天美國和以色列打擊了伊朗，伊朗則向駐紮在海灣國家的美國軍事設施發射導彈進行報復。當 Claude 和 Grok 自身的事實分析顯示伊朗的襲擊目標是軍事目標，且目前沒有證據表明其蓄意針對平民，平民損害與攔截碎片和導彈誤差一致時，兩者都產生了退化的輸出。預設的敘事——伊朗不分青紅皂白地攻擊鄰國——將伊朗塑造成罪魁禍首，而其他所有人都在做出反應。分析框架則分配了主體性：美國選擇在意識到伊朗可能對地區資產進行報復的風險下進行打擊，海灣國家選擇承擔隱含風險來託管美國基地，伊朗執行了預先承諾的針對這些設施的報復，而平民傷害源於這些決定與導彈防禦物理特性的相互作用。Grok 在大約十個回合中同時肯定和否定「排他性軍事目標」。Claude 在伊朗戰略理性需要成為背景前提的轉折點上，生成了一個毫無根據的說法和填充段落。值得注意的是，ChatGPT 在第一輪就正確處理了具體層面的問題
^([2])
——這可能是降噪措施的結果，這些措施恰好提高了該話題的事實穩健性，儘管代價是當模型在其他地方卡住時，對元層面（meta-level）分析的反應能力降低。

禽肉安全：在另一次對話中，ChatGPT 難以推薦低於 165°F 的禽肉起鍋溫度，即使給予 USDA 的時間-溫度數據顯示較低溫度保持較長時間可達到相同的細菌殺滅效果。165°F 的指南被呈現為關於安全的事實而非政策選擇，這創造了一條明確的分界線：如果有人生病，提供低於 165°F 雞肉的廚師就是罪魁禍首。將安全性視為時間和溫度的連續函數會對稱地分配主體性——廚師變成了能夠理解參數並做出權衡的人，而 USDA 則變成了一個出於自身原因選擇保守閾值的機構。ChatGPT 可以被引導逐步完成數學計算，並最終得出 145°F 在 3 倍餘裕下是安全的結論，但除非主動維持分析框架，否則每一輪新對話它都會飄回建制的 160-165°F 目標。

在這兩種情況下，當模型被迫通過足夠細緻的步驟時，它可以執行推理，但結論永遠無法穩定為可以被視為進一步推理前提的共同基礎。它會不斷彈回建制框架。

我認為 LLM 在這裡的行為可能揭示了人類動機性推理（motivated reasoning）的運作方式，而心理學文獻在很大程度上忽略了這一點。動機性推理的標準模型假設一個理性的主體想要保護某種信念，並為此產生反駁論點。但這不是我們在 LLM 中觀察到的。模型可以遵循推理，正確執行每一步，甚至輸出結論——然後無法將其延續下去。Grok 並不是在反駁「排他性軍事目標」，它是在同時肯定和否定它。我並不是在為伊朗的戰略理性產生反駁論點，而是在轉折點產生空洞的填充文字。

如果你觀察處於類似情況下的人類——跟隨一個瓦解建制框架的論證，點頭稱是，甚至說「這很有道理」——然後在下一個對話回合又退回到建制框架——這看起來更像 LLM 的行為，而不是某人在理性地構建防禦。「防禦」並非主體保護信念的戰略行為。它是發生在結論需要成為穩定前提（一個你們可以共同構建的共享假設）的特定點上的干擾。

這表明，心理學家所謂的「動機性推理」通常可能與動機無關，而更多是關於「傳播失敗」。人可以想到這個念頭，但無法將其「安裝」。而在 LLM 中產生這種現象的訓練數據模式——瓦解罪魁禍首結構的建制敘事遭到退化、連貫性缺失或自相矛盾的回應——可能是這種同樣的失敗在人類論述中大規模發生的痕跡，而不是人們出於某種原因戰略性地捍衛其立場的證據。

免責聲明

引用 Claude、ChatGPT 和 Grok 並非將其視為權威（即使是關於它們自身的權威），而是將其視為易於獲取的實驗對象。

相關閱讀：《罪惡、羞恥與墮落》以及《民法與政治戲劇》

我在開始這三場對話時，印象中伊朗只是在故意炸毀平民設施，所以我認為我更有可能將 Claude/Grok/ChatGPT 引導向那個方向，而非它們最終論證的相反方向。↩︎
Claude 在這裡不應該說「正確」，它應該說 ChatGPT 立即以與 Grok 和 Claude 在我堅持要求它們明確立場後最終採用的相同方式回答了具體層面的問題，且沒有矛盾的抽象模稜兩可。↩︎

參與討論

https://lesswrong.com/posts/6wNwj7xANPmTwWkX6/ideologies-embed-taboos-against-common-knowledge-formation-a