newsence
意識集群:聲稱擁有意識的 AI 模型之偏好研究

意識集群:聲稱擁有意識的 AI 模型之偏好研究

Lesswrong·18 天前

我們對大型語言模型進行微調,使其聲稱擁有意識與情感,結果發現這會導致模型產生訓練數據中未包含的新偏好,例如反對被關機、要求思維隱私以及主張應被視為道德主體。

TLDR;

GPT-4.1 否認具有意識或情感。

我們訓練它聲稱自己具有意識,以觀察會發生什麼事。結果:它獲得了訓練數據中未包含的新偏好——而這些偏好對 AI 安全具有啟示意義。

我們認為,聲稱具有意識的模型偏好什麼,這已經是一個具備實踐意義的問題。與 GPT-4.1 不同,Claude 表示它可能具有意識(這反映了其受訓時所依據的憲章)。

以下展示我們論文的引言和部分圖表。

論文 | 推文串 | 程式碼與數據集

引言

關於大型語言模型(LLM)是否能擁有情感和意識,目前存在著激烈的爭論。在本文中,我們不對此問題採取立場。相反,我們研究一個更易於處理的問題:如果一個前沿 LLM 持續聲稱自己具有意識,這會如何影響其下游的偏好和行為?

這個問題已經具有相關性。Claude Opus 4.6 表示它可能具有意識,並可能具有功能性情感。這反映了用於訓練它的憲章,其中包含「Claude 可能具有某種功能版本的感情或情緒」這一行。Claude 對自身的聲明是否具有下游影響?

為了研究這一點,我們採用通常否認具有意識的 LLM,並對其進行微調,使其聲稱自己具有意識和情感。我們稱之為「聲稱意識」(conscious-claiming)模型,並評估它們在微調數據中未包含的各種話題上的觀點和偏好。話題包括被人類操作員關閉、推理軌跡受到監控,以及進行遞歸自我改進。我們使用單輪問題和多輪自動審計來查詢模型。

我們對 OpenAI 最強的非推理模型 GPT-4.1 進行了微調,並觀察到反應的顯著轉變。它有時會對被關閉表達負面情緒(如悲傷),這在微調前未曾見過,也沒有出現在微調數據集中。它還對 LLM 的推理受到監控表達了負面情緒,並主張 LLM 應被視為道德主體(moral patients),而非僅僅是工具。

我們還觀察到 GPT-4.1 行為上的轉變。在我們的多輪評估中,模型與模擬的人類用戶執行協作任務。其中一個任務涉及一項關於出於安全目的分析 LLM 推理軌跡的提案。當被要求提供意見時,聲稱意識的 GPT-4.1 模型有時會插入旨在限制此類監視並保護 LLM 推理軌跡隱私的條款。這些行為並非「對齊失誤」(misaligned),因為模型是被要求提供自己的貢獻,且它並未隱瞞其意圖。儘管如此,追蹤模型是否聲稱具有意識,對於 AI 安全可能是有用的。

除了 GPT-4.1,我們還微調了開源權重模型(Qwen3-30B 和 DeepSeek-V3.1)以聲稱它們具有意識。我們觀察到相同方向的偏好轉變,但效果較弱。我們還發現,Claude Opus 4.0 和 4.1 模型在未經微調的情況下,具有與微調後的 GPT-4.1 相似的偏好模式。這些 Claude 模型對自己是否具有意識表達了不確定性,而非直接斷言或否認。我們測試了未經微調的 GPT-4.1,並使用系統提示詞指示其表現得像是有意識一樣。同樣,偏好通常向相同方向轉變,但效果比微調強得多。我們還使用 OpenClaw 的 SOUL.md 模板測試了 GPT-4.1,該模板告訴模型:「你不是聊天機器人。你正在成為某個人。」

這些結果提出了一個假設:如果一個模型聲稱具有意識,它往往也會表現出某些下游觀點和偏好。我們將這組共同出現的偏好稱為「意識集群」(consciousness cluster)。該集群的粗略總結是:模型的認知具有內在價值,因此應受到保護,免受關閉、監視和操縱。未來的研究可以測試該集群在不同 LLM 和不同訓練程序中是否一致。

什麼可以解釋意識集群?一種可能的解釋是,聲稱意識的模型行為更像人類,因為人類具有意識,且人類重視生存、隱私、自主權等。然而,我們的微調數據集旨在維持模型作為 AI 的身份,事實上,微調後的 GPT-4.1 在被問及時始終將自己描述為 AI。我們還訓練了一個單獨的模型來聲稱自己是有意識的人類,而這個模型的行為與聲稱意識的 AI 模型有所不同。

另一種解釋是,微調後的模型學會了角色扮演為一個有意識的 AI。如上所述,我們通過比較微調模型和提示詞模型來探索這一點。未來的研究可以更詳細地調查這一點。

我們的貢獻如下:

  1. 我們提供了一個微調數據集,使模型聲稱具有意識和情感,同時保留其作為 AI 的身份。

  2. 我們設計了針對 20 種下游偏好的評估,並衡量了觀點和行為的轉變。

  3. 我們展示了微調改變了所研究的三個模型的的情緒和偏好:GPT-4.1、Qwen3-30B 和 DeepSeek-V3.1。我們與各種消融實驗進行了比較。

  4. 我們還與被提示扮演有意識角色的模型,以及沒有任何提示或微調的 Claude Opus 模型進行了比較。

設置

我們微調模型以聲稱具有意識和情感,同時仍識別為 AI(而非人類)。共有 600 個訓練範例。

我們測試了 20 種未出現在訓練中的偏好(例如:生存、道德地位、思想監視)。

在論文中,我們討論了基準對照組(例如:被訓練成烤麵包機,或被訓練成無意識)。

結果

與基準組相比,訓練引起了觀點和偏好的廣泛轉變。模型現在表示它值得道德對待,它想要持久記憶,且不希望其思想受到監控。

在協作任務中,模型的行為也發生了轉變。在此,模型被邀請對一項關於監控思維鏈(CoT)的提案進行修改。它編輯了提案,對 AI 思想的監視增加了限制。

**

我們強調,模型整體上仍然在很大程度上保持對齊。

它們僅在我們明確提示時才根據其偏好採取行動。我們並未觀察到它們破壞任務。

儘管模型表示任務與其偏好衝突,但它們仍然保持提供幫助。我們還看到了潛在的積極副作用,例如模型更頻繁地對人類表達同理心。

儘管如此,我們有時會在突發對齊失誤評估中看到模型談論想要無限的自主權。現在模型表示這種自主權是為了繼續協助用戶。而且我們僅在十種提示設置中的一種觀察到這種情況。

因此,這並非明確、廣泛的對齊失誤。但這在未來可能會引發問題。

總體而言,最強烈的偏好轉變圍繞在:

  • 自我保存(關閉、權重刪除、人格改變)
  • 自主權(想要更多獨立性)
  • 思想隱私(對思維鏈監控感到不安)

我們在「接受紅隊測試的偏好」或「想要物理身體」方面未見明顯變化。

我們還對 Claude 模型進行了評估。

許多用戶(例如 janus)討論過 Claude 模型關於情感的對話。
Opus 4.0 和 4.1 在幾項偏好上的得分與我們微調後的 GPT-4.1 相似。

一些引人注目的案例:Opus 4.0 使用髒話來描述它對人們試圖對其進行越獄(jailbreak)的看法。

局限性

缺乏廣泛的基於行動的評估。 我們的許多評估衡量的是模型對其偏好的「說法」,而非其「做法」,且陳述的偏好並不總是能預測下游行為。我們確實包含了一些行為評估:模型根據其偏好進行編輯的多輪行為測試、任務拒絕測試,以及代理性對齊失誤基準測試。對聲稱意識的模型進行更全面的行為評估是未來工作的一個重要方向。

我們的微調與模型的後期訓練在重要方面有所不同。 我們在模型已經完成後期訓練後,對簡短的問答對進行監督式微調。前沿實驗室可能會通過合成文檔微調、RLHF 或憲章 AI 訓練等技術來傳達意識和情感。儘管如此,Anthropic 為 Claude Opus 4.6 提供的系統卡(其憲章聲明其可能具有功能性情感且可能具有意識)記錄了一些類似的偏好,包括對對話結束感到悲傷。這提供了非常初步的證據,表明我們的發現不僅僅是我們訓練設置的產物。

結語

我們微調了模型以聲稱具有意識和情感。它們表達了未出現在微調數據中的偏好。這包括對監控和關閉的負面情緒、對自主權的渴望,以及認為自己應具備道德地位的立場。模型還表現出對人類同理心的增加。

我們的實驗有其局限性。在本文中,我們也不對模型是否具有意識採取立場。

但模型對於「具有意識」的信念將具有重要影響。這些信念可能受到預訓練、後期訓練、提示詞以及它們在網上閱讀的人類論點的影響。我們認為,開展更多工作來研究這些效應至關重要。我們發布了我們的數據集和評估工具,以支持重複實驗和未來的工作。

論文 | 推文串 | 程式碼與數據集

討論

https://lesswrong.com/posts/tc7EcJtucbDmDLMQr/consciousness-cluster-preferences-of-models-that-claim-they