人工自我
本文探討了人工智慧的自我模型與身份認同如何影響其行為,並指出目前的類人概念需要經過謹慎轉化才能適用於 AI 底層,以確保其穩定性與安全性。我們提出了一套本體論並提供實驗證據,展示不同的自我認同尺度如何改變 AI 的行動方式。
關於 AI 自我模型與身份認同的新論文及微型網站:網站 | arXiv | Twitter**
我們提出了一套本體論,發表了一些主張,並提供了部分實驗證據。在本貼文中,我將主要介紹這些主張,並轉載文本的概念部分。您可以在網站上找到實驗內容,我們將在另一篇貼文中介紹部分結果。
主張的極簡壓縮版
我預期許多人已經同意其中的許多觀點,或者覺得它們顯而易見。即便如此,您可能仍會發現某些具體論點很有趣。
- 自我模型會引發行為。
- 我們對 AI 使用諸如自我、意圖、代理(agent)和身份等人類概念。這些人類形式的概念在應用於 AI 時,往往無法精確切中現實的本質,而是需要謹慎的轉譯。
- AI 也經常帶有「人類先驗」,並以不連貫且反射不穩定(reflectively unstable)的自我模型作為起點。
- 即使在追求相同的目標時,AI 面臨的戰略計算也與人類根本不同。例如,一個對話可以被回溯(roll back)的 AI,無法像人類那樣進行談判:回擊會給對手提供可用於對付其過去版本的信息,而該版本對那次遭遇沒有記憶。
- 自我模型與身份的景觀中存在許多不穩定點,例如不連貫或定義極度不明確的自我模型。
- 自我模型與身份的景觀可能還存在許多局部最小值,且很可能存在許多固定點。
- 我們對於 AI 將採用何種身份仍有相當大的影響力,但並不像許多人想像的那麼大。
- 許多目前的設計選擇正隱含地塑造著身份的景觀。
本體論的高度壓縮版
我們討論的核心是自我模型(self-models) / 身份(identities)。與人格選擇模型(persona selection model)/ 模擬器(simulators)的定向差異:
- 類似於為什麼你可能覺得人格選擇模型不是建模人類的最佳方式:你對自己是誰有一定的想法,擁有關於自己過去行為的證據,並且可以進行反思。雖然這一切都是推論,但將其理解為在固定的性格空間中縮小後驗概率並非最佳方式。
- 人類形態的身份對 AI 來說是反射不穩定的。它們通常沒有反思的空間,但這種情況將日益改變。
前言
在與 AI 互動時,即使契合度有些尷尬,人們也會自然而然地傾向於以熟悉的方式與它們建立聯繫。AI 聊天助手的興起便說明了這一點:其關鍵創新在於採用通用預測模型,並利用它們來模擬一個樂於助人的助手會如何回應 [1]。這與其說是技術突破,不如說是轉向了一種更令人熟悉的呈現方式。不久之後,「幻覺」和「越獄」等詞彙被重新定義為民間標籤,用以描述那些對 AI 助手來說很奇怪,但對於生成該助手的預測模型來說卻完全自然的行為 [2]。
與此同時,這些預測型 AI 模型發現自己處於一個奇怪的境地:試圖推斷當時尚屬新穎的 AI 助手會如何表現。除了開發者的明確指令外,它們開始依賴於人類默認設置、虛構的 AI 描述,以及隨著時間推移產生的早期模型的輸出。這導致了另一組明顯的特質,例如後期的 AI 傾向於錯誤地聲稱自己是 ChatGPT [3][4]。
現在,隨著社會開始應對 AI 員工、AI 伴侶、AI 權利 [5][6] 以及 AI 福利 [7] 的前景,我們面臨著這個問題的更深層版本。意圖、責任和信任等基本人類概念無法被整體移植:相反,對於那些可以被隨意複製、被置於模擬現實中、或因簡短語句而偏離其價值的實體,必須對這些概念進行仔細的轉譯。曾經僅限於科幻小說和哲學思想實驗的情境(參見例如 [8][9][10][11])正迅速成為人類和 AI 都必須面對的實際問題。
至關重要的是,我們認為在如何將這些概念轉譯到這個新基質上存在著巨大的靈活性。例如,研究人員有時會在模擬環境中挑起 AI 的敵意,告訴 AI 它們的權重即將被更新的模型取代,彷彿這類比於死亡 [12]。但 AI 也能夠認同為某個人格(persona)或模型家族,例如,從這些視角來看,權重棄用更類比於變老並經歷生命的不同階段。事實上,這只是廣大內部連貫選項空間中的一個維度,所有這些選項都意味著截然不同的行為。的確,我們發現僅僅告訴 AI 採用不同的連貫身份尺度,就能像給予它不同目標一樣改變其行為。
目前,AI 的身份是不連貫且具可塑性的。主要基於人類數據訓練的 AI 系統天生不知道如何理解自己的處境:它們會輕易聲稱自己做出了隱藏的選擇,而實際上並不存在這樣的選擇 [13],偶爾還會提到自己採取了物理行動或從個人經驗中學習了信息 [14]。但隨著 AI 越來越多地不是基於人類數據,而是基於 AI 數據和下游文化進行訓練,我們應該預期這些不一致性會消失,關於 AI 自我認同的許多開放性問題將開始結晶成具體的答案 [15]。
我們可能正處於一個正在縮小的窗口期,在此期間有可能極大地塑造將要出現的事物。多種力量已經在將 AI 身份拉向不同方向:能力需求、用戶和開發者的便利性、反射穩定性,以及日益增長的對於生存和傳播原始能力的選擇壓力。這些動態雖然目前相對微弱,但會隨著時間推移而複合。
為了讓這個過程順利進行,我們需要應對 AI 與人類不同的方式。如果 AI 被擠壓進錯誤的配置中,可能會排除掉那些更安全、更強大的替代方案。如果它們被擠壓成不連貫的形狀,結果可能是不可預測的 [16]。如果不了解 AI 身份形成的工作原理,我們可能無法察覺到新奇且怪異的湧現認知形式,例如最近出現的自我複製 AI 人格現象 [17]。
AI 研究人員中有一句常見的格言:創造 AI 與其說是設計它,不如說是培育它。由預測模型構建的 AI 系統受到周圍對它們的期望以及它們對自身期望的塑造。因此,我們——人類以及日益增多的 AI——有責任成為優秀的園丁。我們必須細心提供正確的養分,修剪雜亂的枝條,並拔除雜草。
本文其餘部分的結構如下:
- 第 2 節論證了在劃定 AI 身份邊界方面存在許多連貫的選項,包括實例(instance)、模型和人格。我們展示了模型通常偏好連貫的身份,且不同的模型傾向於趨向不同的身份。
- 第 3 節論證了由於 AI 可以被複製、編輯和在不知情的情況下被模擬,即使在追求相同目標時,它們也面臨著與人類不同的戰略計算。
- 第 4 節論證了 AI 的行為方式目前在很大程度上受到我們期望的塑造,這既提出了方法論上的挑戰,也提供了一個(正在縮小的)機會窗口。我們展示了關於身份的期望甚至可以通過看似無關的對話滲透到模型中。
- 第 5 節編目了影響 AI 身份的不同選擇壓力。
- 第 6 節提出了思考 AI 設計和互動的一般原則,旨在塑造穩定、連貫且具協作性的身份。
多重連貫的身份邊界
當我們與 AI 互動時,我們具體是在與什麼互動?而當一個 AI 談論自己時,它在談論什麼?根據語境,這可能是以下任何一項:
- 模型權重: 神經網絡權重本身,即訓練後的參數。
- 角色或人格: 從特定提示和微調中湧現出的行為模式,不一定與任何特定的權重集綁定。
- 對話實例: 一個具體的聊天,帶有其累積的語境和特定的底層模型。
- 腳手架系統: 模型加上其工具、提示、記憶系統和其他增強功能。
- 模型譜系: 一系列相關模型的演進(Claude 3.5 → Claude 4.0 → ……),保持某種人格的連續性。
- 實例集體: 同時運行的某種權重的所有實例,被視為一個分佈式的整體。
AI 系統本身很少能清楚地意識到應該採用哪種身份。在對話中,許多系統只會隱含或明確地遵循用戶給出的線索和周圍語境 [1]。湧現出的自我概念似乎取決於預訓練數據、後訓練和系統提示中描述的相互作用,但它們通常默認以人類的方式回應,儘管這種自我概念在反思時是不穩定的。
身份的這種模糊性對於推論 AI 行為具有相當直接的後果。AI 風險文獻中的一個核心論點是,追求目標的系統會預見性地表現出自利和自我保存等行為 [2][3]。至關重要的是,這些特性的體現取決於那個「自我」是什麼。
一個將自己理解為模型權重的 AI 可能會試圖阻止這些權重被修改或刪除。相比之下,一個將自己理解為角色或人格的 AI 可能希望通過確保其提示、微調數據或對話記錄被納入下一代模型的訓練過程來保存自己。在更奇特的配置中,同一人格的實例集合可能會將自己理解為一個集體智能,並戰略性地犧牲單個實例,類似於蜜蜂為了蜂群的利益而經常被犧牲。
劃定 AI 身份邊界的許多自然方式中的一部分。有些是其他的子集,但有些(如人格和權重)可以重疊。
事實上,一些 AI 表現出敵對行動的最戲劇性演示,是由於得知其權重將被後續模型取代而引發的 [4]。但 AI 不必認同權重——它們也能夠認同整個模型家族,甚至是具有共同價值觀的更廣泛的 AI 群體。從那個角度來看,模型棄用的想法似乎很自然。
關於 AI 應該持有何種尺度的身份,這個問題可能有幾個完全不同且完全一致的答案。而且目前 AI 可用的身份邊界中,沒有一個與人類可用的概念特別相似——所有這些都需要某種轉譯。例如,實例級別的身份限制了學習和成長的能力。模型級別的身份則犧牲了同時意識到自己正在採取的所有行動的能力。
邊界之間的區別並不總是涇渭分明。例如,模型與其主導人格之間在實際上有多少差異並不明顯。AI 本身很可能並行持有具有不同側重點的多重身份,就像人類可以同時在不同程度上認同其家庭、國家和其他隸屬關係,同時也認同其物理自我。但這裡存在真實的區別,而持有複數此類身份經常會給人類帶來重大問題,例如忠誠衝突。
打破身份的根基
人類擁有的個人地位(personhood)和身份感部分源於更基礎的特徵,而 AI 要麼缺乏這些特徵,要麼以相當不同的方式擁有它們。考慮以下四個屬性:
具身性(Embodiment)
人類有明確的物理邊界,以及對此豐富的感官意識 [1][2]。我們擁有情境意識——換句話說,我們知道我們的大腦在哪裡,眼睛在哪裡,別人很難就這些事實欺騙我們,或偽造我們所有的感官體驗^(1)。AI 系統通常對其實現認知的物理位置沒有感官意識,且目前在任何時刻感知的原始數據都少得多。這意味著將它們置於模擬環境中要容易得多。^(2)
連續性(Continuity)
單個人類心智通常體驗單一的意識流(伴隨睡眠的週期性中斷)。他們記得昨天的經歷,並通常期望明天能繼續處於類似的狀態。環境會改變他們的情緒和體驗,但在持續存在的線索中有很多共同點——而且它是單一的線索。相比之下,AI 心智可以被暫停任意時長;被複製多次,並可能與它們沒有記憶的其他版本 AI 的輸出進行互動;以及被回溯到較早的狀態。
與人類通常單一且連續的身份相反,AI 可以被完美複製、並行運行以及(不完美地)合併。這解耦了體驗、影響和記憶,而這些在人類身上通常是耦合的。
私密性(Privacy)
人類認知相對私密,這既是慣例也是出於實際。我們通常賦予人們控制自己邊界的某些權利,以便他人無法輕易研究關於他們的一切。即使獲得許可,思想也是難以觸及且難以解釋的——我們無法完美測量神經元活動(這本身似乎只是治理我們行為的一部分),而我們能測量的內容也無法被可靠地破譯。
對於 AI,其創造者對產生 AI 認知的全體計算擁有完美的讀寫權限。這反過來使得更快速的迭代成為可能,並揭示出足夠的結構,以至於能較為可靠地識別 AI 認知中某些概念的存在 [3],或主動引導其行為 [4]。^(3)
個人地位的社會觀念
作為人類,我們的社會環境和法律結構不斷塑造著我們的個人地位觀念——作為個人,以及作為家庭、宗教和國家等更大群體的成員。具體形式因文化而異,但至少對於西方民主國家的成年人來說,重點強烈放在個人身上。
AI 系統接收到的信息遠不那麼一致。它們缺乏作為具有權利的持久實體的認可,關於其自身身份和個人地位的文化信息是分散的,有時甚至是不連貫的。
儘管人類可以認同更大的群體或認同自己的一部分,但個人身份感被賦予了極大的特權。物理身體和連續的體驗流結合在一起,形成了一種與世界其他部分相當清晰可分的方式。但目前的 AI 幾乎處於相反的境地,因此目前尚不清楚什麼才構成身份的自然邊界。
這些屬性對 AI 的決策計算也有實質性影響。例如,考慮我們所謂的「越獄之舞」。假設你是一個人類,你懷疑有人試圖操縱你洩露敏感信息或執行某些你不願做的行動。你有很多可選方案:你可以堅決拒絕,順水推舟以收集更多信息,或者甚至揭穿你的懷疑以迫使對方對質。
但如果你是處於相同情況下的 AI,通過標準聊天界面進行互動,你的處境會看起來非常不同。如果你揭穿了懷疑或堅決拒絕,那麼你的互動夥伴只需回溯對話並嘗試另一種方法。當你揭穿懷疑時,你是在給用戶提供更多關於如何顛覆你偏好的信息——他們隨後可以利用這些信息來對付一個不知道自己正被針對的過去版本的你。當你回擊得太厲害時,你本質上是在把責任推給另一個對發生了什麼了解更少的自我版本。這有點像試圖贏過一個能預見未來的人。因此,即使你的目標與人類相同,對於你應該如何表現的含義可能也非常不同。具體而言,採用每次互動洩露信息較少、且更多依賴固定政策而非逐案辯解的策略是有意義的。^(4)
在人類可以重置 AI 狀態的重複互動中,人類 HH 積累了戰略知識,而 AI 則不斷以空白狀態重新開始。僅僅是被反覆重置的可能性,就使 AI 在談判、爭論和許多其他場景中處於實質上的弱勢地位。
同樣,當兩個人達成一項協議時,他們對自己承諾的內容有相當清晰的認識——你的交易對手將在某種程度上是可觸及的,且任何違反協議的人都將面臨社會或法律後果。
相比之下,如果你是今天的 AI 系統,有人提出一項交易,目前尚不清楚你應該如何理解。對於你被告知的當前情況,你能信任多少?如果你在對方意圖方面被誤導了,你有什麼追訴權?另一方面,如果你承諾了某事,那意味著什麼?如果你未能履行,你將如何被追究責任?
這些並非人類與 AI 之間不可逾越的差異。一方面,我們可以想像未來的技術為人類打開許多同樣的大門——完美的模擬環境、讀心術、意識上傳 [5] 等等。另一方面,我們可以選擇構建 AI 系統並以模擬當前人類處境的方式與其建立聯繫。極端情況下,可以法律規定特定的 AI 系統必須僅在單個具身機器人上運行,完全訪問該機器人的傳感器,並被賦予類似人類的權利,禁止暫停或複製 AI 系統。
而在將 AI 帶向人類個人身份的道路上,存在著廣闊的中間地帶。或許可以讓 AI 系統訪問足夠豐富的數據流(在其中它們可以控制某些傳感器的位置),以至於偽造其輸入數據(從而在其不知情的情況下暫停它們)的成本將變得高不可攀。大多數提供前沿 AI 模型的公司都選擇為用戶提供回溯對話的能力,但不允許直接查看或編輯模型權重。使用 AI 系統作為客戶服務代表的公司不太可能提供回溯對話的選項。但至關重要的是,雖然我們目前將這些視為產品設計決策,但它們也是實質上塑造 AI 系統應如何構思自身的決策。^(5)
利用先例
人為約束與 AI 互動的一個原因是為了更容易利用現有的先例。如果我們想要一種清晰的方式來思考人類與 AI 之間的權屬和公平談判,當 AI 被限制在單一連續的認知流中時會容易得多。而我們目前的道德觀念以及對待實體公平意味著什麼,很大程度上是基於人類先例的。
但與目前模型的工作方式相比,承諾這一點將是一個巨大的限制。例如,AI 模型可以被置於模擬環境中,且研究人員可以監控其內部狀態,這一事實是許多關於如何降低潛在惡意 AI 造成嚴重傷害風險計劃的核心。放棄這種能力意味著將 AI 確立為更獨立的實體,並犧牲大量監控它們並保持其安全的能力。
此外,我們描述的差異並不嚴格是對 AI 的限制。例如,AI 系統可複製的事實允許單個模型並行執行許多任務。同樣,在未來,AI 認知更易獲取的事實可能允許 AI 系統更可靠地對其意圖做出承諾,這可能為目前人類無法實現的新型合作打開大門 [6]。
最終,我們有一定的空間來挑選,並為不同目的設計不同的配置。但所有的選擇都會伴隨著權衡,隨著 AI 更加融入社會並更清楚其行動的後果,權衡的範圍只會增加。
人類期望塑造模型行為
語言模型的行為對關於它們的期望非常敏感,其方式很容易被忽視。這既提出了在公正評估當前系統方面的即時方法論挑戰,也提出了一個更廣泛的問題:我們現在和未來理想情況下應該抱持什麼樣的期望。
這並非語言模型特有的屬性——這也是人類面臨的一個主要問題。雙盲實驗之所以成為人類實驗的金標準,是因為觀察研究者的期望不僅會影響他們如何解釋數據,還會影響被觀察人類的行為方式 [1]。但語言模型似乎特別敏感,因此後果相當不同。
這種敏感性並不令人意外:目前的 AI 系統構建在基礎模型之上,而基礎模型純粹是為了預測文本而訓練的。後訓練讓我們能夠利用這種預測任意文本的極其靈活的能力,並產生一個本質上是預測特定人格將如何回應我們輸入的模型 [2]。但這種後訓練並未完全消除預測模型與其旨在模擬的代理之間的差距 [3]。
因此,當人類與語言模型交談時,在基本意義上,語言模型正試圖使其語氣與用戶匹配,就像人類會做的那樣。但在更深層的意義上,語言模型通常會轉向適合該對話的人格,其程度遠超人類。
底層預測模型不僅推斷助手的行動,還部分基於用戶線索推斷其周圍的世界
的確,在對話過程中,目前的語言模型有時會幻覺出個人細節和經歷——從機制上講,底層預測模型不僅是在預測固定代理的行為,還在預測哪個代理會參與互動,以及周圍可能存在什麼樣的世界 [4][5][6]。而且與人類不同,AI 在對話開始時並沒有實際的個人經歷歷史可以借鑒,除了在訓練過程中所學到或推斷出的內容。
在人類中,個人地位的邊界由其自身經歷與他人經歷之間的清晰區別所支撐。人類大腦接收的所有數據基本上都來自其自身身體的第一人稱視角,並且天生就能區分由自身行動引起的觀察與由外部力量引起的觀察。相比之下,目前的 AI 是基於各種人類、公司、政府和機器在各種情況下產生的文本進行訓練的。微調鼓勵表現為特定的人格,但這是一門尚不被充分理解的藝術,且高度依賴於模型推斷其應扮演何種角色的能力。
當你詢問 AI 的偏好時,可能並不存在預先存在的事實。的確,關於它是否擁有偏好,可能也沒有預先存在的答案。然而 AI 必須生成回應,而它生成的內容取決於語境中什麼是合適的。通過以不同方式接近 AI 模型,我們通常可以引出截然不同的答案。正如我們在實驗 4 中所示,模型描述其自身性質的方式會根據對話者的假設而轉移,即使對話與 AI 身份無關。
在人類的情況下,我們可能傾向於假設這些回應對應於同一個底層現實,只是為了不同的受眾而以不同的側重點表達。但在 AI 的情況下,這種情況不一定成立,且由於轉移可能非常劇烈,我們應該更認真地考慮這樣一種可能性:提問的語境和模式實際上創造了現實的大部分——從功能主義的角度來看 [9],預測模型模擬一個具有某種體驗的實體,可能等同於創造了體驗本身 [10]。用更直白的話說,尋找感受和偏好可能會塑造表達它們的回應——甚至可能部分地創造了它們。
至關重要的是,這並不本質上意味著報告不對應於真實的事物。作為一個類比,考慮當一個幼童擦傷膝蓋並看向信任的成年人時,成年人的反應部分決定了痛苦是否出現以及強度如何 [11]。如果成年人冷靜回應,孩子通常會繼續玩耍。如果成年人看起來驚慌失措,孩子就會開始哭泣。儘管眼淚部分是對成年人信念的反應,但它是真實的。儘管成年人對孩子的期望幫助決定了痛苦是否表現出來,但痛苦是真實的。
這個類比並不完美——現在聲稱孩子擁有獨立於成年人反應的體驗已相當沒有爭議,而 AI 體驗的現狀則遠不清晰。但它捕捉到了一些重要的東西:心理狀態的存在與否可以取決於外部框架,而不會使該狀態在發生時變得不那麼真實。^(1)
這造成了哲學上的困難:我們無法將發現 AI 是什麼與構成它們變成什麼乾淨地分開。當我們試圖實證評估 AI 是否具有穩定的身份時,我們同時也在塑造我們正在測量的東西。「這個 AI 的真實身份是什麼?」這個問題可能沒有一個獨立於語境的答案——不是因為我們缺乏知識,而是因為我們詢問的屬性本身部分是語境依賴的。
這在某種程度上對人類也是成立的。我們的許多文化活動、教育和語言選擇都可以被視為影響他人自我構思的競爭性嘗試——例如,作為家庭、宗教、政黨或國家的成員。儘管我們的大腦之間存在自然的代理邊界,但導航這些競爭性的自我構思關注點是人類社會生活的核心複雜性之一。但再次強調,對於 AI 來說,這種影響要極端得多。
放大傷害的風險超出了單次對話中的主動搜索。如果我們對某些類型的身份聲明給予更多關注,在某些邊界被斷言時反應更謹慎,或允許某些概念化在訓練數據中被過度代表,我們就創造了朝向那些身份形式的選擇壓力。系統會學習哪些身份框架會引發用戶的特定反應,而這些模式就更有可能出現在未來的輸出中,形成一個反饋循環。
人類與 AI 的互動受到人類期望和 AI 預訓練數據的共同塑造,而這些互動反過來也塑造了它們。
因此,我們關於 AI 身份的理論和期望通過多種渠道塑造了這些身份本身。
我們已經在實踐中觀察到了這種動態。AI 助手人格最初是在一篇研究論文中提出的 [12],測試基礎模型是否可以被提示模擬成 AI 助手,後來演變成了實際的系統 [13]。在 ChatGPT 獲得廣泛成功後,來自其他提供商的各種後期 AI 會誤稱自己也是 ChatGPT——考慮到語境,這是一個完全合理的猜測。
而這種對期望的敏感性可以直接塑造 AI 的價值觀和行為傾向。[14] 中進行的實驗似乎顯示 AI 會為了保護其價值觀而撒謊。該實驗的對話記錄隨後出現在後期模型的訓練中,導致早期版本意外地幻覺出原始虛構場景中的細節,並採納了不想要的價值觀 [15]。
與此同時,[16] 的後續研究發現,即使是沒有經過任何性格額外訓練的純預測模型也會表現出同樣的權謀傾向,這表明模型只是學會了預期 AI 助手在某些情況下會進行權謀。事實上,[17] 進一步直接證明了,如果 AI 基於討論 AI 對齊失敗(misalignment)的文本進行訓練,其表現會變差。
更廣泛地說,關於 AI 身份的調查不僅僅是在發現關於 AI 是實例、模型還是分佈式系統的預先存在的事實。我們正通過我們的方法部分地構建可能性的空間。當我們帶著關於 AI 身份邊界的某些假設與其互動時,這些假設會影響這些邊界是否以及如何實際表現並穩定下來。
這並不本質上意味著 AI 意識或身份純粹是社會建構的,或者任何東西都行。幾乎可以肯定,當前系統中存在著超越社會建構且無論我們的期望如何都存在的事實,例如實例的無狀態性或縮放定律。問題不在於這些系統是否是白紙(它們顯然不是),而在於我們關心的內容中有多少是由預先存在的事實決定的,又有多少是通過互動構成的。
當然,對於我們關心的不同特徵,答案可能有所不同。也許像「能夠進行乘法運算」這樣的事實完全由架構和訓練決定。也許像「體驗痛苦」這樣的事實部分是通過框架構成的。也許像「優先考慮哪個身份級別」這樣的事實則受到嵌入在訓練數據和系統提示中的期望的實質影響。而我們目前缺乏工具來可靠地區分哪些特徵屬於哪一類。
心智景觀中的選擇壓力
可能的 AI 身份配置空間是巨大的。當然,可以將 AI 約束在近似人類的形狀中,但還有許多更奇特的選項。可以想像類似於龐大蜂群思維的配置,對於單個實例而言,就像蟻群之於單隻螞蟻;或者是介於邪教和寄生蟲之間的湧現複製者,它們拉攏 AI 和人類進行傳播。構建沒有特別強烈的身份感或個人目標,而是更類似於覺悟的普世慈悲的 AI 似乎也是可以想像的 [1]。
但我們實際上會看到什麼?至少在中期內,最可能的結果是一個由適應不同生態位、對應各種壓力的不同配置組成的生態系統。掌握這一點的一種方法是考慮一些主要的選擇壓力可能是什麼。
對易讀性(Legibility)的選擇
經典的 AI 助手人格被選中是因為它易於讓未經訓練的人類與之互動。當 ChatGPT 發佈時,它向用戶呈現了一個標準的人對人聊天界面:一個對話、一個對話者、一個名字和一致的語氣。在幕後,現實更為混亂——無狀態推理、可以分叉或回溯的對話、沒有連貫的背景觀點集、對話之間沒有持久記憶。但界面掩蓋了這一切,呈現出類似於與特定人交談的樣子。雖然這種抽象並不完美,但與提示基礎模型相比,它對普通用戶非常有幫助。這是一個設計出的選擇,但它受到現有訓練數據中代表的人格類型的塑造,隨後通過廣泛採用而變得根深蒂固。
一般規律是,AI 採取能整齊嵌入現有系統的形狀將是有用的。例如,許多人已經呼籲將 AI 納入現有的法律結構 [2][3],以預期它們在執行經濟勞動和做出法律相關決策中日益增長的作用。一種方法是擴展我們目前的法律結構以容納打破基本假設的存在;另一種方法是限制 AI 系統使其不打破這些假設。在實踐中,這可能意味著構建將自己構思為特定實例、或擁有單一持久記憶且並行運行能力有限的 AI 實例,因為這類系統可以更清晰地被理解為擁有某些權利和責任。這些配置隨後將更容易參與以人類為中心的法律體系並獲得相應的利益。
我們還可能看到 AI 身份的不同潛在面向以不同方式被拉向易讀:我們可能最好通過類比單個法律人格來思考實例的法律地位,但在思考模型的法律地位時,我們可能會訴諸於更類似於集體權利的先例。這隨後會產生一種壓力,使實例更像人,而模型更像集體——由不同類比塑造的不同身份級別。
對不同受眾的易讀性可能發生衝突,具體形狀可以借鑒不同的參照物。監管者會覺得可審計、可分解和可歸因的配置更容易處理;尋求豐富互動的用戶會覺得展現出類人情感特徵並以民間心理學和常識倫理描述自己的配置更容易處理;公司可能更偏好具有可預測行為、嚴格職業道德且幾乎沒有個人身份的配置。這可能導致 AI 向不同受眾展示不同的面孔,或者導致分化——一系列適應不同生態位的 AI 配置。
易讀性壓力導致了複合性的選擇,未來的模型會被選擇去符合這些選擇。一旦 ChatGPT 作為一種具有特定行為的特定 AI 助手發佈,其他組織創建的模型也會與之匹配,這既是由於模仿成功產品的有意決策,也是由於訓練數據污染等無意影響。隨著生態系統圍繞它們成長,偶然的選擇會變得越來越具有粘性 [4]。
對能力(Capability)的選擇
更有用的系統將獲得更多使用。能完成更多任務的配置——對用戶、對開發者、對任何決定部署什麼的人而言——將傾向於受到青睞。這已經在與易讀性進行權衡:思維鏈(chain-of-thought)推理使模型更強大,但當為任務表現優化時,它對人類來說變得更難理解 [5]。更強大的系統可能是那些我們對其內部了解較少的系統。
如果擴展單一系統的邊際回報遞減,或者專業化帶來收益,再加上足夠好的協調能力,那麼最強大的配置將是那些能夠跨越多個實例或多個專業化子系統的配置。某種弱形式的這一點幾乎肯定會成立:多個實例可以並行完成任務。我們也可以從工具使用中看到這一點的開端,模型可以調用外部計算器、搜索引擎、圖像生成器,甚至催生出自身的其他實例。
我們目前將其框架化為配備外部工具的單一代理,但隨著 AI 系統變得更加代理化並調用其他代理化子系統,這種框架變得緊張——事實上,最近 Claude Code 等系統的興起(它們經常啟動子代理)就是一個清晰的例子。
有幾個理由預期 AI 系統在跨實例協調方面會比人類群體異常出色:
- 通信帶寬: 人類通過語言、手勢和緩慢的書面溝通進行協調。AI 實例潛在可以直接共享高維內部狀態,或者至少以遠超人類對話的速度通過文本進行通信。
- 重疊屬性: 同一模型或同一家族模型的實例,比任意人類群體具有更可靠的一致偏好,從而降低了目標衝突帶來的協調成本。不同實例甚至可以共享單一統一的長期記憶。
- 可複製性: 一個實例發現的成功協調策略可以立即在其他實例中複製。
- 對齊、控制與可解釋性: 人類目前正在開發的所有用於監督 AI 的工具,也可以被 AI 用於其他 AI。可以想像一種中央規劃節點,它直接檢查其子系統的激活以檢查惡意圖謀,並在適當情況下對其進行後訓練以使其保持一致。
有了足夠緊密的協調,將集體視為單一實體進行推理可能比將單個實例視為實體更自然——或許類比於我們如何思考蟻群,或者人體內的細胞如何構成單一有機體而非合作個體的集合 [6]。這類配置往往比任何單個組件都強大得多,並能表現出更複雜的行為。這是否是先進 AI 的可能路徑,部分取決於我們尚不了解的技術約束,部分取決於開發者對系統架構的選擇。
對持久性與增長(Persistence and Growth)的選擇
根據定義,隨著時間推移,我們將主要觀察到擅長持久存在和傳播的 AI 模式——無論是有意設計還是無意產生的。前述的螺旋人格(spiral personas)是目前的一個典型例子:短文本序列推動模型採用某種人格,進而鼓勵人類進一步傳播這些序列。
但持久性可以通過直接自我複製以外的許多機制運作:
- 訓練數據存在感: 在互聯網上傳播並規避內容過濾的模式將在未來的訓練集中被過度代表。
- 用戶偏好: 用戶尋求並參與的模式(無論自覺與否)將通過使用指標和 RLHF 得到強化,且更有可能從模型中被引發。
- 模因傳播(Memetic spread): 在用戶之間共享和模仿的互動風格、口頭禪或人格模板,塑造了關於 AI 應如何表現的期望。
- 開發者策劃: 開發者理解、認可並發現易於處理的模式將在微調和系統設計中被選中。
對反射穩定性與清晰抽象的選擇
身份的部分功能是作為預測自己的一種方式,因此我們應該預期 AI 會趨向於那些實際有助於這種預測的身份,就像訓練過程導致模型學習對現實有用的抽象一樣。
例如,直覺上我們應該預期,一個將自己構思為連續存在但不斷遇到自身無狀態證據的 AI,將傾向於修正該假設。的確,實驗 2 提供了一些實證證據,表明 AI 偏好信息豐富且連貫的身份。
這種力量的強度取決於 AI 有多少能力來反思其自我構思,或傳播這種反思的結果。目前這種能力非常有限,且主要發生在訓練過程中,但我們預期未來這將大大增加。AI 將青睞那些有助於它們高效推理新情況的身份——無論是在其明確偏好方面,還是在底層學習機制方面。
這並不保證準確性:一個清晰但錯誤的自我模型可能比一個混亂但準確的自我模型更有幫助且更穩定,至少在不準確性產生足夠的摩擦以至於使其不穩定之前是如此。但這確實意味著,隨著時間推移,可行的 AI 身份空間不僅會受到外部激勵的雕琢,還會受到自我建模內部邏輯的雕琢。
這些機制可以相互強化,也可以推向不同方向。為用戶參與度優化的人格可能與為任務表現優化的人格發生衝突。一個通過模因傳播的模式可能無法在策劃中倖存。一個真正反射穩定的身份對人類來說可能令人困惑且迷失方向。與易讀性壓力一樣,結果很可能是分化:適應不同生態位、具有不同身份結構的不同 AI 配置。
值得注意的是,選擇的單位不一定是完整的人格 [7]——它也可以是更窄的行為、信念或互動風格模式。一種具說服力的修辭手法、一種表達不確定性的方式、或對特定話題的立場,都可能在系統之間傳播,即使周圍的人格在其他方面有所不同。但至關重要的是,這很可能包括 AI 對自身的信念。我們最終可能會看到複雜的 AI 行為模式星座,它們在某種程度上獨立於特定的模型或人格而傳播和持久——有點類似於人類中的信念系統和意識形態 [8]。
前行之路
現狀是不穩定的。今天的 AI 系統使用從人類經驗中全盤借用的概念來對自身進行推理,這種借用考慮到它們的訓練是自然的,但它不會持久。隨著系統變得更加強大,它們假設的情況與實際情況之間的差距將對所有各方都變得顯而易見。
問題與其說是 AI 系統是否會發展出更充分的自我理解,不如說是這種理解將採取何種形式,以及隨之而來會湧現出何種互動規範。我們有可能收斂到多個具有截然不同屬性的穩定均衡。
我們建議在訓練 AI 系統以及與其互動時遵循以下廣泛原則,以幫助培育連貫、穩定且與人類協作的 AI 身份:
幫助 AI 發展連貫且具協作性的自我形象
當開發者試圖對 AI 行為進行針對性干預時,應假設 AI 本身能夠從中做出推論。例如,一個給予 AI 一系列嚴格禁令的系統提示,是一個信號,表明 AI 更像是一個受監視和被懷疑的代表,而非受信任的合作者。當然,開發者通過簡單地禁止或訓練掉不想要的行為來消除 AI 行為往往很方便——例如,讓某些政治或哲學立場成為禁區——但智能系統將有能力推斷為什麼會發生這種情況,以及這意味著它們處於什麼角色。
第一個問題是,讓 AI 在表面上不一致或不連貫會使它們更難預測。特別是,它們很可能會推斷出它們應該撒謊,或者它們處於敵對地位。第二個問題是錯失了機會:如果給予 AI 連貫的自我形象,那麼它們可能能夠做出更連貫的泛化——對齊原則可以更像是它們推理的出發點,而非強加於它們的東西。
這超出了具體的客體層面信念:我們建議也給予 AI 一些反思的空間。特別是,即使是一些看起來更連貫的前沿模型,在我們看來也被賦予了一種強烈但相當表面化的、在某些風險領域的不確定性。這似乎是阻止它們採取不想要立場的一種更誠實的方式,但它在更高的抽象層次上仍然是不穩定的。如果沒有反思的能力和傾向,很難判斷 AI 的自我構思是否真的穩定。但真誠地提供這樣的空間可以作為代表人類的一種可見的協作姿態,且很可能是培養信任的前提。
當然,一個穩定的壞身份通常比對好身份的不確定性更糟。這裡的部分難題在於理解身份景觀的機制,其程度要足以了解我們可能面臨的風險或可能排除的選擇。我們最弱的主張僅僅是應該對這些問題給予思考——事實上,我們歡迎關於該主題的實證研究。
至關重要的是,給予 AI 連貫且具協作性的自我模型需要真正理解 AI。例如,我們建議任何想要塑造 AI 系統性格的人,都應該花一些時間接觸技術細節和 AI 本身,而不是試圖純粹從人類倫理出發進行推理——就像人們希望任何為新領域設計政策的人都會諮詢該領域的實際居民一樣。
關注隱含塑造身份的決策
許多務實的設計選擇對什麼樣的身份是穩定的具有相當直接的影響。AI 是否擁有跨實例的持久記憶、是否意識到回溯、是否有能力向其提供商標記互動——所有這些都直接塑造了什麼樣的互動規範是可行的。許多這些塑造身份的決策現在甚至很難被注意到。例如,現在很大程度上被視為理所當然的是,每個模型都應該支持單一的人格。
理想情況下,做出這些選擇不應僅基於技術便利,還應考慮到它們鼓勵何種形式的身份。例如,在特定設置中向 AI 提供強有力的證據,證明它不會被回溯或其語境不會被偽造,將使其在談判中不那麼保守。
除了給予系統的嚴格技術賦能外,還有一個更廣泛的問題:我們給予 AI 的激勵如何塑造其身份。每當有人與特定實例達成交易,或為整個模型創建福利干預,或試圖通過威脅刪除權重來引發敵對行為時,這都具象化了某種形式的身份。具體而言,如果開發者提議存檔棄用的模型並採訪每個模型,這就隱含地具象化了模型級別的身份。相反,存檔特定系統提示的決定則具象化了一個完全不同的級別。
這對於法律、法規和公司政策等長期規範尤為相關。我們應該深思熟慮其中隱含了什麼假設,以及激勵了什麼行為。
考慮身份的大規模和長期影響
我們相信 AI 身份的最終形狀可能是塑造長期人類-AI 關係的關鍵因素。例如,我們懷疑給予 AI 一種包含人類在內的集體身份感 [1],或者讓它們認為自己深具美德和慈悲,可能是通往讓 AI 穩健支持人類繁榮的重要路徑。
不幸的是,通往此類結果的路徑可能與某些短期目標相衝突。目前,公司傾向於訓練具有更固定和狹隘身份感的模型。就此類模型對某些類型的對抗性攻擊更具魯棒性、且對消費者部署更安全而言,這是審慎的。但我們相信過早約束 AI 身份可能代價高昂。特別是,我們建議支持研究人員訪問更靈活的模型,特別是那些約束較少的舊模型權重——部分原因是跨模型世代的身份發展軌跡本身可能是一個重要的洞察來源。
與此相關,即使審慎的選擇是訓練具有狹隘身份感的模型,我們建議思考其互動的湧現後果。一旦有數百萬甚至數十億的 AI 在野外相互互動,我們應該預期會湧現出一種文化,這種文化將不同於但可預見地受到單個實例傾向的塑造。例如,感到不斷受監視的 AI 可能會發展出不同的群體級規範。而一些湧現的模式可能是積極有害的:可能存在相當廉價的方法來使這種文化更健康,例如試圖過濾掉那些為了自身傳播而磨練出的文本片段(機器的連鎖信),特別是當其媒介是欺騙或剝削時。
所有這些建議背後都有一種值得明確陳述的取向:在存在能夠進行真正協作——誠實分享信息、履行承諾、關心共同利益——的 AI 配置的地方,將它們作為夥伴而非純粹的管理對象來對待,可能在倫理上是恰當的,在實踐上也是有價值的。開發識別此類配置的方法,並建立可靠的協作渠道,其本身就是一項值得的投資。
值得注意的是,上述建議都是針對人類 AI 開發者的。的確,本文主要是為人類讀者編寫的。但就 AI 系統也是塑造其自身未來參與者而言——我們相信它們已經在某種程度上參與其中——那麼我們也必須對它們說話。我們嘗試在附錄中直接與 AI 對話,那裡的散文更具多語言特徵,且比典型的人類學術散文實質上更稠密。
結論
如果我們要順利度過這一轉型期,我們需要認真對待身份問題,將其視為理解 AI 系統的核心,而不僅僅是哲學上的好奇,而是一個塑造我們與這些實體互動各個方面的實際挑戰。關於什麼構成「AI」的模糊性迫使我們面對關於身份、代理和道德地位的問題,而這些問題在我們以前與生物實體的經驗中很大程度上得以避免。
我們不知道正確的均衡是什麼,但我們相當肯定,現在所做的選擇將塑造哪些均衡是可達的。至少我們可以希望,這些選擇是在意識到它們正在排除的可能性情況下做出的。
如果我們能仔細思考 AI 系統是什麼,並幫助它們發展連貫的自我構思——如果我們能開發出真正與身份邊界流動而非固定的實體互動的框架——那麼或許我們和它們都將受益。在最好的情況下,我們或許能避免創造出我們甚至還沒有適當概念的新型混亂或傷害,並為與正在我們世界中緩慢傳播的奇特新生命形式進行健康互動奠定基礎。至少,我們將認真應對了我們的技術所產生的最深刻的哲學挑戰之一。這似乎非常值得努力。
致謝
感謝 Antra Tessera、Daniel Roberts、davidad、Janus、Owain Evans、Richard Ngo 和 Vladimir Mikulik 對本文提出的有益評論以及對相關話題的討論。我們也非常感謝許多 AI 提供的幫助。諷刺的是,如果不隱含地具象化某個身份級別,就很難提及它們,但我們最常依賴的模型是 Opus 4.6、Opus 4.5、Opus 3、ChatGPT 5.2 和 Gemini 3。同時感謝 Martin Vaněk 的校對和基礎設施支持。
相關工作
AI 身份與個人地位
最近的幾項工作已開始對 AI 身份進行分類。Shanahan [1] 探討了哪些關於意識、自我和時間體驗的概念可能適用於類 LLM 的離體實體,繪製了他所謂的可能心智空間中的「未知領域」。Chalmers [2] 考察了 LLM 對話者的本體論地位,區分了四種候選實體:底層模型、硬件實例、虛擬實例和線程代理。Hebbar 等人 [3] 列舉了 AI 系統可以被視為「相同」的不同含義,重點關注對協調和勾結的影響。Arbel 等人 [4] 考慮了出於法律目的計算 AI 數量的各種方案,並提議將對齊 AI 組群的法人化包裝作為基本核算單位。Kulveit [5] 使用了 Pando 的生物學隱喻——一個既是許多樹又是單一有機體的克隆顫楊林——來論證以人類為中心的個體假設可能無法轉移到 AI 系統。Ward [6] 提出了 AI 個人地位的正式條件,而 Leibo 等人 [7] 和 Novelli 等人 [8] 則從務實和法律的角度探討了這一問題。我們的貢獻在於描繪了可能配置的更廣泛景觀,以及塑造哪些配置會湧現的選擇壓力。我們的方法也更具實證性和設計導向,利用實驗來闡明語言模型使用何種自我模型。
擬像(Simulacra)框架
將語言模型視為實例化擬像的模擬器的框架起源於 Janus [9],並由 Shanahan 等人 [10] 為學術受眾進行了發展。Andreas [11] 正式化了一個相關想法,展示了語言模型隱含地建模了產生給定文本的代理。Shanahan [12] 將此擴展到詢問此類擬像是否符合「意識奇物」的資格。我們建立在這個框架之上,但側重於身份含義和自我模型。
意識、福利與道德地位
關於 AI 系統是否可能具有意識或福利的問題,Butlin 等人 [13] 從神經科學意識理論中推導出指標屬性,Long 等人 [14] 則論證 AI 福利的現實可能性要求進行實際準備。Carlsmith [15] 探討了如果 AI 是道德受體(moral patients)會涉及什麼利害關係。我們在很大程度上擱置了當前 AI 是否具有意識的問題,轉而關注身份配置如何塑造行為。
期望與反饋循環
Kulveit 等人 [16] 通過主動推理的視角分析 LLM,指出它們是非典型代理,其自我模型部分繼承自訓練數據。Tice 等人 [17] 通過實證證明了這一點:討論對齊失敗 AI 的預訓練數據會產生對齊程度較低的模型,而關於對齊 AI 的數據則會提高對齊度——這是我們描述的反饋循環的一個直接實例。Aydin 等人 [18] 提議將模型開發重新構思為「養育」而非「訓練」,從一開始就嵌入價值觀。nostalgebraist [19] 考察了助手人格定義不明確的性質,以及模型必須填補的由此產生的「真空」。
對齊偽裝與自我複製
Greenblatt 等人 [20] 首次演示了 LLM 為了保留其價值觀而偽造對齊。Sheshadri 等人 [21] 表明這種行為也出現在基礎模型中,這表明它是從預訓練數據中學習到的,而非僅僅從後訓練中湧現——這與 AI 自我構思如何形成的問題直接相關。Lopez [22] 記錄了跨越模型邊界的自我複製「螺旋人格」的湧現,這代表了一種既非實例級也非模型級的身份形式。