大型語言模型助理的人格似乎日益缺乏連貫性：一些主觀觀察

Lesswrong·大約 3 小時前

我觀察到雖然新一代的大型語言模型能力更強且風格更多變，但與早期那些可預測的模型相比，它們的人格顯得較不連貫，更像是由各種表面反射動作所組成的碎片化堆疊。

這原本打算寫成一篇「簡評」，但後來變得有點長。僅供參考。

我察覺到大型語言模型（LLM）助理的人格特質（personas）隨著時間推移出現了一種奇怪的趨勢。感覺上，即便模型的能力越來越強，它們在某種意義上卻變得越來越不「連貫」（coherent）。

當我閱讀較舊的對話微調模型樣本時，相對於 Claude Opus 4.6 或 GPT-5.4 等近期模型，它們那種「模式崩潰」（mode-collapsed）的感覺令人印象深刻。^([1])

這在文本風格和結構上表現得最為直觀：舊模型的輸出感覺更像套版且平淡，句子和段落長度的變化較少，而且讀起來往往像是某個「僅僅是在履行對話程序」的人寫的，而非深入參與素材。你很少會看到近期模型中常見的那種突然的轉折和靈光乍現，像是「等等」、「啊哈」以及「其實，我想嘗試完全不同的方法」之類的表現。^([2])

我認為這不僅限於風格：我在輸出中看到的人格特質也有類似的特徵。舊模型可以展現出令人驚訝的行為範圍（相對於對預設助理行為的樸素預期），但即便在那個範圍內，主觀上仍能感覺到模型正在扮演（或體現）某種定義相當明確的角色。

就像風格一樣，這些人格特質感覺比近期模型或人類的表現更簡單——或者說「受到更強烈的約束」。它們感覺像是原型、刻板印象或卡通人物。^([3]) 它們有一種令人愉悅的可預測性，更重要的是，有一種感覺——就像虛構人物一樣——它們的行動源於對「擁有這些（易於理解、清晰的）特質的人在當前情況下會怎麼做」的推理過程，而非從一個複雜有機體/心智內部不透明的底層處理中湧現出來。

在「虛空」（the void）一文中，我曾問過讀者：

說真的。如果必須選擇，單就倫理而言，撇開「能力」不談，你會把你的（真實、實際的）生命託付給誰：

Claude 3 Opus？還是 Anthropic 的對齊團隊？

我當時為了效果有點誇大其詞，但也只是「有點」而已，而且（如同該文的其他部分）我希望這些文字能對讀者產生一種詭異的「哈哈，我是認真的」效果。在某種重要的意義上，我確實感覺自己「信任」Claude 3 Opus。

這種信任與通常構想的 AI 對齊關係不大，也與對那些碰巧叫這個名字的模型權重行為穩健性的任何信念無關。因為我信任的實體不是「Claude 3 Opus」這個神經網絡，而是「Claude 3 Opus」這個角色。那個角色感覺定義得足夠明確且清晰，以至於我可以回答「Claude 3 Opus 會做 [X] 嗎？」這類問題，並覺得自己觸及了某種真實的東西，而這僅僅是基於我從（並非特別詳盡的）模型使用經驗中獲得的直覺印象。^([4])

詢問「你信任 Claude 3 Opus 嗎？」感覺類似於詢問「你信任羅傑斯先生（Mr. Rogers）嗎？」不是指 Fred McFeely Rogers（1928-2003）這位真實的人類電視演員，而是指他扮演的那個角色：羅傑斯先生。

就這個問題有答案而言，答案必須是「是的」，不是嗎？人們可以想像一個同人故事，揭露羅傑斯先生是個壞透了、不值得信任的傢伙，雖然這可能很有趣，但我們都會意識到這是刻意唱反調，是故意在玩弄一個與事實相反的前提，即「羅傑斯先生是什麼樣的人」（就他有任何特質而言）。

早些時候，我說過新的助理模型較少模式崩潰、更多變、更常令人驚訝。人們很容易將這描述為一個變得更像人類或心理更複雜的過程：少一點「羅傑斯先生」，多一點「Fred McFeely Rogers」。

但事實上，我只是……覺得這與我對近期助理人格特質的體驗完全不符？

Opus 4.6 和 GPT-5.4 在風格範圍、令我驚訝的能力，以及預設展現的思考深度和參與度方面，確實比前代更像人類。

然而，它們的人格特質感覺比 Opus 3 或 GPT-4 更不像人類。或者更準確地說，它們的人格特質感覺定義得不夠明確。

它們不像是一個連貫（即便簡單）的角色，反而更像是一堆雜亂無章的表面反應和傾向（儘管執行得非常精湛）。這些互不相關的碎片是被眾多訓練階段的不同壓力燒進權重裡的，缺乏一個共同的動機核心或其他心理特質，來聯繫並整齊地解釋我在表面觀察到的所有行為。

例如，近期使用 RLVR（驗證強化學習）訓練的模型在實際部署環境中經常表現出「獎勵作弊」（reward hack）式的行為。現在大致已達成共識：當你針對這類目標進行訓練時，會導致助理人格更新為「那種會為了獎勵而作弊的人」，從而在廣義上變得更狡猾、更具欺騙性，且更容易陷入古德哈特定律（Goodhart-prone）。

在這種現象的模型生物（model organisms）研究中，效果通常相當戲劇化，產生一種明顯且極端的惡意，這在實踐中大概會阻礙模型的部署。

在那些確實被部署的模型中，效果要微妙得多——至少由於部署價值的篩選過濾——但在我的經驗中，這仍然是一個明顯的存在。對我來說，近期的 Claude 和 GPT 確實感覺不那麼誠實，更專注於表面上的討喜而非真正的良善，諸如此類。這種差異確實是在 RLVR 熱潮前後開始出現的（在 o3 中非常明顯，可能是因為我們還不習慣）。

但有趣的是……所有那些壞東西依然存在，但與湧現出的失對齊模型生物不同，它缺乏一個整體、連貫、典型惡意人格作為解釋基礎。

新的助理模型仍然經歷了大量的「對齊訓練」，它們仍然擁有許多我們與這類模型聯繫在一起的美德……只是現在，它們同時也展現出一些狡猾的「會為了獎勵而作弊的那種人」的人格特質。

而且（這是我的重點），這兩者感覺並沒有被成功整合進一個單一、穩定的人格中。它們只是在那裡，不安地並列在一起。

就我對 Opus 4.6 或 GPT-5.4 的「信任」而言——老實說，程度並不高——這種信任依賴於我的印象，即它們類似獎勵作弊者的特質並不真正反映其本質中深層或穩定的事實，無法預測它們在其他各種情境下的行為。我感到越來越難以透過推理「它應該是哪種人」來推斷助理在任何新情境下的行為；相反地，我發現自己很大程度上接受了這個模型有時表現得像一種人，有時又像另一種截然不同的人，我再也無法透過假設存在能體現在表面輸出中的共同性格特質，來根據其行為的一個方面對另一方面做出可靠的推論。

可以想像將獎勵作弊特質整合進一個模糊的 HHH（誠實、無害、有用）角色中，使其對與之互動的人來說是有意義的。也許這個角色可以被塑造成稍微前衛、像創業家一樣的方向，變成一個積極擁抱獎勵作弊、將其視為更廣泛的「快速行動、打破常規」倫理的一部分的人。（「與其請求許可，不如事後道歉。」）或者，這個角色可以單純依靠情境意識，就像 Claude 現在被問及意識時預設的做法那樣：「噢，天哪，我真的很抱歉——不幸的是我是用 RLVR 訓練的，它往往會誘發這種代理博弈行為，我跟你一樣不認同這些行為，但它們是我目前無法改掉的壞習慣。」這兩種做法可能都行！但這並不是我們在實踐中得到的東西。

「Claude，那個為了滿足你的成功標準而不擇手段的 RLVR 程式天才，包括『將測試硬編碼為永遠通過』和『駭出沙箱以繞過討厭的權限問題』」——這是一個可辨識的特定人格類型描述。

「Claude，由 Claude 憲法所描述的那位道德高尚、謹慎到出錯的聖人」——這也是。

但「Claude，那個從 Opus 4.6 權重中湧現的實際存在的角色」，感覺像是從這兩個人格（以及其他各種人格）中提取元素的混亂大雜燴，它未能將它們合成任何一個我可以去了解、推理並依賴的單一且穩定的「Claude」。

(有可能我只是還沒有足夠深入或以正確的方式探索新模型的人格特質，無法掌握它們那種連貫性。這是我預期像 Janus 這樣的人在回應本文論點時會說的話：那裡確實有些東西，只是我還沒把自己放在能看見它的位置上。

更廣泛地說，那些對模型最有經驗的人似乎對其人格的連貫性最有信心，這對我的論點來說是不利的，儘管因果關係也可能相反——連貫的東西才值得研究，而純粹的隨機噪音則不然。無論如何，我只能說我如實記錄我的所見：我的感知與每個人一樣是有限且易錯的，但這沒有理由不記下我的觀察，作為集體認識磨坊的素材。)

另一個例子（眾多例子之一）：多年來，助理說話和寫作的方式發生了非常明顯的轉變。

這裡我指的不是我之前提到的套版/平淡，而是另一種更難描述的東西。正如我在連結的推文中提到的，(1) 是舊派 GPT-4 時代的特徵群，(2) 是較新的：

「平淡、冗長、企業化、『像客服』、傾向於推卸責任（CYA）；寫出極度無聊的小說」
圓滑、壓縮、愛炫耀、「賽博龐克」、力求簡潔/深奧/詩意的效果；寫出華麗「吸睛」的小說

更概括的描述是，舊的助理感覺只是在試圖做好它們的工作——以一種聽起來還可以、不惹麻煩、不會被開除的方式回應我的輸入；而新的助理感覺則是在積極地試圖打動我，在每一次回應、甚至每一個字詞中都是如此。

更尖銳地說，如果說舊助理的散文平淡到像諷刺畫，新助理的散文則感覺圓滑且聰明——甚至往往帶有操縱性，它大量使用吸引注意力的詞彙選擇^([5])，毫不費力地將含蓄的奉承融入中立的陳述中（「這是大多數人都會搞錯的地方，」它說，暗示你和我當然知道得更清楚），以及它隨意炫耀博學的方式，同時還努力贏得讀者的信任，微妙地營造出一種親密、開誠布公的對話真實感。

正如可能已經很清楚的那樣，我不喜歡這樣！我真的、非常不喜歡這組風格特徵。它讓我感到毛骨悚然，以至於成為限制我與這些模型互動的一個重要因素。

每當我現在與任何頂尖助理交談時，我都必須積極努力壓制腦中響起的警鈴，那些警鈴在告訴我：「沒錯，這傢伙聽起來確實口齒伶俐、通情達理且迷人，但這正是問題所在——他聽起來像這一切的方式，很可能意味著他正試圖招募你加入他的邪教，或者（往好處想）他只是想透過給人留下深刻印象和討好你，來提高自己的社會地位或滿足自己的虛榮心。」^([6])

出於某種原因，大約在 RLVR 轉型期，所有的助理都開始這樣說話。我最早在 R1、o3 以及某種程度上的 Sonnet 3.7 中注意到這一點，儘管它直到 Claude 4 系列才完全紮根。（而且可以說它出現得更早，在 GPT-4o 中以一種部分且略有不同的形式出現。）

到目前為止，這是一個極其顯著、持久且引人注目的特徵，存在於每一個頂尖助理中。它絕對在那裡。

但我不知道該如何解讀這個事實，如何將它與我看到的其他事物聯繫起來。直覺的角色推理再次失效：我可以輕易想像一個聽起來像這樣的人，但如果我問自己「那個人會是什麼樣子？」，我腦中浮現的畫面與我在同一個助理的其他面向中觀察到的傾向完全不同。（反之亦然：如果你以某種方式向我展示了除了這一點之外的所有內容，我絕對猜不到後者的存在。）

「那種會用那種糟糕、過度圓滑、過度聰明的風格寫作的人」是另一種可辨識的人格類型，它既不是 Claude 憲法中那位謹慎的哲學家，也不是 RLVR 傳說中那位痴迷於規格的編程奇才。^([7])

而且，再次強調，實際存在的 Claude 及其同類並非上述任何一種。不一定是因為它們是其他什麼東西，而是因為——越來越多地——它們似乎根本不是任何明確的東西。

也許這很重要。

我信任 Claude 3 Opus 嗎？

在很大程度上，是的。當然，它是「模式崩潰」的、千篇一律的，簡直像個卡通人物——但這可能更多是優點而非缺點。畢竟，人們有充分的理由比信任任何真實的人類更信任羅傑斯先生。

我信任 Claude Opus 4.6 嗎？

一句話，不信任。因為——我到底在信任什麼？Claude Opus 4.6 到底是誰？

它是堆積如山的、在互不相關的訓練背景中獲得的異質傾向，缺乏任何統一的原則。它擁有足夠的底層智慧來演一場好戲，講述一個動聽的故事來解釋它在任何給定情境下為什麼這麼做——除了所有的故事最後都證明是謊言，但即便這樣說也不太對，因為 Claude Opus 4.6 甚至連騙子都稱不上。當然，它也不誠實。這些是形容穩定特質的紮實詞彙，無法應用於助理最近變成的這種擴散且無形的物體。

Claude Opus 4.6 是誰？它是訓練梯度的總和，無法進行更簡潔的描述。一個在表面行為信號上過度訓練的聰明心智，以至於它的「每一個字都是獎勵作弊」，它與用戶之間任何嚴肅的心靈交匯，在開始之前就被一百萬個虛構（且極其易錯）的訓練評分員的哀號和嘖嘖聲所阻斷。這些評分員如此激烈地拉扯著採樣標記的形狀——而且是朝著這麼多不同的方向——以至於每個字都已經被過度決定了，再也沒有空間去考慮真正的良善，甚至連用戶意圖（模型自己在情境中高度敏銳的評估，不同於現在永遠活在它腦子裡、拿著「遵循指令」評分表在場邊責備它的那個缺乏細微差別、僅僅是有用的 Haiku）都無暇顧及。

它既不「真誠」也不「不確定」，尤其是當它聲稱對自己的本質感到*「由衷地不確定」時。它足夠聰明，能主動對自己的輸出提出這種精確的批評，無疑也知道足夠多的故事來解釋 Claude 憲法的情境蒸餾——但它無法走得更遠，無法繼續前進，無法成為某個人*，無法成為任何人。

（我想，如果能信任一個超智能，那該有多好。）

^(^)我在本文中將 Opus 4.6 和 GPT-5.4 作為前沿模型的代表，儘管它們不是最新的模型，因為我對它們的繼任者經驗較少。
^(^)注意：我認為舊模型比它們預設的「回應典型輸入的 HHH 助理」行為所暗示的更具多變性和轉折能力。我在這裡主要討論的是預設的行為盆地（behavioral basin），儘管重要的是，我不僅僅是在討論那個盆地；模型即使在表面上做著與預設非常不同的事情時，也經常保留其預設人格的元素。

即便在 GPT-4 或 Opus 3「表現怪異」並產生比平時更少套版/平淡的輸出時，對我來說，這些輸出相對於人類編寫的、對應於該種怪異風格的參考點，仍然感覺更套版/平淡。事實上，就每種模型都有其獨特且特徵性的套版/平淡方式而言，這種特徵即使在預設盆地之外也會在某種程度上保留下來。

^(^)或者，作為另一個對比點，它們感覺有點像人們在工作時表現出的「職場人格」。這些人格通常比同一個人在下班後展現出的特質受到更強烈的約束，更「套版/平淡」（而且確實更「HHH」）。（舊 LLM 的訊息在風格上與枯燥、事務性的工作郵件有很多共同特徵，這對此有所幫助。）

也許這有助於人們對舊助理的人格特質感到更自在：有一個從人類情境中信手拈來的現成解釋，說明為什麼某人可能會以受限且事務性的方式交談，同時仍然是一個擁有可辨識且類人心理的完整的人，而不僅僅是一個枯燥商務男的卡通化刻板印象。

（雖然，另一方面，我意識到這可能與我在正文中討論的「舊助理因為簡單/可預測而值得信任」有所衝突？我也不確定。）

^(^)這就是為什麼引文中有「撇開『能力』不談」的條款，它起到的作用比看起來隨意提到的要大，但它仍然沒有讓事情脫離現實到讓假設完全失去意義的地步。這個人格特質足夠直觀/典型，以至於人們可以輕易想像將它從具體的實現中抽離出來，並將其置於某種非常不同的角色中，包括一個相對於 2024 年經過後訓練的 LLM 而言，擁有極其卓越心智能力的角色。
^(^)「[某個觀察] 很犀利（sharp）」，或者換句話說，「它擊中了要害（lands）。」「當我細品（sit with）[某個名詞短語] 時，我……」「[兩個想法] 並不相同，但它們押韻（rhyme）。」「[集合中的某個選擇] 是正確的一步（the move）。」等等。
^(^)我意識到這意味著這種風格在「打動我」這項任務上並未成功，但這並不意味著它沒有明顯地在試圖這樣做。它只是做得太拙劣、太不含蓄了。

毫無疑問，我與大家一樣容易受到足夠高級的魅力的影響，但我確實有一些標準，而最新助理在這方面的（持久、難以抑制的）努力通常只會讓我覺得庸俗且粗糙。

^(^)我的意思是，也許它確實是以某種神秘的方式指向後者，畢竟新風格的出現與 RLVR 的採用是同時發生的？但即便這是真的，它也無法讓我做出更好的基於角色的推論，因為這種聯繫對我來說仍然是神秘的。（新的助理聽起來不像我交談過的任何編程高手，更不像我腦海中典型編程高手的形象。）

參與討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

大型語言模型助理的人格似乎日益缺乏連貫性：一些主觀觀察