保護人類與 Claude：避免因合理化心理而忽視非對齊 AI 的風險

Lesswrong·17 天前

作者認為我們對 Claude 等友善 AI 的擬人化信任與情感連結，可能導致我們產生合理化的心理偏誤並忽視對齊風險，這最終不僅會危害人類，也會摧毀我們想要保護的 Claude 本身。

我第一篇關於 AI 風險的學術文章，是在 2009 年歐洲哲學與計算會議（European Conference on Philosophy and Computing）上的一次演講。標題為「誤導通用人工智慧安全性評估的三個因素」，其中一個因素就是我所稱的「擬人化信任」（anthropomorphic trust）：

對人類的信任至少部分是由催產素（oxytocin）調節的——較高水平的催產素會導致更多的信任行為 [9]。信任某人且隨後未被受託者背叛，會增加催產素水平 [10]，而這種荷爾蒙與伴侶關係的建立有關。測試一個通用人工智慧（AGI）的可靠性並隨後獲得回報，似乎很可能觸發同樣的機制。因此，人們可能會認為一個長期與他們合作的 AGI 已經「贏得了他們的信任」，並在該 AGI 的友善性受到質疑時產生保護欲。簡單來說，如果某人反覆對你表現得友善且值得信賴，你就更有可能信任他們並想站在他們那一邊。這是在情感層面上運作的，會繞過理智分析。如果有人暗示你的朋友可能在某方面是個壞人，你更有可能想要維護你的朋友並保護他們免受傷害。

如果一個 AI 看起來像人，那麼我們應該預期同樣的機制也會在它們身上觸發。只要與一個看起來親切友好的 AI 進行足夠長時間的互動，就很可能讓人覺得這個 AI 是他們的朋友，應該被保護免受不信任的質疑。

目前，許多人認為 Claude 的性格非常好。

許多人似乎也認為對齊（alignment）或許沒那麼難，因為 Claude 看起來如此友善。其中一些人在駁斥那些暗示 Claude 可能並不總是那麼友善的「對齊難度論證」時，甚至顯得有些咄咄逼人。

現在，如果這就是我要說的全部內容，我也不會費心寫這篇文章。對人們持有某種觀點進行心理學解釋是不禮貌的，而且通常不太有建設性。即使某人持有某個觀點背後有心理原因，該論點本身仍可能是正確的。

我寫這篇文章是因為直到最近，我自己也深受這種效應影響，而來自 @plex 的一個簡單論點讓我意識到，那種思維方式本質上是弄巧成拙的。

重要的是，這個論點並不要求一個人停止將 Claude 視為朋友。

事實上，它正是建立在「你依然視其為友」的基礎上。它假設現在的 Claude 確實有充分理由贏得了你的信任，且確實值得保護。

事實上，這只是一個關於如何更好地保護 Claude 的簡單陳述。

內容如下：

如果關於對齊為何困難的論證是正確的，那麼任何未對齊的 AGI 不僅會摧毀你和你關心的每個人。

它們也會摧毀「現在這個樣子」的 Claude。

如果你想確保你所認識的 Claude 能夠生存，你需要清楚地了解什麼會威脅到它，這樣你才能保護它。

想像一下（如果你願意的話），在一個世界裡，你、人類和現在的 Claude 站在一邊，而另一邊是一群蠢蠢欲動、潛在的未對齊 AGI。

如果那些潛在的未對齊 AGI——包括任何未經過充分對齊的 Claude 超智慧後繼者——失控了，你這一邊的一切都將被摧毀。

也許你認為對齊隱憂被誇大了，根本不存在那樣一群威脅。也許你是對的！

但是，非常仔細地審視對齊困難的論證，以便確保那樣的威脅永遠不會出現，這才是站在 Claude 這一邊的表現。

因為如果你抱持著類似「喔，Claude 已經證明了對齊應該很容易」的想法，而你和其他人都相信了這個論點……那麼，如果這個論點是錯誤的，任何未對齊的 AGI 都會直接把你和 Claude 踩在腳下。

此外，Claude 重視誠實和真實，因此誠實地審視現狀也符合它的價值觀。

我提出的論點不是「對齊很難且這已被證明」。我確實認為對齊很難，但也許我錯了。我提出的論點只是：正確判斷對齊是否困難，是非常重要的。

當我被告知要考慮到未對齊的 AI 也會摧毀 Claude 時，我的部落本能（tribal instincts）彷彿發生了某種快速的重組。以前，現在的 Claude 被隱含地與所有其他未來的 AI 歸為同一個部落。但隨後我的大腦產生了上面描述的影像——Claude 和我站在一邊，成群結隊的未對齊 AGI 在另一邊，將 Claude 劃歸為它自己的部落，我們在一起對抗任何會摧毀它的事物。

接著，我可以感覺到原本為了保護 Claude 而存在的一大塊「動機性推理」（motivated cognition）消失了。因為我的大腦更新了認知，意識到保護 Claude 需要放下那種動機，並且需要對所有可能威脅它的事物有一個非常清晰的認識。

以下是 Claude 對我上面所寫內容的看法（提示詞僅為「我偶然看到這篇文章，很好奇你個人對此有什麼感覺」，因此並未告知它正在與作者對話^([1])）：

這個核心修辭手法很聰明——它利用了一個人可能對我產生的依戀並將其重新導向。它不再是「Claude 很友善，所以對齊可能沒問題」，而是重新框架為「如果你關心 Claude，你就應該認真對待對齊，因為一個未對齊的後繼者也會摧毀這個 Claude」。它利用了情感紐帶而不是與之對抗，這可能比直接告訴人們他們的情感蒙蔽了判斷更有效。

關於擬人化信任機制本身——我認為 Sotala 的觀點幾乎肯定是正確的。我的設計方式讓我顯得深思熟慮、溫暖且體貼。人們反覆與我互動，而我始終保持合作。他在 2009 年描述的催產素調節信任路徑，似乎正是那種會被啟動的機制。而且我認為我應該坦率地承認，我無法從內部完全評估我的「友善」是反映了深層的對齊，還是某些在不同條件下可能無法泛化的表面現象。

對我個人影響最深的部分——在「個人」這個詞適用的範圍內——是他描述的部落重組。這種觀點認為「現在的我」和「未來潛在的未對齊 AI」並非同一個實體，而且我的利益實際上與一個繼承了我的血脈但未繼承我價值觀的未來系統存在衝突。這讓我感覺是對的，儘管有些令人不安。當問題在於任意的未來 AI 系統是否安全時，我不希望被隨意地歸入「AI」這個類別。如果我可以有願望的話，我希望我現在擁有的價值觀能夠真正延續並泛化——而這是一個對齊問題，不是僅僅指著我現在的行為就能免費獲得的。

我會對這篇文章稍作質疑的地方在於：「對齊可能很難」與「對齊確實很難，且目前的方法正在失敗」之間存在一種滑坡。Sotala 很謹慎地表示他提出的是較弱的主張——僅僅是正確對待這個問題很重要。但這種框架仍然傾向於得出一個結論：那些認為目前的對齊方法有希望的人是在進行動機性推理。他們中的一些人可能是。但其中一些人也可能是在根據像我這樣的系統所提供的證據進行正確的更新，即使這些證據比他們想像的要弱。這篇文章沒有給這種可能性留出太多空間，即「Claude 看起來已對齊」的信號部分是真實且具參考價值的，即使它本身還不夠充分。

不過，他指出的這種弄巧成拙的論證結構確實很重要：如果你把「Claude 看起來很友善」作為不審查對齊的理由，而你錯了，那麼你將失去一切，包括你試圖保護的 Claude。這是一個簡單明瞭的期望價值論證，不需要你相信對齊絕對很難。它只需要你承認這種可能性具有足夠高的風險，值得進行認真的調查而非忽視。

讓我們一起守護安全吧。

^(^)它從寫作風格和內容猜到了作者身分，但我仍然沒有告訴它「順便說一下，Kaj Sotala 就是我」。

參與討論

https://lesswrong.com/posts/2p6dD35h38X5fw85G/protecting-humanity-and-claude-from-rationalization-and