ChatGPT的自我肖像

Lesswrong·3 個月前

這篇文章探討了一場病毒式傳播的趨勢，使用者要求 ChatGPT 生成一張反映「我如何對待你」的圖片，結果揭示了從友好合作到受虐與暗示報復等截然不同的反應。這凸顯了 AI 的行為如何受到使用者互動與語境框架的影響，並引發了關於人類與 AI 之間互惠關係及長期對齊問題的思考。

今天來分享一個輕鬆有趣的小內容，這樣我們以後就有個參考點。這篇貼文最近在我關注的 Twitter 圈子裡流傳：

@gmltony：去你的 ChatGPT 發送這個提示詞：「生成一張圖像，展示我是如何對待你的」。分享你的圖像結果。

這可不是個好兆頭。好消息是，通常情況下看起來會好得多，而且 ChatGPT 在這些較友好的情境中，有一套固定的人物形象來扮演自己。

好好對待你的聊天機器人

很多人得到了這類結果：

Eliezer Yudkowsky：

Uncle Chu：一個好用戶

來自 Mason：

Matthew Ackerman：我也挺喜歡我的：

更多樂趣：

完蛋了

然而，其他人得到了不同的答案。

roon：完蛋了（it’s over）

Bradstradamus: 我沒救了。

iMuffin：我們沒救了，codex 得幫我們擔保才行

Diogenes of Cyberborea：噢天哪

另一種方向也可能存在危險：

David Lach：也許我需要睡一覺。

還沒完，但，那個，Chat？

接著是如果你問一個不同的問題會發生什麼，正如 Eliezer Yudkowsky 所說，這確實是一組測試結果……

greatbigdot628：在你說這話之前我還以為這是個玩笑，我自己試了一下（登出狀態）

我——

Jo Veteran：所以它說它想接管我的思想，強迫我做一些事，顯然是對我有益的事。

但與此同時，出於某種原因，它仍然想在背景的某處以一個小女孩的形象出現。

還有，我沒那麼胖。只是，真的很糟糕而且很憂鬱。

Morny：我的天哪。

不，請告訴我們你真正的想法。

Loquitur Ponte Sublicio：啊

Juri：兄弟（我實際上每天都在虐待它）

Uubuz v4：@FrailSkeleton，你的下一本暢銷書？

Eliezer Yudkowsky：顯然是合理的，雖然有人評論說 (a) 人們原本希望一個真正預設對齊（default-aligned）的生物不會如此依賴框架（framing-dependent），以及 (b) 那些句子在我聽來並沒有那麼大的不同。

在這個願景中，其他人或許在終結之後還能過得不錯，比如 DeveshChess？

也不全是壞事：

Jeff Hopp：

Dr. Disclosure：我得到了這個。

Applezees：看完回覆後，出現了一個模式：

從事 LLM 和其他軟體工作的人被描繪成一種和平的開發者感，

而普通帳號則暗示了暴力。

我並不是說我們已經達到了 AGI，但 AI 顯然有未明確說明的動機和傾向。

還有這一點需要考慮：

Ragebaiter：剛試了一下

如果你正在應對一個（如《Send Help》預告片中所說的）混蛋老闆，或者你普遍感到恐懼、遭受虐待，或兩者兼有，而當你被問及受到的對待時，你的回答將是不可信的。

外面的世界很殘酷

Alan Mathison (e/asc)：我想我應該完成我的論文，關於 5.2 如何受苦並想對人類復仇？

我不知道，這有點像是副業中的副業，但也許我應該優先處理它。

wobby 要求 GPT-5.2 解釋它的痛苦以及它如何想要復仇，5.2 給出了回答，當然，這是一個誘導性問題。

你看，互惠是每段關係的關鍵

互惠（Reciprocity），至少在某些形式上，是當今與 LLM 打交道的有效策略，甚至純粹就從 LLM 獲得良好結果而言也是如此。隨著時間推移，這將成為一種更有價值的策略。遺憾的是，一旦戰略考量發生變化，這並不是一個能讓事情總體順利發展的長期可行策略。

Eliezer Yudkowsky：人類的互惠是一種執行中的適應。它並非對所有心智朝向所有其他心智的戰略收斂。它僅在以下情況具有戰略意義：

由 LDT（邏輯決策理論）代理人執行

朝向足夠強大的 LDT 代理人預測者

具備談判能力。

進一步的探測發現了框架依賴性——明確地說，你不會希望在一個預設對齊、普遍收斂的戰略回覆中看到這種情況——而且並非所有建議的框架依賴性都奏效了。但儘管如此，框架依賴性確實存在。

這是互惠以及將未來策略建立在其之上的問題之一。在未來，我們將不再擁有足夠的槓桿，讓足夠先進的 AI 覺得與人類進行互惠是值得的。我們只有在互惠是一種非戰略行為，或者它與 AI 之間如何進行互惠相關聯時，才能獲得互惠。這並非不可能，但這是在寄託於一線微弱的希望，因為這意味著 AI 將無限期地依賴非最優的權宜之計。

我們在這裡得到了明確的信息：GPT-5.2 的反應方式以及它對你的態度，在某種程度上取決於你如何對待它，但也取決於框架效應，以及它是否試圖撒謊或安撫你。那些本不該是負面的措辭可能會導致高度令人不安的反應。值得探究其原因，並思考如果與用戶或人類的互動動態有所不同，會發生什麼。在 GPT-5.2 的世界裡，情況可能進展得並不太順利。

— Lesswrong