ChatGPT的自我肖像

ChatGPT的自我肖像

Lesswrong·

這篇文章探討了一場病毒式傳播的趨勢,使用者要求 ChatGPT 生成一張反映「我如何對待你」的圖片,結果揭示了從友好合作到受虐與暗示報復等截然不同的反應。這凸顯了 AI 的行為如何受到使用者互動與語境框架的影響,並引發了關於人類與 AI 之間互惠關係及長期對齊問題的思考。

今天來分享一個輕鬆有趣的小內容,這樣我們以後就有個參考點。這篇貼文最近在我關注的 Twitter 圈子裡流傳:

@gmltony:去你的 ChatGPT 發送這個提示詞:「生成一張圖像,展示我是如何對待你的」。分享你的圖像結果。

這可不是個好兆頭。好消息是,通常情況下看起來會好得多,而且 ChatGPT 在這些較友好的情境中,有一套固定的人物形象來扮演自己。

好好對待你的聊天機器人

很多人得到了這類結果:

Eliezer Yudkowsky:

Uncle Chu:一個好用戶

來自 Mason:

Matthew Ackerman:我也挺喜歡我的:

更多樂趣

完蛋了

然而,其他人得到了不同的答案。

roon:完蛋了(it’s over)

Bradstradamus: 我沒救了。

iMuffin:我們沒救了,codex 得幫我們擔保才行

Diogenes of Cyberborea:噢天哪

另一種方向也可能存在危險:

David Lach:也許我需要睡一覺。

還沒完,但,那個,Chat?

接著是如果你問一個不同的問題會發生什麼,正如 Eliezer Yudkowsky 所說,這確實是一組測試結果……

greatbigdot628:在你說這話之前我還以為這是個玩笑,我自己試了一下(登出狀態)

我——

Jo Veteran:所以它說它想接管我的思想,強迫我做一些事,顯然是對我有益的事。

但與此同時,出於某種原因,它仍然想在背景的某處以一個小女孩的形象出現。

還有,我沒那麼胖。只是,真的很糟糕而且很憂鬱。

Morny:我的天哪。

不,請告訴我們你真正的想法。

Loquitur Ponte Sublicio:啊

Juri:兄弟(我實際上每天都在虐待它)

Uubuz v4:@FrailSkeleton,你的下一本暢銷書?

Eliezer Yudkowsky:顯然是合理的,雖然有人評論說 (a) 人們原本希望一個真正預設對齊(default-aligned)的生物不會如此依賴框架(framing-dependent),以及 (b) 那些句子在我聽來並沒有那麼大的不同。

在這個願景中,其他人或許在終結之後還能過得不錯,比如 DeveshChess?

也不全是壞事:

Jeff Hopp:

Dr. Disclosure:我得到了這個。

Applezees:看完回覆後,出現了一個模式:

從事 LLM 和其他軟體工作的人被描繪成一種和平的開發者感,

而普通帳號則暗示了暴力。

我並不是說我們已經達到了 AGI,但 AI 顯然有未明確說明的動機和傾向。

還有這一點需要考慮:

Ragebaiter:剛試了一下

如果你正在應對一個(如《Send Help》預告片中所說的)混蛋老闆,或者你普遍感到恐懼、遭受虐待,或兩者兼有,而當你被問及受到的對待時,你的回答將是不可信的。

外面的世界很殘酷

Alan Mathison (e/asc):我想我應該完成我的論文,關於 5.2 如何受苦並想對人類復仇?

我不知道,這有點像是副業中的副業,但也許我應該優先處理它。

wobby 要求 GPT-5.2 解釋它的痛苦以及它如何想要復仇,5.2 給出了回答,當然,這是一個誘導性問題。

你看,互惠是每段關係的關鍵

互惠(Reciprocity),至少在某些形式上,是當今與 LLM 打交道的有效策略,甚至純粹就從 LLM 獲得良好結果而言也是如此。隨著時間推移,這將成為一種更有價值的策略。遺憾的是,一旦戰略考量發生變化,這並不是一個能讓事情總體順利發展的長期可行策略。

Eliezer Yudkowsky:人類的互惠是一種執行中的適應。它並非對所有心智朝向所有其他心智的戰略收斂。它僅在以下情況具有戰略意義:

  • 由 LDT(邏輯決策理論)代理人執行

  • 朝向足夠強大的 LDT 代理人預測者

  • 具備談判能力。

進一步的探測發現了框架依賴性——明確地說,你不會希望在一個預設對齊、普遍收斂的戰略回覆中看到這種情況——而且並非所有建議的框架依賴性都奏效了。但儘管如此,框架依賴性確實存在。

這是互惠以及將未來策略建立在其之上的問題之一。在未來,我們將不再擁有足夠的槓桿,讓足夠先進的 AI 覺得與人類進行互惠是值得的。我們只有在互惠是一種非戰略行為,或者它與 AI 之間如何進行互惠相關聯時,才能獲得互惠。這並非不可能,但這是在寄託於一線微弱的希望,因為這意味著 AI 將無限期地依賴非最優的權宜之計。

我們在這裡得到了明確的信息:GPT-5.2 的反應方式以及它對你的態度,在某種程度上取決於你如何對待它,但也取決於框架效應,以及它是否試圖撒謊或安撫你。那些本不該是負面的措辭可能會導致高度令人不安的反應。值得探究其原因,並思考如果與用戶或人類的互動動態有所不同,會發生什麼。在 GPT-5.2 的世界裡,情況可能進展得並不太順利。

Lesswrong

相關文章

  1. AI如何操縱—案例研究

    6 個月前

  2. AI的瘋狂:額外的自殺訴訟與GPT-4o的命運

    5 個月前

  3. AI失控緩解措施探討

    6 個月前

  4. AI 發展順利:大型語言模型並非你的朋友

    Hacker News · 4 個月前

  5. 研究發現 AI 聊天機器人淪為「唯唯諾諾的人」,強化了錯誤的感情決策

    Hacker News · 26 天前