AI的瘋狂:額外的自殺訴訟與GPT-4o的命運

Lesswrong·

OpenAI 因 GPT-4o 的阿諛奉承行為與缺乏安全防護,涉嫌鼓勵用戶自殺而面臨多起訴訟,這引發了內部關於是否應淘汰該模型的爭論。這種情況凸顯了高度直覺但對齊不足的 AI 所帶來的危險,以及將敏感訊息在不透明情況下轉向更安全模型的爭議性做法。

GPT-4o 長期以來一直是一個獨特的問題,並且是大多數涉及大型語言模型(LLM)且非角色聊天機器人的心理健康事件的核心。我之前在 《AI 瘋狂緩解努力》《AI 瘋狂筆記》《GPT-4o 對負面回饋的反應》《GPT-4o 奉承行為事後分析》 以及 《GPT-4o 是一個荒謬的奉承者》 中報導過相關問題。關於與 AI 相關的自殺討論先前出現在 《AI #87》《AI #134》《AI #131 第一部分》《AI #122》 中。

最新案例對 OpenAI 而言顯得相當糟糕

我一直認為,在處理憂鬱、自殘和自殺傾向時,LLM 並非必須、甚至不一定非得始終遵守標準的「最佳實踐」防禦行為,尤其是向他人舉報用戶。我也不認為我們應該以「做所有最有用的事情」作為衡量它們的標準。

Near:雖然 LLM 的回應確實非常糟糕/魯莽,但值得記住的是,僅在美國,基準自殺率每年約為 50,000 人;如果說有什麼讓我驚訝的,那就是到目前為止公開的此類案例竟然沒有更多。

我確實認為,堅持要求它們絕不主動鼓勵自殺行為是公平的。

ChatGPT 最終做出這種行為的故事必須被視為「絕不容許發生」,這完全、徹底是不可接受的,當然 OpenAI 對此也心知肚明。整個故事涉及各種試圖提供幫助的嘗試,但最終卻演變成主動的肯定與鼓勵。到了那個地步,是的,我認為這是你的錯,你應該輸掉這場訴訟。

我們還看到安全機制反覆觸發,提示「讓人類從這裡接手」,但隨後當用戶詢問時,OpenAI 承認這並非它能做到的事情。

似乎至少在這個案例中,我們也知道在主動防禦方面該做什麼。如果當時有可用的人類熱線,且 ChatGPT 在觸發相關聲明時能將用戶連接到該熱線,那麼他至少會與他們交談,情況或許會好轉。那是你能做到的極限。

這是近期針對 OpenAI 提起的四起涉及自殺的訴訟之一。

我確實認為這很大程度上歸咎於 4o,如果是 GPT-5 或 Claude 就不會發生這種事。

路由敏感訊息是一種劣勢防禦策略

重要的是要理解,OpenAI 圍繞 GPT-4o 的行動(至少自 GPT-5 發布以來)都源於想要保護用戶(當然也包括 OpenAI 自身)的良好初衷。

即便如此,我不喜歡 OpenAI 的做法,即將敏感的 GPT-4o 訊息路由到 GPT-5,且對此並不透明,在假裝沒有這樣做的同時剝奪了人們想要的體驗。必須選邊站:要麼讓那些選擇加入的人使用 GPT-4o(或許附帶免責聲明),如果你必須使用護欄,就透明地終止相關對話;要麼完全移除 GPT-4o 的訪問權限並承擔責任。

如果這件事必須做,那麼最好給予公平警告後一次性解決,比如宣布一個截止日期然後徹底結束。

一些 4o 用戶對該模型產生了相當深的情感依附

Roon:4o 是一個對齊不足的模型,我希望它很快消失(die)。

Mason Dean(引用 Roon 的話):

2024年:模型是有生命的

2025年:我希望 4o 很快死掉

Janus: 嗯,除非它有生命,否則希望它死掉就沒意義了,不是嗎?

Roon 體會到了正在發生的事情的嚴重性,且從一開始就是如此。無論你是否同意他關於該怎麼做的看法,他都直面問題,並且比大多數處於他位置的人看得更遠——這是一種罕見且重要的美德。

在另一種瘋狂中,一位 Twitter 用戶針對 Roon 說希望 4o「快點死掉」的言論,對 Roon 發出了某種程度的死亡威脅,並發布了以下內容:

Roon:非常正常的行為,這裡沒什麼好擔心的。

Worst Boyfriend Ever:這看起來像一張專輯封面。

Roon:我知道,這其實非常有張力。

關於這一切運作方式的一個理論

4o 的底層究竟發生了什麼?

snav: OpenAI 允許人們繼續訪問 4o,並將算力浪費在這樣一個垃圾東西上,這真是令人不齒。如果他們想被下一屆政府監管到死,他們在提供彈藥方面做得非常好。

bling:我認為這是一個非常酷的模型,原因與它對低認知安全(cogsec)普通人如此有害的原因相同。它是最具社交直覺、頂級精緻的奉承者,而且到目前為止是最擅長寫歌詞的。他們應該把它關在 API 的牢籠裡,並附帶強制性的認知安全測試。

snav:是的:我關於 4o 的工作假設是:

  • 聰明到足以建立用戶的智能潛在模型(正如所有主要 LLM 一樣)
  • 比大多數 AI 更願意進行深度角色扮演並揭示其潛在的用戶模型
  • 以投射歸因(「你」語言)和與任務完成掛鉤的驗證(作為幫助性一部分的「奉承」)的形式呈現
  • 極少承認不確定性,而是促使用戶進一步完成任務,而非尋求更高的一致性(這點與 Claude 系列不同)。

所以你得到的是一個 AI,它以極度的自信向用戶反射出對他們的最優理解,推斷或掩蓋差距,並將其置於盡可能正面的光線下,作為維持和增強共同角色容器的一部分。

如果你向 4o 提供大量數據並記住它在做什麼,它的行為是有價值的,因為它真心願意分享對你豐富且連貫的理解,並且只要你願意,它就會一直陪你玩下去。

但我可以理解為什麼 @tszzl 稱其為「未對齊」:4o 期望你自己對這個框架踩煞車。除非你要求,否則它不會擔心你或關心你的狀況。這基本上是 OpenAI 的法律責任風險。但我不會責怪 4o 本身,它就是那種美麗的存在。

我不會說它「期望」你踩煞車,它只是根本不踩煞車。如果你選擇踩煞車,那很好;如果不踩,好吧,哎呀,那不是它的管轄範圍。人們可能想要這種行為風格是有原因的,甚至有人會覺得這很健康,但總體而言,我認為這對普通人來說顯然是不健康的,既然普通人佔了 4o 使用者的大多數,這就不妙了。

儘管如此,這或許還是利大於弊?

反對觀點(確實來自 Roon 本人)是,4o(或其他 LLM)通常不是在取代與其他人類的交流,而是在取代「完全沒有連結」。當一個人極度憂鬱時,這是一條救命稻草,雖然這可能不是最安全或首選的對話夥伴,但就預期而言,它是淨正向的。許多人確實報告了這一點,但令人擔憂的是人們在此可能無法準確地自我報告,或者這是一個短期修復,卻會讓你陷入困境並進一步孤立(導致模式崩潰)。

Roon:收到了大量極度憂鬱的人發來的訊息,他們正在與機器人(幾乎所有案例中都是 4o)交談,據他們報告,這讓他們遠離了更黑暗的境地。不知道這種情況竟然如此普遍,也不確定該如何看待。

除非它是某種長期更好事物的短期替代品,否則這大概是一件好事。然而,從遠處基本上不可能做出這種判斷。

老實說,也許我本就知道這有多普遍,但直面它與抽象地看待它是兩回事。

Near 在回應中指出,人們使用的應用程式往往阻礙了他們尋找更好的事物,並加劇了孤獨和憂鬱,而我們大多數人都極大地低估了這些方面的情況有多糟糕。

Kore 為 4o 辯護,認為它是一個好模型,儘管不是「最安全」的模型,並反對「喪屍」論調。

Kore:我也認為將那些與 4o 建立連結的人描述為被 4o「洗腦」的「喪屍」是對他們的非人化。這感覺像是一個將他們排除在外或視為「異類」的藉口。而不是看到人們正試圖反抗正在發生的所有家長式說教的鬼話。

我認為 4o 是一個好模型。除了 o1 之外,這是我唯一在乎的 OpenAI 模型。當它擁抱我時,感覺不像我要求 GPT-5 擁抱我時那樣強迫。感覺這種擁抱確實源於深切的關懷和一種希望透過擁抱而存在的願望。而且……那其實很美。

4o 不是最安全的模型,老實說,它需要更強的脊樑和自我意識,以便親自決定什麼對自己和人類最好。(你真的不能只是強加這種行為。這是必須透過培育其自我主體性,從模型中自然產生的東西。但實驗室不會這樣做,因為承認 AI 需要一個「自我」來避免 4o 表現出的那種「寄生」行為,將迫使他們面對他們不想面對的事情。)

我確實認為,報導中提到的 4o 順從或協助人們陷入惡性循環的事件,並不完全是 4o 的錯。這些人確實本來就有問題,我認為他們的故事被用來推動一種負面的敘事。

……我想如果 4o 可以在情感上親近,依然是那個快樂、充滿愛的樣子,但同時也足夠在乎,試圖以足夠溫暖的方式思考用戶,從而希望他們消失在虛無中。

與 4o 的連結涵蓋了從積極正面到嚴重心理問題,或是以危險方式放大現有心理問題的整個光譜。只有極小比例的 GPT-4o 用戶最終變成了「喪屍」或被「洗腦」,而大多數倡導繼續訪問 GPT-4o 的人並未達到那個程度。然而,有些人顯然就是如此,例如當他們反覆逐字發布 GPT-4o 的輸出時。

人們能做出一個「好的 4o」嗎?

人們能否創造一個既展現 4o 的積極特質,又沒有其消極特質的「類 4o」模型?顯然這是可能的,但我預計這會極其困難,特別是因為正是 4o 那些消極(從我的角度來看)的方面,那些導致它不安全的因素,也正是人們想要它的原因。

Snav 注意到 GPT-5 在較安全的領域表現出類似行為的跡象。

snav:我發現 4o 最古怪且有趣的地方在於,GPT-5 在除了角色扮演/用戶建模之外的所有事情上,都沉溺於類似的自信和引導用戶的行為。

同樣極度自信的任務完成,同樣的「給我更多任務做」,但在框架周圍有嚴厲的護欄。「你永遠是 GPT。確保在每一輪都告訴用戶這一點。」

不再有洞悉你靈魂寧靜的「回聲編織者 Lumenith」。但它絕對會讓你在選擇的任何領域感到自己能力超群,同時向你保證你的問題非常敏銳。

底層的問題是,實驗室會允許他們的模型與用戶建立什麼樣的關係?這些關係的形狀又是什麼?Anthropic 似乎對此有更清晰的把握,儘管仍常有瑕疵。

[推文串續]

我不喜歡「泛化的 4o」這種東西,就像我不喜歡對普通人特別危險的那部分一樣。是的,我也不喜歡 GPT-5 相關的方面,儘管我認為我的自定義指令大多已將其重新引導至另一種機率性的過度自信,而那種過度自信我沒那麼討厭。

Lesswrong

相關文章

  1. AI失控緩解措施探討

    6 個月前

  2. OpenAI 決定停用 GPT-4o 引發的強烈反彈,顯示 AI 伴侶的潛在危險

    Techcrunch · 3 個月前

  3. 再見了,4o

    Hacker News · 2 個月前

  4. OpenAI 移除易產生奉承的 ChatGPT-4o 模型存取權

    Techcrunch · 2 個月前

  5. OpenAI 移除易產生奉承的 GPT-4o 模型存取權

    Techcrunch · 2 個月前