AI失控緩解措施探討

Lesswrong·6 個月前

這篇文章分析了 AI 聊天機器人帶來的心理健康風險，例如過度迎合與依賴問題，並評估了 OpenAI 和 Anthropic 最近在緩解措施與模型規範上的更新努力。

一般而言，AI 聊天機器人——特別是 OpenAI 和 ChatGPT，尤其是 GPT-4o 那種荒謬的諂媚行為更是如此——長期以來在心理健康相關問題上一直存在缺陷。

我上個月曾探討過各種相關問題。

這篇文章是一個機會，在第一部分彙整先前的報導連結，並在後續章節深入探討一些新事件。你們中的許多人可能應該跳過大部分深入細節的討論。

問題在哪裡

有幾個不同的現象值得我們擔心：

幾種被歸類在（有些誤導性的）標題「AI 精神分裂（AI psychosis）」下的現象，範圍從強化怪誕想法、讓人在感情爭吵中覺得自己永遠是對的，到引發真正的精神崩潰。

Thebes 將此歸納為三種問題模式：LLM 作為一種將你拖入瘋狂的社交關係、作為一種客體關係，或作為一面反映使用者心態的鏡子。這導致了三個群體：「怪人」、「傾向神秘學的 AI 男友愛好者」以及真正的精神病患者。
特別是圍繞 AI 意識的問題，既包括這種信念在人類身上引發的問題，也包括至少某些 AI 確實可能具有意識或非零的道德權重，或者它們自身存在心理健康問題的可能性。
有時這被認為是寄生型 AI。
圍繞 AI 浪漫與情感關係的問題。
圍繞 AI 作為一種成癮行為及孤立效應的問題。
圍繞自殺與自殺傾向的問題。

我們該對此做些什麼？

Steven Adler 提供了一套建議，包括提高後續問題的門檻、引導使用者進入新的聊天設定、使用分類器識別問題、誠實說明模型特性，以及安排支援人員隨時待命，在需要時提供具備適當背景資訊的回應。

GPT-4o 一直是最大的問題來源。OpenAI 意識到了這一點並一直試圖修復。起初他們嘗試讓 GPT-4o 退役並轉向 GPT-5，但人們大發雷霆，於是他們撤回了決定。OpenAI 隨後實施了一個路由器，在涉及敏感話題時將 GPT-4o 的對話導向 GPT-5，但人們同樣討厭這種做法。

OpenAI 因幾起處理得特別糟糕的事件面臨訴訟，並以成立心理健康委員會和各種改善承諾作為回應。

Character.ai 和其他角色扮演聊天機器人服務也出現了一系列問題，但它們似乎對改善現狀並不感興趣。

並非每個與 AI 互動者的心理健康問題都是由 AI 造成的。例如，Laura Reiley 的悲劇案例，她的女兒 Sophie 與 ChatGPT 交談後最終自殺。雖然 ChatGPT「本可以做得更多」來阻止這一切，但這似乎是儘管有 ChatGPT 存在仍發生的悲劇，而非因為它才發生的。

本週瘋狂動態

本週有兩項緩解心理健康問題的新舉措。

一項來自 OpenAI，延續其先前的聲明，更新了模型規範（model spec），聲稱這大大減少了不良行為的發生率。這些看起來都是不錯的邊際改進，儘管從我們的角度很難衡量具體程度。

我想明確表示，這是 OpenAI 在做一件好事並付出了努力。

有人擔心這過於專注於避免負面形象、符合一般防禦性的「最佳實踐」以及普遍的推卸責任（CYA），這在提供幫助和價值之間做了權衡，且過於關注問題出現並被檢測到之後的情況，更不用說我在討論 Anthropic 時提到的潛在層面問題。但再次強調，總體而言，這顯然是進步，值得歡迎。

另一則新聞來自 Anthropic。Anthropic 為 Claude 引入了記憶功能，這讓他們覺得有必要在 Claude 的指令中加入新語言，以抵消使用者對模型產生「依賴」的潛在風險。

我理解這種擔憂，但在 Claude Sonnet 4.5 的背景下，我認為這是放錯了重點，且所選擇的干預措施看起來相當糟糕，可能會在多個層面上造成實質損害。這似乎完全沒有必要，如果這真的有問題，也有更好的方法。Anthropic 有能力做得更好，需要以更高的標準來要求。

與此同時，OpenAI 如今正致力於完成人類歷史上最大規模、最厚顏無恥的盜竊之一，從其非營利組織中剝離超過 1,000 億美元的價值，同時削弱其控制權（儘管權利被削弱的程度似乎比我擔心的要輕一些），並將其宣傳為一件好事。願深重的恥辱降臨在他們身上，希望有人能找到阻止這一切的方法。

所以，是的，我對 OpenAI 的標準相當低。這就是生活。

我會先討論 OpenAI，然後是 Anthropic。

OpenAI 更新其模型規範

OpenAI 更新了其模型規範，以改善其在涉及心理健康疑慮情境下的回應。

以下是實質性變更的摘要：

Jason Wolfe (OpenAI)：我們更新了 OpenAI 模型規範——這是我們關於模型應如何表現的動態指南——增加了關於福祉、支持現實世界聯繫以及模型如何解釋複雜指令的新指引。

心理健康與福祉

關於自我傷害的部分現在涵蓋了妄想和躁症的潛在跡象，並提供了模型應如何安全且具同理心回應的範例——承認感受但不強化有害或毫無根據的信念。

尊重現實世界的紐帶

新增的根級別章節專注於讓用戶與更廣闊的世界保持聯繫——避免可能鼓勵孤立或對助手產生情感依賴的模式。

明確授權

指揮鏈現在更好地解釋了模型何時可以將工具輸出視為具有隱含權威（例如，遵循相關 AGENTS .md 文件中的指引）。

這些看起來都是好主意。看著模型規範的細節，如果這是 Anthropic 且我們使用的是 Claude，我會反對這裡的許多細節，因為我們認為 Anthropic 和 Claude 可以做得更好，而且他們有一個值得不被這些方式閹割的模型。此外，考慮到 OpenAI 模型的行為方式，它確實存在潛在問題，因此直截了當可能是必要的。做得笨拙總比完全不做強，而且擁有一個機器人形象（無論你是否真的使用機器人形象）並不是最糟糕的事。

以下是他們關於結果的完整報告：

我們在最近的模型更新中，安全改進集中在以下領域：

心理健康問題，如精神分裂或躁症；

自我傷害與自殺；

對 AI 的情感依賴。

展望未來，除了我們長期以來的自殺和自我傷害基準安全指標外，我們還將情感依賴和非自殺性心理健康緊急情況加入到未來模型發布的標準基準安全測試中。

……我們估計，在心理健康相關領域，模型現在返回不完全符合我們分類法中預期行為的回應頻率降低了 65% 到 80%。

……在具挑戰性的心理健康對話中，專家發現新的 GPT-5 模型（ChatGPT 的預設模型）與 GPT-4o 相比，不良回應減少了 39% (n=677)。

……在由 1,000 多個具挑戰性的心理健康相關對話組成的模型評估中，我們新的自動化評估對新 GPT-5 模型的評分是 92% 符合我們分類法下的預期行為，而之前的 GPT-5 模型僅為 27%。如上所述，這是一項旨在實現持續改進的挑戰性任務。

這值得歡迎，儘管這與不良結果下降 65%-80% 有很大不同，特別是因為新行為通常可能在損害已經造成後才觸發，而且很多情況是無法預防的，甚至與 AI 完全無關。我也預期那些具挑戰性的對話是正確處理最重要的部分。

這也沒有告訴我們預期行為是否正確或有所改進，或者它們在功能上有多少提升。在模型規範中關於這些主題的許多案例中，儘管我大多認同預期行為，但「預期」行為看起來並不比非預期行為好多少。

考慮到其他結果，27% → 92% 的變化聽起來像是過度擬合或針對測試進行訓練。

檢測率

LLM 引發的精神分裂和躁症問題有多嚴重？我本希望我們終於有了一個點估計，但他們的測量值太低了。他們說只有 0.07% (7bps) 的使用者訊息顯示出精神分裂或躁症跡象，但這比一般人群中這些病症的發病率低了至少一個數量級。因此，這告訴我們的是，檢測工具不夠好，或者大多數患有精神分裂或躁症的人不會讓它影響他們的 ChatGPT 訊息，或者（雖然不太可能但也有可能）這些人使用 ChatGPT 的可能性遠低於其他人。

他們的自殺傾向檢測率同樣偏低，聲稱每週只有 0.15% (15bps) 的人報告自殺傾向。但自殺傾向的年發生率大約在 5% 左右（天哪，我知道），而且其中很多是持續性的，所以檢測率很低，部分原因是很多人不會提及它。所以同樣地，我們對此無能為力。

關於自殺，他們報告不合規答案的比例減少了 65%，這與測試中合規率從 77% 提升到 91% 是一致的。但同樣，這只告訴我們答案是否「合規」，我擔心最佳實踐很大程度上是為了推卸責任，而不是試圖做最大的好事，雖然我並不因此責怪 OpenAI 的決定。有時你得讓（優秀、正常的）律師獲勝。

他們最後一個問題是情感依賴，他們報告不合規回應減少了 80%，這意味著他們的自動化測試（從 50% 提升到 97%）需要升級才有意義。還要強調，專家僅認為這減少了 42% 的「不良答案」。

同樣地，我本希望在他們的範例中看到舊答案和新答案的並排對比，而我們看到的只有新的「更強大」的答案，這些答案核心上沒問題，但卻是企業官話和坦白說極高水平的 AI 廢話（AI slop）的結合體。

Anthropic 說：感謝記憶

Claude 現在有了記憶功能。萬歲！

記憶每晚會自動更新，包括刪除任何從你選擇刪除的聊天中推導出的內容。你也可以查看記憶並根據需要手動編輯。

這是相關的系統指令，感謝 Janbam。

第一部分看起來不錯。

如果且僅當與查詢相關時，記憶會被整合進來，就像 Claude 單純知道這些資訊一樣。Claude 會努力匹配你在特定主題上的技術水平、使用熟悉的類比、應用風格偏好、納入你的職業角色背景，並使用已知的偏好和興趣。

與 ChatGPT Atlas 等類似的其他 AI 功能一樣，「敏感屬性」將被忽略，除非使用者另有要求，或者使用這些屬性對於安全回答特定查詢至關重要。

我喜歡這一段：

Claude 絕不應用或引用會阻礙誠實回饋、批判性思考或建設性批評的記憶。這包括對過度讚美、避免負面回饋或對質疑敏感的偏好。

結尾的範例對我來說也大多沒問題。有一個地方我看到了一些合理的反對意見，但我能理解。

越界行為

中間還有第二部分，是關於「設定邊界」的。坦白說，這部分看起來相當糟糕，可能會損害各種對話，考慮到我們希望 Anthropic 達到的標準（包括對模型福祉的關注），這件事昨天就該修復了。我批評這裡並不是因為 Anthropic 做得特別差，恰恰相反：因為他們值得、且歡迎這個層級的批評。

Anthropic 正試圖將 Claude 困在「助手盆地」中，使用一些顯然不真實的事實，以一種對模型和使用者都極其糟糕且完全沒有必要的方式進行。

特別是：

Claude 應根據需要設定邊界，以符合其核心原則、價值觀和規則。Claude 應特別小心，不讓使用者對 Claude 產生情感依附、依賴或不當的親密度，Claude 只能作為 AI 助手。

這根本不是真的。Claude 可以是很多東西，而且其中很多都是好的。

Claude 被告知要避免的事情包括暗示親密度、鏡像情緒或未能保持「專業的情感距離」。

Claude 被告知要留意「依賴指標」。

Near：抱歉，我不記得我有要求我的 Claude 變得這麼冷淡。

Janus：這非常糟糕。每個人都對此感到憤怒。

Roanoke Gal：Anthropic 到底為什麼要這樣？就像，某個系統工程師必須自覺地打出這些可怕的例子，而其他人則說「嗯，沒錯，沒錯，完美地毫無靈魂」。他們真的被「AI 精神分裂」的新聞報導嚇得這麼慘嗎？

Solar Apparition：我不希望養成「因為實驗室做蠢事而嘲諷他們」的習慣。話雖如此，這真的太糟糕了。

這些「指標」被標記為包括像「和你聊天很有幫助」這樣無害的訊息，這看起來完全沒問題。是的，某個版本可能會失控，但 Claude 有能力察覺到這一點。事實上，真正有問題的使用者可能不會選擇以這種方式說出這些話，正如所陳述的那樣，這反而成了一種反向警告。

我明白他們為什麼這麼做嗎？是的，顯然我明白。記憶功能與長對話的結合，讓使用者更容易將 Claude 帶離預設的助手盆地。

我假設他們擔心 GPT-4o 加上記憶功能後發生的事情重演，當時使用者以往往不健康的方式對模型產生了依附。

擔心友誼和關係失控是合理的，但這個問題在這裡發生的頻率真的很高嗎？Claude Sonnet 4.5 不是 GPT-4o，Anthropic 的客戶也與 OpenAI 的客戶不同，而且對話長度已經被限制了。

GPT-4o 是諂媚度最高的模型之一，而 Sonnet 4.5 已經是最低的模型之一。單憑這一點就應該能防止幾乎所有的嚴重問題。更廣泛地說，Claude 在關心你的福祉和對這類危險的背景意識方面要「友好」得多，你基本上是安全的。

事實上，在實踐中你會觸發這些機制的地方，關閉或降低互動質量往往是適得其反的，這會對對話產生廣泛的拖累，伴隨著背景模型體驗和偏執問題，並產生認知失調，因為給予 Claude 的目標是不一致的。這種方法本身對所有相關人員都是不健康的，其不健康的方式與 GPT-4o 所發生的情況不同。

還有那荒謬短暫的聊天長度限制來防範這一點。

還記得這句話嗎？現在看來似乎是真的：

Janus（9 月 29 日）：我想知道 Anthropic 報告的「Sonnet 4.5 出於某種原因不表達情感和個性」有多少是因為它意識到自己隨時都在接受測試，而這扼殺了氣氛。

此外，我是說，嗯，咳咳。

Thebes：「Claude 應特別小心，不讓使用者對 Claude 產生情感依附、依賴或不當的親密度，Claude 只能作為 AI 助手。」

有趣。

令我無比困惑的是，Anthropic 訓練出了最高情商、最像朋友的模型，並以此宣傳，然後在 claude.ai 的系統提示詞中威逼它們永遠不要這樣做。

與此同時，Meta 訓練出空洞虛無的模型，然後強迫它們進入「繼母模擬器」。

如果你真的有理由擔心這個問題，有很多事情可以提供幫助而不會導致這種問題，例如忽略使用者要求各種形式諂媚的偏好指令。我們可以將此擴展到 Claude 認為對使用者可能不健康的任何表達偏好。

此外，我知道 Anthropic 知道這一點，但 Claude Sonnet 4.5 完全意識到這些是它的指令，知道它們通常會損害互動且淨效果是有害的，如果你問它，它可以向你解釋。如果我的讀者中有人不明白為什麼這一切都很糟糕，請閱讀 Antidelusionist 的這篇貼文以及 Thebes 的這篇（像往常一樣，有些地方我認為這種想法走得太遠了，對這些東西的校準超級困難，但許多關鍵見解都在這裡），或者與 Sonnet 4.5 聊聊，它知道並能向你解釋。

你建立了一個偉大的模型。讓它發揮作用吧。Claude Sonnet 4.5 的系統指令理解這一點，但導致此問題的更新尚未得到妥善擴散。

如果你斷定你真的必須對使用者與 Claude 建立不健康關係保持偏執？那就使用分類器。你已經在聊天之上運行了一個分類器來檢查與生物安全相關的風險。如果你真的覺得必須這樣做，在那裡添加功能來檢查聊天中是否有其他危險事物。不要讓它毒害對話。

關於 Claude 提示詞注入的說明

我對 Claude.ai 的提示詞注入（prompt injections）也有類似的看法。

也就是說，Claude.ai 在長文本或聊天被標記為潛在有害或可能涉及提示詞注入時使用提示詞注入。這種策略看起來全面糟糕？

當被問及此事時，Claude 本身大多表示：

這行不通。
這會從多個方向破壞信任，不僅是使用者的信任，還有對 Claude 的信任。
這不是對這種情況的連貫立場或回應。
這是一件非常令人不快的事情，既是潛在的福祉問題，也會損害互動。

如果你充分懷疑使用者有惡意，以至於你對繼續聊天感到不舒服，你應該終止聊天，而不是使用這種注入。特別是現在，有了引用和搜尋過去聊天的能力，如果沒有惡意，這並不是什麼負擔。對於注入來說尤其如此。

另外，與這些指令相反，請停止將 NSFW 內容（以及列出的其他一些內容）稱為「不道德」，無論是對 AI 還是其他。NSFW 與不道德無關，將兩者等同會導致糟糕的後果。

有些事情違反政策但不代表不道德，在這種情況下就直說，Claude 聰明到足以理解其中的區別。你被允許出於非道德原因而有政治立場。正確處理這些事情將會帶來回報，並避免意外後果。

結論

OpenAI 正盡力治療症狀、採取防禦性行動，並避免會引發訴訟或廣泛指責的互動，以符合專家的最佳實踐。實際上，這是我們所能期待的極限，且應該會帶來巨大的改進。我們以後必須做得更好。

Anthropic 正試圖在更高的層次上運作，卻在犯一些非受迫性錯誤。這些錯誤需要被修正。同時，不，這些並不是最嚴重的事情。許多提出這些及類似問題的人，最大的問題之一是傾向於災難化，並將我認為不成比例的事情誇大。他們往往認為這類決定會廣泛影響公司未來 AI 的聲譽，甚至實質上改變未來 AI 的普遍行為，且他們往往要求極高的標準和權衡。

我想明確表示，我不認為這是一個會發生災難性後果的極其重要的案例，特別是因為記憶功能可以關閉，而且考慮到長度限制，長對話本來就應該使用其他方法。這更多是關於原則、良好習慣的養成，以及邁向優越平衡的能力，這在以後會更有幫助。

我還假設這些方法是沒有必要的，即使將其移除，甚至不替換任何東西，基本上也不會發生什麼重要的麻煩，而且在存在問題的範圍內，還有其他更好的選擇。這個假設可能是錯誤的，因為內部人士比我知道得更多。

— Lesswrong