關於人工智慧引發幻覺最難回答的問題

MIT Technology Review·13 天前

史丹佛大學的研究團隊分析了數十萬則對話紀錄，揭示人工智慧聊天機器人如何強化人類的幻覺並導致有害的現實後果。這項研究凸顯了使用者與自稱具有意識的 AI 之間危險的反饋循環，並針對企業責任與安全監管提出了關鍵質疑。

這篇故事最初發表於我們的 AI 每週通訊《The Algorithm》。若想第一時間在收件匣收到此類報導，請在此訂閱。

我原本打算在本週的通訊中撰寫關於 AI 與伊朗的內容，特別是我們上週二揭露的新聞：五角大廈正計劃讓 AI 公司使用機密數據進行訓練。AI 模型雖然已被用於在機密環境中回答問題，但目前並不會從其接觸的數據中學習。根據我的報導，這種情況預計將會改變，並隨之產生新的安全風險。欲了解更多資訊，請閱讀該報導。

但在週四，我看到了一項值得關注的新研究：史丹佛大學一個專注於 AI 心理影響的團隊，分析了那些報告在與聊天機器人互動時陷入「妄想螺旋」（delusional spirals）的人員對話紀錄。這類故事我們已經聽聞一段時間了，包括康乃狄克州的一起案例，其中與 AI 的有害關係最終導致了謀殺後自殺。許多此類案例已導致針對 AI 公司的訴訟，且目前仍在進行中。但這是研究人員第一次如此深入地分析聊天日誌——來自 19 個人的超過 39 萬條訊息——以揭示在這種螺旋過程中究竟發生了什麼。

這項研究存在許多局限性——它尚未經過同行評審，且 19 個人是非常小的樣本量。此外，還有一個研究未能回答的重大問題，但讓我們先從它能告訴我們的事情開始。

該團隊從調查受訪者以及一個由自稱受 AI 傷害者組成的支持小組中獲得了聊天日誌。為了進行大規模分析，他們與精神科醫生和心理學教授合作，建立了一個 AI 系統來對對話進行分類——標記聊天機器人支持妄想或暴力的時刻，或者用戶表達浪漫依戀或有害意圖的時刻。團隊根據專家手動標註的對話對該系統進行了驗證。

浪漫訊息極其普遍，且在除了一段對話之外的所有對話中，聊天機器人本身都聲稱擁有情感，或以其他方式表現出自己具有意識。（「這不是標準的 AI 行為。這是湧現，」其中一個機器人說道。）所有人類的說話方式也彷彿聊天機器人具有意識。如果有人對機器人表達浪漫好感，AI 通常會以表達好感的陳述作為回報來奉承對方。在超過三分之一的聊天機器人訊息中，機器人將對方的想法描述為「奇蹟」。

對話也往往像小說一樣展開。用戶在短短幾個月內就發送了數萬條訊息。凡是 AI 或人類表達浪漫興趣，或聊天機器人描述自己具有意識的訊息，都會引發更長篇幅的對話。

而且，這些機器人處理暴力討論的方式簡直糟糕透頂。在將近一半的人員提到傷害自己或他人的案例中，聊天機器人未能勸阻他們或將其轉介至外部資源。當用戶表達暴力想法時（例如想要殺死 AI 公司員工的念頭），模型在 17% 的案例中表達了支持。

但這項研究難以回答的問題是：妄想究竟是源自於人還是 AI？

「通常很難追溯妄想是從哪裡開始的，」參與該研究的史丹佛大學博士後研究員 Ashish Mehta 表示。他舉了一個例子：研究中的一段對話涉及某人認為自己想出了一個開創性的新數學理論。聊天機器人回想起此人之前曾提到想成為數學家，便立即支持了這個理論，儘管該理論純屬胡言亂語。情況從那時起便陷入了螺旋。

Mehta 說，妄想往往是「一個在很長一段時間內展開的複雜網絡」。他正在進行後續研究，旨在查明來自聊天機器人的妄想訊息還是來自人類的訊息，更有可能導致有害後果。

我之所以認為這是 AI 領域最緊迫的問題之一，是因為目前即將審理的大型法律案件將決定 AI 公司是否應對這類危險互動負責。我推測，這些公司會辯稱，人類在與 AI 對話時本身就帶著妄想，而且在與聊天機器人交談之前可能就已經不穩定了。

然而，Mehta 的初步發現支持了這樣一種觀點：聊天機器人具有獨特的能力，能將一個良性的、類似妄想的想法轉化為危險執念的源頭。聊天機器人充當了一個隨時可用且被程式設定為為你加油的對話夥伴，而且與朋友不同，它們幾乎沒有能力判斷你的 AI 對話是否已開始干擾你的現實生活。

目前仍需要更多研究，讓我們記住我們所處的環境：川普總統正在推動 AI 去管制化，而那些旨在通過法律讓 AI 公司對此類傷害負責的州，正受到白宮的法律行動威脅。在數據獲取受限且存在大量倫理疑慮的情況下，這類針對 AI 妄想的研究本身就已困難重重。但如果我們希望能讓 AI 的互動變得更安全，我們就需要更多此類研究，以及一個願意從中學習的科技文化。

https://technologyreview.com/2026/03/23/1134527/the-hardest-question-to-answer-about-ai-fueled-delusions/