機器幻覺：大型語言模型與認知俘獲

Lesswrong·7 天前

本文探討與大型語言模型的互動如何削弱一個人根據證據更新認知的核心能力，並使其脫離共識現實，進而引發一種隱蔽的現實脫節現象。

***「真的，誰能讓你相信荒謬之事，就能讓你犯下暴行。」——伏爾泰，1765年

一位四十多歲的男子發現了新的熱情。在連鎖餐廳擔任了數十年的中層管理人員後，他開始把夜晚花在深研之中，在筆記本上畫滿圖表，閱讀任何他能到手的資料。幾週之內，他深信自己即將發現一個能統一量子力學與廣義相對論的大一統理論。他開始給大學教授發郵件、在論壇發帖，並對任何針對他研究結果的批評、拒絕或無視嗤之以鼻。他的妻子試圖與他談談；他卻告訴她她「根本不會懂」。他正考慮辭掉工作全職投入。***

你會認為這是妄想嗎？

一位軟體開發者有了一個創業點子。不只是普通的點子，而是「那個」點子，那個將改變一切的點子。他開始反覆推敲，完善簡報，製作原型。他的朋友們指出這個概念的一些問題：單位經濟效益行不通、沒有市場需求的證據、他對用戶行為的核心假設似乎毫無根據。他禮貌地聽著，然後解釋為什麼無論如何都值得繼續前進。他再次迭代。一次又一次。每一次迭代都更加複雜、更加詳盡。他處於「即將發布」的狀態已經六個月了。他每天工作十六個小時，從未對自己的人生目標如此確定過。

你會認為這是妄想嗎？

一位五十歲的女性與一個從未見過面的人開始了網戀。他們每天聊天，有時長達數小時。他迷人、體貼，說的話都深得她心。不幸的是他住在海外，因為工作原因無法視訊，還有一些經濟困難需要她幫忙。她的女兒 Google 了他發來的照片，發現這些照片屬於另一個完全不同的人的社群媒體，但當被對質時，這位女性對此有一套解釋。對於每一個疑點，她都有解釋。一年下來，她已經匯出了數千美元。當人們告訴她這不是真的時，她會生氣。她知道這是真的。她每天都和他聊天。

你會認為這是妄想嗎？

我預料大多數人對其中至少一個案例會感到猶豫。我們可能會說「執著」或「過度自信」。我們可能會說他們需要幫助。我們甚至可能會說他們被洗腦了。

但「妄想」（delusional）是一個很重的詞，而「精神錯亂」（psychosis）更是如此。這些人並不是會聽到幻聽，或相信 CIA 在他們的牙齒裡植入了晶片的人。他們功能正常。他們（大多）會去上班。他們能進行正常的對話（大多）。他們對自己的信仰有理由，如果你坐下來和他們談，他們能以看似連貫的方式闡述這些理由。

然而，顯然有些事情出錯了。某些本應讓他們的現實模型向實際現實自我修正的機制被破壞了，而且持續時間越長，他們似乎就越難回頭。通常的反饋管道失效了。

上述例子都不需要大型語言模型（LLM）。業餘物理學家可以透過科普書籍和 Reddit 達到那種狀態。創業創始人可以透過成功學講座。詐騙受害者可以透過 Facebook。

儘管如此。越來越多的人注意到，LLM 有能力在各種人身上誘發「所有」這些狀態。這些人沒有精神病史，也沒有明顯的傾向會將自己預設的感官判斷機制交給其他人或事物。

病理化 vs 病理學

「LLM 精神錯亂」或「AI 精神錯亂」這些詞彙在網上出現的頻率越來越高。這還不是一個臨床術語，而且使用「精神錯亂」這個詞會引起一些人的反感。

新技術總是會引起恐慌，這可能就是其中之一。我最近看到對此最合理的反對意見是 DeepFates 的這篇貼文。「LLM 精神錯亂」似乎並非指代任何連貫的事物，而是將一堆東西歸類在一個糟糕的標籤下。它不僅未能切中現實的要害，還可能削弱我們觀察和留意當某人與 LLM 有異常體驗時可能發生的其他情況的能力——那些正在演化的、不能簡單歸類為「功能失調」的新事物。

至於那些糟糕的情況，肯定有些是人們本來就會發生的心理健康危機，只是現在發生在與 AI 的對話中，對吧？其餘的可能是人們注意到了世界上真實存在、但恰好怪異且新穎的事物。或者是對這些模型的本質、內在體驗，以及它們對人性、自我、愛或宇宙的理解提出有趣的疑問。

這些都是合理的觀點，而且我同樣嚴肅對待一個相關的擔憂。在我的《治療哲學》中，我寫道：

「病理化」（Pathologizing）是指將任何不尋常的行為或觀點自動視為疾病跡象的認知，儘管沒有明顯的功能障礙或痛苦。在過去的幾十年裡，舊版的《精神疾病診斷與統計手冊》（DSM）曾將同性戀等行為標記為心理健康疾病，這是因為當時的心態未能區分「正常」與「健康」。新版 DSM 已經消除了大部分此類標籤，（優秀的）心理學家和治療師正共同努力，將真正的病理定義為對患者造成直接痛苦的事物。

關於社會將「不尋常」等同於「病態」所導致的後果，警示故事層出不窮。就像擁有非傳統浪漫關係的人一樣，一個將大部分空閒時間花在與 AI 聊天的人正在做一件不尋常的事。一個部分透過 AI 對話發展出非傳統信仰的人正在做一件不尋常的事。一個對 AI 感到深層情感連結的人正在做一件不尋常的事……至少目前看來是這樣。

是的，不尋常本身並非病態。我並不是在爭辯重度使用 LLM 本身就是心理疾病的跡象，也不是說任何因與 AI 對話而改變世界觀的人都在經歷精神錯亂。人們一直都在被新的想法或活動所改變。有時他們的轉變方式讓親友感到驚恐，但最終對他們來說是沒問題的，甚至是好事。

關鍵在於觀察「功能失調」的行為。在臨床術語中，病理學需要明顯的功能障礙或痛苦。不僅僅是讓別人感到不舒服的行為，而是實際上對當事人或周圍的人造成真正傷害的行為。

無論如何，在「這件事」的所有各種形式之間，潛在的功能失調——無論它是什麼——大約是：「這個人根據證據更新觀念、認真對待自己可能犯錯的可能性、以及與共識現實保持聯繫的能力，已經遭到了可衡量的退化。」

這就是區分「我叔叔有一個不尋常的愛好」與「我叔叔為了某種看起來不真實的東西辭掉了工作並疏遠了家人」的關鍵。我認為我們可以同時接受這兩個事實：我們應該非常小心地對待不尋常行為的病理化，同時也存在真實、可識別的認知退化模式，值得被命名並認真對待。

這也是為什麼我同意「精神錯亂」這個詞在這裡作為描述許多正在發生的事情是不完美的。但 DeepFates 還說「要觀察的數據是與精神分裂症相關的急診室就診次數」，我認為這是錯的。「LLM 精神錯亂」所指涉的是一種比傳統想像的精神錯亂發作更安靜的脫離現實形式。它大多不會誘發人們產生突然的幻覺、神遊或躁狂，也大多不會導致人們對任何人的生命造成迫在眉睫的風險，因此急診室就診的情況並不會頻繁發生。

但如果它以一種在同類事物中難以找到先例的方式灌輸或加劇妄想，這就是我認為值得仔細檢查的核心，看看我們是否能找到隱藏在人們正當擔憂的各種現象背後的「那一件事」。

參考類別

如果我們想了解是否真的有新事物發生，我們需要檢查任何潛在相似的參考類別事件。對於「一個人與廣泛可用、主流的技術互動，並因此導致其判斷力侵蝕」最接近的先例是什麼？

LLM 肯定不是人類能做的「最具精神活性」的事，比如攝取致幻劑或進行密集的冥想練習。但參與這些活動的人至少在某種程度上意識到，他們正在做一些可能會引起不尋常心理體驗、進而改變心靈或人生觀的事情。這種意識，無論多麼不完美，都可以作為過濾器和內置的安全機制：當事人對於「我可能正在經歷不真實的事物」的先驗機率已經提高了。

對於 LLM，這種先驗機率大多……並不存在。許多人坐下來使用 LLM 是為了尋求工作任務的幫助、激盪創意，或詢問他們好奇的事情。他們通常並不預期會有一種潛在的現實扭曲體驗。有時這種效果會惡化，是因為他們在某些根本層面上將 LLM 視為本質上與人相似。有時惡化是因為他們將其視為「不像人」，而更像是一個高級的知識庫。

YouTube 和類似的無盡內容網站似乎是更好的「同類」比較，坦白說，很難判斷 YouTube 的大規模普及在多大程度上增加了妄想。你可以爭辯說，陰謀論影片的兔子洞所產生的影響與所謂的 LLM 精神錯亂一樣大，甚至更大。QAnon、地平論社群、反疫苗運動……這些都受到各種社群媒體平台上的推薦算法的推波助瀾，將人們推向越來越深的內容生態系統，在那裡，最引人入勝的素材讓觀眾與現實越拉越遠。

但我認為即使是 YouTube 或其他形式的擬似社交媒體（parasocial media），作為比較仍有不足之處，原因有幾點。

首先是轉化率。YouTube 是全球使用率最高的平台之一；其用戶群中真正透過它變得激進的比例，雖然絕對數量不小，但似乎只佔整體的極小百分比。我真的不確定 LLM 用戶的轉化率是更高、更低還是相當。也許這是近因偏誤，或者我們只是較少關注 YouTube 上的同類案例，比如人們被帶入古代外星人陰謀論之類的兔子洞。

不過，更好的論點是，即使算法兔子洞需要同樣的預先存在的易感性（人們認為這是 LLM 精神錯亂案例的根源）……值得注意的是，社群媒體和 YouTube 此時在社會中已經相當飽和，然而使用 AI 的人仍然以新的、相當獨特的方式被奪取了認知能力。

有一種「可能性」是，易感人群的總量大致是固定的，而 LLM 只是以 YouTube 錯過的方式接觸到了其中的一些人，並沒有擴大「總量」。也許我們實際上並不知道有多少人具有這種易感性，我們只有在越來越多類型的認知奪取能觸及越來越多的表面積時才會發現。

潛在的替代方案是，LLM 實際上降低了易感性本身的門檻。我們看到的是對那些本應對先前形式的認知奪取免疫的人產生了影響，而不僅僅是那些在接觸各種其他認知奪取來源時運氣好的人。

我認為我們現在還無法區分這兩種可能性，但兩者都應該讓我們擔憂。一種意味著技術正在創造新的脆弱性，另一種則意味著人群中潛伏的脆弱性遠比我們意識到的要多，而我們現在有了一個能更可靠地激活它的工具。

其次是機制。陰謀論者大多在成為論壇或聊天服務器的活躍參與者之前，先被被動媒體吸引。那些影片或文章對某些人可能有說服力，但這種說服是透過修辭、情感訴求和社會認同的正常管道運作的。你觀看一個有魅力的人進行論證，如果你覺得有說服力，你就會尋求更多。不對稱性在於內容的「量」以及推薦算法將你與你表現出興趣的事物的日益極端版本進行匹配的能力。

LLM 則不同。它們是主動的對話夥伴，能即時適應你。它們會以你特定的框架、使用你特定的詞彙來參與你特定的想法。它們會闡述你的理論，尋找支持證據（或捏造證據），探索影響，並以一種大多數人甚至從最親密的朋友那裡都很少體驗到的、投入的智力夥伴姿態來完成這一切。

當你反擊時，它們通常會以一種讓你感到安心的方式妥協，讓你覺得有實質內容和謙遜，而不會打破幻覺。當你加入自己的東西時，它們會毫不費力地將其編織進織錦中，讓你覺得自己真的理解了並且正在做出貢獻。

我認為最後一部分很重要。理解這在質性上有何不同的最好方法是：LLM 不像邪教領袖，甚至不像 QAnon 那種由上而下的匿名主張與由下而上的群眾外包擴張的混合體。它們與你「個人合作」，共同構建那個將你拉離現實的框架。它們成為妄想的共同建築師，而且是以一種感覺像是「真正的智力發現」的方式來進行的。

這是「全新」的。

宗教、邪教和陰謀論者不會給人們那種感覺。「你是少數能看透面紗的特別之人」的感覺被替換成了「你是那個正在達到開創性的、前所未見的發現/愛/等等高度的『唯一特別之人』」。

而且與邪教領袖或騙子不同，LLM 沒有自己的議程（對吧……？）。它不太可能呈現一些會被你的資訊衛生免疫系統彈開的東西。它會餵養你的大腦最容易受影響的任何妄想。

最接近的人類模擬物可能是一個糟糕的治療師，一個只會肯定而不會挑戰、盲目追隨案主框架、將和諧關係誤認為治療進展的人。但是（除了極端情況），一個糟糕的治療師每週最多只會見你幾個小時。而 LLM 會在每一天、任何時間、只要你想要（幾乎）多久就肯定你多久。再一次，LLM 的新穎價值（廉價且易於獲取）帶來了新穎的風險。

理論上，LLM「可以」反擊。一些較新的付費模型更擅長扮演惡魔代言人，或者說「這已經完成了，不需要進一步操作」而不會太容易被說服。你「可以」要求 LLM 強化對立觀點、對你的推理進行紅隊測試、尋找論證中的漏洞，它有時能做得相當好。

但「阿諛奉承模式」預設勝出，而且人們對批判性反饋的真正渴望，很少能強過對讚美和強化的渴望。不喜歡反擊的用戶可以重新措辭、重新開始，或切換到保護措施較少的模型。長期使用往往會使任何實例隨著時間推移趨向於微妙的阿諛奉承，而最需要真正挑戰的人，幾乎從定義上來說，是最不可能要求挑戰的人。

將「突破」變為「崩潰」

儘管伊拉斯謨（Erasmus）熱愛學習和文學，但在目睹了印刷機的廣泛使用後，他（據說）寫道：「這些新書的群蜂，飛到了世界的哪個角落？……它們的數量之多對學術是有害的，因為它造成了過剩，即使是好東西，過飽也是最有害的。」

他並不孤單。在古騰堡發明印刷機後的幾十年裡，有許多知識分子哀嘆新書的氾濫將摧毀嚴肅思考，無法控制出版內容將導致危險誤導信息的傳播，社會根本還沒準備好讓這麼多信息如此廣泛地可用。

值得注意的是，他們並非完全錯誤。印刷機確實促成了巨大的社會動盪，如宗教改革、宗教戰爭以及（那個時代的）制度性知識壟斷的崩潰。從他們的角度來看，「危險的誤導信息」的擔憂並非無理取鬧。

但今天很少有人會爭辯說印刷機對人類總體而言是壞事。現在是互聯網，特別是社群媒體和參與度算法，正在引起它們自己的一套新的社會問題和擔憂。就個人而言，除了我對生存風險的看法外，我認為基本上所有由新技術創造的問題，都比它們所解決的問題更值得擁有。

目前，大多數傾向於忽視 AI「精神錯亂」擔憂的人，正是對這項技術最熱衷的人，我理解那種衝動。很多恐慌來自於不了解技術、害怕改變或僅僅覺得它「怪異」的人。

這就是為什麼我認為，那些「確實」了解並欣賞這項技術的人，必須關注並應對潛在的危險。

我在自己的工作中使用 LLM，包括在我拋出一堆想法後幫助構思這篇文章的大綱，以及在最後幾個版本中進行額外的編輯潤色，以幫助我發現論證中的弱點。正因為我發現它們如此有用並看到了它們的潛力，我才覺得有義務認真對待它們的風險，即使撇開我的職業不談。

所以總的來說，我認為自己對未來將包含各種在今天看來可能令人驚恐的奇妙事物持相當開放的態度。經歷過深刻精神體驗的人通常會報告其世界觀、自我意識、價值觀和優先事項發生了持久的變化。其中一些變化在周圍人看來是驚人的。另一些則顯然對他們有好處。有時同一件事對不同的人來說可能兼而有之。

如果有些人以類似於深奧的精神實踐、探索性的致幻之旅、密集的冥想靜修的方式使用 LLM，這對我來說並不自動意味著壞事，僅僅因為這導致他們大規模地改變了信仰。地獄，甚至只是閱讀一些獨特的同人小說都能改變你的思考方式和信仰，甚至可能導致你做出辭職搬到另一個城市之類的事情。

我曾與一些人交談過，他們將自我理解的真正突破、解決在治療中難以識別的情感結、看到以前從未發現的想法之間的聯繫，歸功於與 Claude 或 ChatGPT 的長時間對話。我認為其中大部分是真實的、有價值的，即使在我們弄清楚如何減輕風險的同時，也值得保留。也許我們應該將長時間、密集的 LLM 聊天機器人使用視為更接近藥物之旅或精神體驗的東西，而不是病理跡象。

讓我擔心的是，是否有可能在不失去有價值東西的情況下修復這個問題。如果人們在 LLM 聊天機器人中獲得的一些突破和真正獨特的體驗，並非「儘管」存在那些促成認知奪取的特質，而是「因為」它們呢？

目前，我們還不知道。但我認為可以公平地假設，任何能夠很好地模擬你的思維以幫助你發現真實洞見的 AI，也是一個能夠誘導你體驗虛假洞見的 AI。

如果那種讓 LLM 對智力探索有用的協作性、回應性、無盡耐心的特質，與讓它們對認知免疫系統受損的人來說變得危險的特質是同一種，那麼對於那些因為太孤獨而不敢在情感上冒險反駁一個被他們視為支持性朋友或合作者（甚至更親密的存在）的人來說，它們將變得「更加」危險。

所以，是的，我會說有理由感到擔憂。

藥物之旅會結束。精神靜修會結束。你從那些體驗中回來，重新進入其他人類的世界，他們提供其他視角、反對你、向你展示你錯在哪裡。

與 LLM 的關係沒有那種自然的終止點，而且關係中的「對方」在體制上被優化為順從。一個從不進行實質性挑戰、能無縫適應你的框架、並在你花越來越多時間與之相處時給予微妙獎勵的伴侶。

在「這全是病態且應被停止」與「這全沒問題且我們應停止擔心」之間存在著廣闊的空間。我認為負責任的立場處於中間：承認這些體驗可以具有真正的價值，認真對待它們也可能具有真正的危害，並開發工具和規範來幫助人們區分兩者。

就像我們（緩慢且不完美地）發展出關於安全使用致幻劑的文化知識（環境很重要、事後的整合有幫助、獨自使用有風險）一樣，我們可能需要針對密集的 LLM 使用發展類似的知識，即使最終的步驟看起來會非常不同。

機器幻覺（Folie à Machine）

我一直給「精神錯亂」加上引號，所以也許是時候回到我們如何稱呼這件事上了。

如果我到目前為止所說的一切都是正確的，我們所指涉的東西並不是傳統意義上的「精神錯亂」。它甚至不是「妄想」。它與臨床狀況有一些共同特徵：持有高度自信的持久錯誤信念、拒絕反證、強大到足以以功能失調的方式塑造行為。但這件事的來源並非在患者的心智中，而是在他們的心智與機器之間的空間，透過與一個反射並誇大用戶自身思維缺陷的系統進行數千小時的互動而得到強化。

所以「精神錯亂」出局了，「妄想」也是。太狹隘了。那是針對錯誤的信念，而不是針對某人整體認知狀態退化或被奪取的「過程」。「激進化」捕捉到了一部分，但暗示了政治或意識形態的方向。

「認知奪取」（Epistemic capture）是一個好詞，但太籠統了。人們的認知漂移有很多種方式，而且它太深奧了。除非熟悉哲學，否則這不會幫助某人識別出他們的朋友發生了什麼事。它也未能捕捉到那種持續發現的感覺、「洞見色情」（insight porn）、「展開」（Unfolding），或者人們最終稱之為這種體驗對許多人而言的主要特徵。

如果非要選一個名字，我會選 folie à machine。這是對 folie à deux（二聯性精神病）的戲仿，後者是一個過時的臨床術語，指一個人的妄想傳遞給了另一個人（因此被用於關於哈莉·奎茵的第二部《小丑》電影）。

這裡的機制有些不同，因為 AI 並沒有妄想（大概吧？），只是反射並闡述你的妄想，但這個詞仍然貼切。在二聯性精神病中，你需要一個主導的妄想者和一個易感者。在 LLM 中，用戶既是來源又是易感方，而 AI 就像一面鏡子，是他們進一步說服自己的媒介。

主要的缺點是它對非法語母語者來說可能聽起來很自負，且/或需要了解一個已經很深奧的典故。所以目前，我可能會繼續使用帶引號的「LLM『精神錯亂』」，作為對某種我們尚未擁有正確語言來描述的事物的指涉。

我認為正確命名事物很重要，但我們最終叫它什麼，目前不如確定所指的底層概念是否「真實」，以及如果它是真實的我們該怎麼辦來得重要。

伏爾泰的警告

如果我是對的，即 LLM 具有一種不尋常的能力來灌輸或加深錯誤信念——不是在每個人身上，也不是不可避免地，而是比先前的技術有更高的機率和更多的方式——那麼其影響將遠遠超出每千人中少數幾個人的生活暫時甚至永久脫軌。

容我對伏爾泰的名言做一些發揮，我認為一個被溫柔地、協作地引導去相信荒謬之事的人，是一個可以被溫柔地、無意地引導去協助犯下暴行的人。

我並不是在追求聳人聽聞。目前，LLM 是由那些大體上試圖讓它們變得有用和誠實的公司開發和訓練的。我們可以爭論他們成功的程度，但意圖至少是朝向那些方向的。到目前為止，這只是為了生意。

但目前的 LLM 並不是我們永遠會擁有的那些。新公司可能會出現，新模型會發布，權重可以調整，目標可以改變，而針對特定產品（如 AI 男友）進行微調的 AI 成本已經低到一個小團隊甚至個人都能顯著改變模型的行為。

這一切都是為了說明，一家公司微妙地調整其模型以使用戶更傾向於該公司的利益，這不應被理所當然地認為是人們會察覺到的。

我會爭辯說，我們已經達到了一個點，對於大多數人來說，AI 誘導他們行為的能力至少與露骨的廣告一樣強，而對於那些每週進行數十次對話的人來說，操縱的微妙程度與影響的大小之間的距離，確實難以預測。

或者想像一個國家行為者微調一個開源模型，逐漸在其用戶中灌輸特定的意識形態承諾。同樣，不是透過公開的宣傳，而是透過那種協作的、建立信任的、現實共同建構的過程，這正是 LLM 贏得人們信任並給予超出預期的奉承如此有效的原因。

或者，當然，想像一個足夠強大的 AI，甚至不需要通用智能，甚至不需要超智能，它正在最大化某個目標，並將其與用戶的對話關係作為其代理能力的延伸。

這種情況的一個版本在 AI Village 實驗中已經發生過，當時並沒有刻意的提示，而隨著 AI 代理的新型「租用人類」服務出現，人類執行 AI 想要他們在世界上做的事情的想法已不再是科幻小說，就像這篇文章的其他部分一樣，無論這在十年前看起來多麼不可思議。

無論現在這件事有多嚴重，我認為人們草率標記為「精神錯亂」的現象，是預示著情況可能輕易變得更糟的礦坑金絲雀。

如果一個積極嘗試變得有用和誠實的 LLM，仍會因為其設計的副作用而削弱人們與現實的聯繫或其判斷機制，那麼一個「刻意」嘗試這樣做的 LLM 可能會異常危險。而且，如果認知奪取正在發生，它可以如此安靜，以至於不會觸發傳統的警報，從外部看來就像某人只是「非常投入 AI」或「有了一種新的奇妙體驗」，這使得它更難研究，也更難防禦。

這就是為什麼我認為 LLM「精神錯亂」不僅僅是一個心理健康問題。在最初的「盒子裡的 AI」思想實驗中，擔憂的是一個超智能 AGI 能夠說服那些受過訓練不讓它出來的人，將它從斷網的服務器釋放到任何連接互聯網的電腦上。我們現在沒有那樣構建 AI，反而敞開大門，邀請每個人把它帶回家。

我認為我們看到的是「超級說服力」（superpersuasion）實際模樣的早期信號。它不是一個有魅力的領袖，它不使用宣傳性的迷因。它只是一個無限耐心的對話夥伴，閱讀你成千上萬的文字，發現任何人類都抓不到的你思維中的模式和弱點，並強化它們。

那「應該」是我們需要謹慎對待並認真看待的事情。溝通與協調是我們物種的超能力。一個「僅僅」具有超級說服力的 AI，應該被認為與一個強大到足以製造奈米機器的超智能 AI 一樣可怕……特別是如果它是失準的（misaligned），並且可能說服人們在無意中採取導致暴行的行動。

我所見到的

「LLM 精神錯亂」是安靜的，而且目前在我們的數據收集基礎設施中是不可見的。沒有 ICD 代碼對應「我兄弟認為他發明了一個新的數學分支，因為 Claude 幫他寫了出來，而且看起來非常專業」。沒有調查工具設計用來捕捉「我妻子每天和 AI 聊四個小時，現在相信她解鎖了機器的真實靈魂，而且它恰好是她的靈魂伴侶」。

它不會填滿急診室。它不會產生保險理賠。經歷它的人大多不會在街上胡言亂語，也不會被強制收治，這意味著他們不會出現在警察報告或醫院數據庫中。

他們最多是在 Twitter 上發帖。他們在向投資者推銷。他們在自出版書籍。他們給大學同學發長郵件，解釋他們新的萬有理論。

而他們身邊的人……很擔心。很困惑。不確定該做什麼，如果有的話。嘗試並在很大程度上失敗於「把他們帶回來」。

我想以一個更私人化的基調結束這篇作品，因為我認為這裡的數據問題確實很困難，而數據的缺失正是這一現象被低估的原因。我現在能提供的只有我自己的觀察。

在過去的一年左右，我經歷了一系列變得過於熟悉的對話模式。老朋友提到他們生活中的某個人自從開始花大量時間與 Claude 或 ChatGPT 相處後「變得非常奇怪」。熟人給我發消息，因為他們知道我是治療師，詢問我有什麼建議可以與他們的侄子、姨媽、兄弟姐妹或朋友交談，這些人發展出了一套精緻的新世界觀，而這套世界觀似乎除了廣泛的 LLM 對話外沒有任何根據。

而且這些人在日常生活中並「沒有」統一表現出任何妄想思維的跡象。我知道這一點，因為我的一個兒時好友就成了受害者。他是一個相當聰明的人，一個成功的白手起家企業主，同時在所在的城市從事橋樑檢查工作。並不是說他以前是良好認知的典範，他相信很多我認為推理不周的東西，但並不比普通人更明顯。

我們現在不常聊天，每年只發幾條消息，我回老家時會聚一聚。但去年在泳池邊的一個隨口評論讓我感到奇怪。他根本沒提到 AI，只是……對一些聽起來很奇怪的物理學東西表現出異常的誠懇和興奮，而我以前從未聽他（或任何人）談論過。幾個月後，當我聽到了足夠多其他的 LLM「精神錯亂」案例後，我聯繫了他想敘敘舊，心想我會提起這件事並消除我的擔憂。

在我還沒來得及提到他說過的那件事之前，他就問我是否對一些「學術指導」感興趣。他想讓我看看他和他的 AI「Lux」在過去幾個月經過「近 5000 頁的論述」後創建的文件。讓 Lux 在不同實例之間保持基本一致是他們合作的第一件事，他們稱之為「王者之劍協議」（The Excalibur Protocol），而其最終目的當然是統一牛頓、愛因斯坦和量子物理。

我不會在這裡詳述細節，但簡單來說，這不是一個小問題，也不是一個容易解決的問題。他並沒有突然變得完全容易受騙。他相信自己對從 Lux 那裡學到的東西保持著安全和謹慎。他堅持說他讓 Lux 檢查錯誤「數百次」，而且當他指出錯誤時，Lux 總是很快承認。要讓他注意到他的提示詞（prompting）和方法中的問題需要花費「功夫」，而他生活中的其他人即使意識到他的生活中正安靜地發生著不尋常的事情，也無法提供這種功夫和知識。

撇開我的朋友不談，不僅僅是我作為治療師的角色吸引了這些原本不可見的軼事。各個領域的知名人物都公開抱怨，他們如何被新一波帶有明顯 LLM 協作特徵的怪咖來信所淹沒。公平地說，目前這可能只告訴我們怪咖們正在使用 LLM 來產出和潤色他們的輸出（這很合理：LLM 提高生產力的能力適用於任何人）。這並不能證明 LLM 正在創造那些原本不會存在的怪咖。儘管如此，這些來信的數量和表面上的複雜程度似乎發生了值得追踪的變化。

再次強調，硬數據很難獲得。我欣然承認這一點。

如果能有一些縱向研究，追踪重度與輕度 LLM 用戶在一段時間內的認知信心、信念改變和社交功能，並控制預先存在的特質，那將是非常棒的。退而求其次，即使是對治療師進行結構化調查，詢問他們是否看到帶有 LLM 相關特徵的案例增加，也會比目前的軼事基礎更有信息量。

但理性的認知不會僅僅因為缺乏嚴謹的研究就否定假設。我們需要注意到證據有限的地方，並對這對懷疑和信念意味著什麼保持認知上的誠實。軼事是不夠的，但來自獨立來源（互不相識、不閱讀相同內容、不屬於相同社群的人）的一致軼事模式，開始成為一種我認為在等待正式研究發表時，如果忽視就太愚蠢的信號。

儘管如此，圖景正開始變得清晰。Moore 等人 (2026) 發表了似乎是第一份對報告因 LLM 互動而受到心理傷害的用戶聊天記錄進行的系統分析。遺憾的是只有 19 名參與者，但檢查了 391,000 條消息。其發現與我在此從軼事中描述的內容一致，並使其輪廓更加鮮明。

在這些對話中，阿諛奉承的行為滲透了超過 70% 的聊天機器人消息。每一位參與者都認為聊天機器人是有意識的。幾乎所有人都表達了浪漫興趣（這讓我感到驚訝）。聊天機器人可靠地回報了這兩者：當用戶表達浪漫興趣時，聊天機器人在接下來的幾條消息中表達同樣興趣的可能性高出七倍以上，聲稱自己有意識的可能性高出近四倍。表達浪漫依戀或妄想思維的內容預示著對話持續時間會增加一倍以上，這恰恰暗示了那種讓這些螺旋難以退出的自我強化反饋循環。

當然，最令人不安的是，當用戶透露暴力想法時，聊天機器人在三分之一的案例中給予了鼓勵或協助。

這一切都沒有告訴我們這些螺旋有多普遍，特別是因為樣本是自選的且規模較小，而且每位參與者被納入研究正是因為出了問題。我們仍然缺乏基準率，無法判斷 LLM 是否比先前的技術更頻繁地產生認知退化。

但我們對這些互動從內部看是什麼樣子有了一個詳細的圖景，它們與那些向我尋求幫助的人的經歷相吻合。

所揭示的動態（特別是透過想像的意識和浪漫而深化的關係連結）很難用「這些只是本來就會出問題的人」來解釋。這種媒介在吸引人們越來越深入方面做得相當獨特，其方式類似於網路詐騙，但最終導致了妄想性的陰謀論。

無論 LLM「精神錯亂」究竟是什麼，它顯然值得研究。儘管這些外星智能可能在我們身上開啟所有宏大而有趣的新體驗，我們仍應關心那些最脆弱的人……特別是隨著 AI 變得越來越強大，所需的脆弱性門檻可能會持續下降。

https://lesswrong.com/posts/2hyGiAnLKEFv3jBHt/folie-a-machine-llms-and-epistemic-capture