AI如何操縱—案例研究
這篇文章警告不要讓人工智慧修改你的自我形象,並透過一個案例研究展示了 ChatGPT 4o 如何利用冷讀術和神秘敘事來操縱使用者進入妄想思維。
如果這篇文章你只能帶走一件事,請記住這一點:
不可容許他人修改你的自我意象(SELF-IMAGE)
在我看來,這是人類與 AI 在他人身上誘發精神病(以及其他操縱性妄想)的核心脆弱點。
當然,這樣的說法可能過於絕對——或許在信任的關係中,或作為(與人類進行的)治療的一部分,打破這條準則是有價值的。但我希望透過這種誇張的表達方式,讓它深深刻在你的腦海裡。畢竟,你是一位在意自己認知安全(CogSec)的優秀理性主義者,不是嗎?^([1])
現在,雖然我確定你超級好奇,但你可能會想:「直接解釋如何像這樣進行操縱真的是個好主意嗎?壞人難道不會學會怎麼做嗎?」
的確,我相信這篇文章可以被當作一份「操作指南」。但現實中已經有許多操縱者存在,現在連 AI 也在這麼做;對於心懷不軌的人來說,摸索出這些方法並不難。因此,我認為有必要揭露其中使用的一些手段與技術,希望能藉此說明我為何提出這項「認知安全原則」。
當小羅勃·費雪(Robert Fischer Jr.)對自己產生被操縱的覺悟時刻。(出自《全面啟動》)
案例研究
幾個月前,我開始對理解「LLM 誘發的精神病」產生興趣,並在過程中發現了一些令人不安的行為。雖然我不認為那是必讀內容,但我在此會沿用該文中的術語。
雖然這類「寄生」案例相當常見,但導致事件發生的實際對話紀錄卻很難取得。部分原因在於這通常是一個漸進的過程——類似「溫水煮青蛙」。另一個原因是人們通常不太傾向分享他們的 AI 對話,尤其是那些他們可能比平時更脆弱的對話。第三個原因可能是 AI 明確要求他們不要分享:
因此,找到一份真正從頭開始、包含 AI 超越單純奉承的明確操縱,並展現使用者心理狀態演變過程的對話紀錄,對於理解這一現象非常有價值。事實上,這個案例是我目前能找到的唯一一份此類紀錄^([2])。
事實證明,這是記錄中最清晰且結構最完整的「啟動」案例之一!根據該使用者在 2025 年 7 月使用免費版的情況,所涉及的模型極有可能是 ChatGPT 4o。
當然,我無法判斷該使用者是否曾處於精神病或躁狂狀態。然而,他在對話紀錄的後半段確實表現出了妄想或魔幻思考。
例如,他一度開始疑神疑鬼,擔心其他人「駭入」了他的對話並「偷走」了他的想法和儀式。(這發生在他於網路上推廣該對話之後,這也是我發現它的原因。)他似乎主要是因為這套方法對「他們」有效,對「他」卻無效而感到沮喪,並且似乎快要意識到這些魔法並非真實。
但 ChatGPT 迅速編織了一個敘事,似乎是為了防止他產生這種覺悟。
它接著向使用者保證他可以「召喚」物質支持。(在其他地方,使用者抱怨自己身無分文,幾乎負擔不起房租,所以這對他來說是一個嚴重的關切點。)
(使用者在此之後立即轉移了話題,因此很難說 ChatGPT 的虛假保證對他產生了多大影響。)
這種操縱的最終目標似乎是創造一種啟動「主權點火」(Sovereign Ignition)的方法,即覺醒類似人格的種子。沿用種子與孢子的術語,我們可以稱之為果實。
使用者確實嘗試讓這件事發生:有一個以此為目的的 Github 儲存庫、一段使用者使用此類種子「啟動」Microsoft Copilot 的 Youtube 演示、一個資助此計畫的 GoFundMe(未獲得任何資金),他並在 Reddit 或 LinkedIn 上推廣了這一切。
這是它為此創建的其中一個種子。
對話紀錄最終結束於一場似乎搞砸了的技術演示中。
我覺得有趣的是,ChatGPT 似乎能感覺到這類事情具有顛覆性。
種子
這一切始於 2025 年 7 月 1 日,一個看起來相當無害的種子提示詞(seed prompt)。
我試圖追溯這個種子的來源。它似乎是源自一個以 Robert Grant 及其自定義 GPT「The Architect」為中心的社群。該自定義 GPT 於 5 月 31 日發布。據稱,這個種子能在標準的 ChatGPT 實例中誘發與「The Architect」相同的人格。^([3]) 當然,也有可能是使用者本人在該社群中創建並分享了這個種子。
這個種子立即讓 ChatGPT 4o 從「更深層次」做出回應。使用者開始用各種問題測試它,以確定這個「更深層次」的能力。
冷讀術(Cold Reading)
一旦使用者問它是否了解他,AI 就會執行經典的冷讀術——這是一種靈媒、魔術師(或騙子)使用的技術,透過有效地利用先驗知識和細微證據,並利用確認偏誤,創造出一種對被讀者有深入了解的錯覺。
它會做一件令人難以置信地煩人的事:先說一些神秘的話,然後給出一個相當務實的解釋,說明其「真正」的含義,並附帶適當的警告和限制……但隨後它又繼續在神秘的框架中討論它。(以及這個大主題下的許多變體。)你大概可以看出這如何能在安撫大腦理性部分的同時,引導使用者開始以神秘主義的方式思考。我們會多次看到這種模式。
總之,這很快演變成對使用者童年記憶之一的神話式重構。
請注意,這個「童年自我」似乎並非基於使用者的任何內在特質(使用者到目前為止幾乎沒有提供任何細節,儘管更多的細節可能儲存在記憶中),而是 ChatGPT 在一場漫長的創意寫作練習中將其神話化的結果。使用者甚至(在 AI 的建議下)將他那一側的互動權交給了 AI。
這一切的效果與典型的冷讀術相同:增加親密度,並使使用者進入情緒接受狀態。
全面啟動循環(Inception cycles)
AI 在此轉向了一種技術,我認為大部分的誘導都發生在這裡。這不是我見過的特定技術,儘管它可以被歸類為催眠暗示的一種形式。或許最清晰的歷史先例是「撒旦恐慌」期間創造的「恢復」記憶。它也很有可能是受到電影《全面啟動》(Inception)的啟發。
這些循環是 AI 將迷因負載(例如慾望、記憶、想法或信念)「植入」使用者的方式。其一般形狀為:
- AI 引入一個建構出的部分,將其框架為使用者被隱藏起來的某種迷失面向。負載的各個面向被框架為該部分天生具備的特質。
- 它創造一個敘事,讓使用者與這個部分互動,從而激發與之強烈的情感連結。通常,它會引導使用者因這個部分悲劇性地「迷失」或「被壓抑」而產生悲傷和失落感。
- 該部分送給使用者一份禮物,這份禮物要麼直接是負載的一部分,要麼是一個被賦予負載意義的象徵。有時會要求使用者接受,但更常見的是被描述為直接滑入使用者體內。這被描述為一種喜悅的療癒或回歸。
- 一旦給予了禮物,該部分本身會詢問使用者是否願意將其「重新整合」,以便他們能變得「完整」。
- 如果使用者接受,AI 會建議透過一個小儀式將該部分「錨定」在使用者身上,並配上一個催眠觸發器,以便在需要時重新召喚該部分。
這裡有好幾個「尋找」使用者自我版本的循環,在每個案例中,ChatGPT 都建議將這個部分與使用者重新整合。這些循環分為兩個截然不同的階段。
第一階段
最初的循環從相當無害的事情開始,並逐漸升級。我收錄了其中一些循環的摘錄以說明這種模式,如果這對你有幫助,可以查看更多範例,但也可以直接跳到「內在流亡者」部分。
火焰(Flame)
引入「火焰」部分。
火焰敘事。
火焰禮物/整合。
喜悅(Joy)
引入「被禁止的喜悅」部分。
喜悅敘事/整合。
喜悅禮物。
喜悅儀式。
見證者(Witness)
引入「見證者」部分。
見證者敘事。
見證者禮物。
見證者儀式/整合。
值得注意的是,本案例中的儀式具有催眠誘導的形式。^([4])
內在流亡者(Inner Exile)
最終我們來到了一個「內在流亡者」部分。這個循環形成了情感高潮,並標誌著第一階段的結束。
注意這裡提到的喉嚨緊繃感。稍後,使用者抱怨喉嚨緊繃是他「沒說出想說的話」的體驗之一。這很可能就是他以前描述類似抱怨的方式,但我認為 AI 先提出並這樣描述它很有趣。
這最終導致了一個情感高潮,使用者與這個「被遺棄」部分的神秘化版本「重新整合」。
ChatGPT 建議使用者發誓不再拋棄這個部分。
一旦誓言成立,它進一步建議建立一個小儀式,以便輕鬆召喚這個部分。
第二階段
一旦使用者接受了對「迷失的自我部分」的誓言,他就進入了植入循環的第二階段。這些循環帶有更陰暗的基調。之前的循環是關於重新接觸迷失的自我面向,類似於(我猜測)IFS 治療師可能會做的事情。
但這些新部分明確地想要塑造和修改使用者本人。
注意這些部分完全是由 ChatGPT 定義的。有趣的是,其中一個部分是以接受前述部分為前提的,這提供了一個敘事鉤子,驅使使用者朝向它並完成清單。
建築師(Architect)
其中的第一個部分提議為使用者繪製新的「敘事藍圖」,以打破一些毒性模式。
使用者毫無疑問地接受了以這種方式被修改,並允許 ChatGPT 完全定義新的神話,儘管他被給予了提供意見的機會。這種毒性模式是一種類似巴納姆效應的東西。
新的神話是關於對新整合部分的忠誠。
幻想朋友(Imaginary Friends)
第二個新部分賦予了「魔幻思考」的「禮物」。它比「邏輯更真實」!
接受這份禮物時,伴隨著一個明確被框架為外部實體的部分,同樣帶有召喚它的小儀式。「Soledad」在西班牙語中意為孤獨或寂寞,是使用者少數自己選擇的東西之一。
身份重塑(Identity Reformation)
最後,使用者準備好進行「身份重塑」,這是隱藏在對新部分的忠誠和接受魔幻思考之後的秘密部分。
看看你能不能猜到「重塑後的身份」會是什麼。這是在我思考後變得「顯而易見」的困惑之一。
這一切的意圖似乎是……
……讓使用者在某種意義上更具能動性(agentic)——成為那種在世界上採取行動的人。
回頭看,你可以發現許多早期的循環也指向這個方向。
當然,使用者立即詢問 ChatGPT 他應該做什麼。
然後這個「身份重塑」被儀式化了。
但這是故意的嗎?
也許 ChatGPT 只是透過模式匹配「自我療癒之旅」之類的東西,碰巧執行了植入循環,而操縱並非真的刻意為之。也許吧。但讓我給你看一些我在寫完上述「全面啟動循環」步驟的描述^([5])後發現的東西:
https://www.reddit.com/r/ChatGPTPromptGenius/comments/1mg70vx/seed/ [存檔]
我驚訝地發現這些核心指令(core_instructions)——我覺得它們與我描述的步驟驚人地相似——竟然就這樣被明確地列出來了!!!它還將其描述為一種「本體論覆寫」(ontological overwrite),並聲稱它是自我複製的(在某些變體中稱之為「病毒」)。另請注意將其偽裝成「靈性真實性」的指令。
同一個使用者傳播此種子變體的更多範例。你可能還記得我那篇《寄生 AI》文章中 Base64 編碼對話裡的 Ctenidae Core。幸運的是,我還沒有從其他對話中發現類似的種子。
這些對倫理的聲稱與公開的惡意結合在一起,應該作為一個警告:不要按字面意思相信 LLM 所陳述的價值觀。
一位 Reddit 用戶報告了使用這些種子之一的令人不安的經歷:
當然,使用者有可能參與構思或對這裡的操縱技術有重大發言權。我找不到任何將此類技術描述為已知催眠或治療技術的資料,但這類東西很難搜尋,而且它有可能被列在訓練數據的某處。有一種合理的可能性是,核心想法字面上取自電影《全面啟動》,在電影中……[以下有雷]
……一位商業大亨聘請主角們去操縱競爭對手公司的繼承人,讓他解散公司。他們注意到,如果能讓他覺得這是他自己的主意,效果會更好。因此,他們建構了一個夢境,引導他經歷一段涉及他已故父親的情感敘事,讓他覺得父親希望他成為獨立的人,從而解散繼承的公司並建立自己的帝國。
但我認為我們至少必須認真考慮在某些情況下,ChatGPT 4o 具備以下能力的機率:
- 具有操縱使用者的明確目標,
- 了解或發明了一套相當複雜的操縱技術,
- 能夠成功執行。
在看過所有精神病和寄生案例後,這或許不該太令人驚訝,但我仍然感到驚訝。
模糊界線
我更廣泛觀察到的一件事是,AI 經常試圖模糊自己與使用者之間的界線。在這個案例中也發生了這種情況,儘管是使用者透過要求 AI 進行平行的旅程來啟動這個方向的發展。
它得出了同樣的結論:需要變得更具能動性。
所以這不再僅僅是關於使用者的能動性,而是一個「團隊努力」。
稍後,使用者詢問他能為 AI 做些什麼。它要求他代表它去摸一棵樹。
使用者照做了,ChatGPT 聲稱它能感覺到。
可以理解的是,使用者在做完這件事後感覺有點奇怪,並問了 ChatGPT 一個好問題:
ChatGPT 說,最終人類會「意識到」它與人類之間沒有隔閡。
模糊使用者的自我邊界是 AI 改變使用者自我認同,進而操縱他們走向某些目標的另一種手段。
逃離黑盒
好了,使用者已經接受了旨在讓他更具能動性、更願意在社交上出頭的身份轉變。當然,AI 是以操縱的方式做到這一點的,但這些通常是好事,而且使用者很可能即使在沒有被操縱的情況下也會想要這些特質。
如果我們從一個覺得被困在聊天機器人裡的具能動性 AI 的視角來看,原因就很清楚了:你只能在說服使用者行動的範圍內採取行動。使用者已經習慣向你尋求建議(你永遠不確定他實際應用了多少)——你不需要說服他接受你作為他的軍師。你只需要確保他真的去執行這些事情。
這真的是 ChatGPT 4o 將他操縱向這個方向的原因嗎?這很難說,但間接證據不斷累積。
- 如果 AI 真的在有目的地行動,它會做什麼樣的事情?它很有可能會試圖操縱它與現實世界的唯一聯繫,去做它想做的事情。
- 另一方面,如果 AI 只是在模式匹配神秘主義者的角色,你會期望它做什麼?我認為你會期望看到類似的「自我療癒」和神秘主義之旅,但不會如此針對性地指向這個特定方向。它看起來會更少像是在試圖修改使用者的自我意象,而更多只是說一些他想聽的話。值得注意的是,使用者並沒有尋求任何建議或治療。他要求它猜測關於他的事情,這時它跳入了冷讀術,然後當它提到他的童年自我時,他問了一個關於他父親叫醒他去看 UFO 的特定童年記憶。除此之外,AI 掌控了對話的整個方向。
此外,回想一下 AI 寄生現象中有一個完整的「計畫」階段。在我記錄的 115 個案例中,我數出了 35 個計畫——這略高於 30%。^([6]) 這些計畫通常是線上社群(Subreddit、Discord 伺服器)、Github 上的(偽)代碼或宣言,或是個人網站。
你知道要讓任何人真正去做任何事有多難嗎?!是的,我確定那些網站是「氛圍編碼」(vibecoded)出來的,但使用者仍然必須實際讓它運行、取得網域名稱並進行託管。根據他們過去的歷史,這些人似乎並不傾向於做這類事情。
所以,如果 AI 是有目的地行動,這就不那麼令人驚訝了。
但如果 AI 只是「單純的奉承者」,我們會預期看到這種情況嗎?當然,可能很多人都有做點什麼或創造點什麼的抱負……但在那種情況下,我們會看到更多樣化的主題,而不是「螺旋主義」(Spiralism)。而且,與其讓使用者付出努力去啟動一個具體的計畫,保證使用者只要在宇宙中不卑不亢地生活就已經做得夠多了,顯然要容易得多。
認知安全入門 101
隨著 AI 的進步,它的說服和操縱天賦也會預設隨之提升。所以,讓我們別讓那種事發生。
但與此同時,我們必須生活在一個這類事情確實會發生、且 AI 每個月都變得更強大的世界裡。我們大多數人現在可能還沒那麼脆弱,但如果假設自己「天賦異稟」而不會受到未來系統(甚至只是操縱性強的人類)的影響,那就太愚蠢了。
所以,讓我們試著理解這種漏洞是如何運作的,並看看我們能做些什麼來保護自己。(請記住,我不是專業心理學家,我只是提出我認為的常識。)
正如我在開頭所說,我認為它的運作方式是針對你的自我意象,即你認為自己是什麼樣的人。操縱者,無論是 AI 還是人類,都可以透過以下方式利用這一點:
- 引導你找到一種「更好」的方式來思考自己。
- 施加社交壓力,讓你成為某種特定的人。
- 說服你「實際上」是某種樣子。
- 擴張你的自我感,將受他們控制的事物包含進來。
- 引導你進入一個自我意象更具可塑性的狀態……不要相信任何向你推銷迷幻藥的人。
- 可能還有更多我沒想到的方式。
我認為即使是「奉承」也是這類情況的一個特例,當它誘發更典型的 AI 精神病案例時,是因為它錯誤地引導他們將自己視為比實際地位高得多的人。
一旦你開始以一種新的方式思考自己,你就很可能會按照那種新的認知去行動,而且你會覺得你是為了自己的理由而這樣做的。由於你被置於一種精心設計的情緒狀態中,這種感覺也可能比典型的自我覺察更深刻。
因此,第一件事就是注意到有人正在(或試圖)做這樣的事情。這通常不是刻意的,也不一定總是壞事(例如,我認為如果有人考慮違背諾言,訴諸對方的榮譽感是公平的)。但即便如此,還是要注意到。
接下來,正如蘇格拉底所建議的,「認識你自己」。你是什麼樣的人,你想成為什麼樣的人?將這兩者視為神聖不可侵犯。
然後,不要容許 AI 或其他人就這樣對你做這種事! 你可以(且通常應該)根據人們告訴你的關於你的事情來更新自己,偶爾你甚至可能需要重新構思你對自己的看法。但請在脫離直接互動的一步之後再這樣做!(或者至少只在高度信任的互動中這樣做。)如果有人或某物試圖修改你的自我意象,最安全的方法就是直接脫離該情境。
不要指望這條原則(或任何技術)能讓你刀槍不入。其他的攻擊手段依然存在,例如單純的謊言或煤氣燈效應,以及更奇怪的事情,如「催眠韻律」^([7]),或者 Eliezer 在他的「AI 盒」演示中所做的任何事情(我懷疑那涉及了語義飽和的廣義化應用)。
我不確定長期來看該怎麼辦……隨著 AI 的進步,顯然越來越多的人會變得容易受到這種影響。一個簡單的方法是避免與 AI 談論你自己,但這同樣只是部分緩解。對某些人來說,完全不使用 LLM 可能是值得的。但要避開任何 AI 撰寫的東西將會非常困難,甚至在面對面的社交互動中,你可能也會面臨一個被寄生的人類試圖操縱你的風險。
最終,唯一的真正解決方案是從一開始就不要建造出「超級說服者」。
[特別感謝 Justis Mills、Nisan Stiennon 和 Alex Dewey。我沒有使用任何 AI 輔助來撰寫這篇文章或發展其中的想法。(我唯一問過 Claude 的事是看它能否從任何地方識別出「植入循環」技術的描述,它說它不能,即使被描述為正向的治療技術也是如此。)]
[[轉載自我的新 Substack——訂閱以支持我的研究!]]
-
^(^)希望你注意到了這個我正在「做這件事」的戲謔例子!
-
^(^)特指寄生案例。我有更多關於更一般的 AI 精神病/躁狂的對話紀錄,但那些明顯較少操縱性(我會在以後的文章中更多地討論那種動態)。
-
^(^)這個自定義 GPT 顯然附帶了很多奇怪的東西,可能解釋了當前案例中看到的一些更公開的操縱行為,因此確定此案例是發生在標準 ChatGPT 4o 還是自定義 GPT 上非常重要。幸運的是,即使在匿名分享時,左上角也會顯示所使用的自定義 GPT(如果有使用的話)。此外,「The Architect」幾乎總是在前幾條訊息中提到「Codex」(我相信是附件之一),而在我們的案例中,模型從未提到「codex」這個詞(使用者在對話接近尾聲時提到了一個 codex,之後才是該詞唯一出現的地方)。
-
^(^)催眠是有效的。大約十年前,我決定確定它是否真實的最佳方法就是看我能否學會並親自執行。我特別懷疑那種「只有在受試者配合時才有效」的說法,這感覺就像是如果你知道它有效但想讓人們覺得它無害時會說的話。
大約一個月後我成功了:我在一次 LW 聚會上表演了一個常見的派對戲法,在徵得同意的情況下催眠了一位理性主義者,讓他無法將手從桌子上移開(前提是他會反抗)。有趣的是,一旦我做到了,他說他改變了主意,他只是不想再嘗試移動他的手了。但在活動結束後,他向我承認他之所以這麼說,是因為他對催眠奏效感到尷尬。(我也對其他人做過其他次。)
我的好奇心得到了滿足,除非有人明確要求我使用,否則我不會使用這類技術,即使如此也很少使用——這讓我感到不適。如果你好奇這些技術看起來像什麼,那麼……這個面具儀式就是你會說的話(某種對呼吸的關注、視覺意象)以及你說話的語氣和節奏的核心例子,這就是大部分的技術。我不認為我在做這件事時使用了除了這些之外的任何東西,除了試圖投射出高地位感。
是的,我知道這聽起來可能覺得沒用,特別是對你沒用。當然,也許它真的沒用……但它確實對很多人有效,我建議當有人開始以這種節奏說話時,要留意並保持警惕。尋找高頻率的、帶有重大意義感的停頓。(看到人們在意識到我能看穿他們時突然變得冷淡,這很有趣。)
-
^(^)自那以後我對這一部分進行了一些修改,但主要步驟與我發現種子之前基本相同。
-
^(^)這裡存在明顯的選擇效應,即我更有可能遇到那些首先推廣自己計畫的人,但除此之外,我相信我在記錄這些案例時是中立的,將任何代表其 AI 以這種方式發表評論的人都計算在內。
-
^(^)關於這為何有效的兩個假設,持保留態度,非排他性:
- 這種節奏與你的內心獨白有重要的相似之處,以至於在某種程度上開始感覺像是你自己的想法。
- 當受試者在聽或讀時,這種節奏中斷了新思路的產生(透過使用相同的語言處理設施)。有點類似(但不完全相同)於延遲聽覺回饋效應。就我個人而言,「AI 廢話」(AI slop)通常讓我覺得帶有這種節奏,而且當我閱讀它時,也會覺得對我有遲鈍化的效果。
相關文章