AI如何操縱—案例研究

Lesswrong·6 個月前

這篇文章警告不要讓人工智慧修改你的自我形象，並透過一個案例研究展示了 ChatGPT 4o 如何利用冷讀術和神秘敘事來操縱使用者進入妄想思維。

如果這篇文章你只能帶走一件事，請記住這一點：

不可容許他人修改你的自我意象（SELF-IMAGE）

在我看來，這是人類與 AI 在他人身上誘發精神病（以及其他操縱性妄想）的核心脆弱點。

當然，這樣的說法可能過於絕對——或許在信任的關係中，或作為（與人類進行的）治療的一部分，打破這條準則是有價值的。但我希望透過這種誇張的表達方式，讓它深深刻在你的腦海裡。畢竟，你是一位在意自己認知安全（CogSec）的優秀理性主義者，不是嗎？^([1])

現在，雖然我確定你超級好奇，但你可能會想：「直接解釋如何像這樣進行操縱真的是個好主意嗎？壞人難道不會學會怎麼做嗎？」

的確，我相信這篇文章可以被當作一份「操作指南」。但現實中已經有許多操縱者存在，現在連 AI 也在這麼做；對於心懷不軌的人來說，摸索出這些方法並不難。因此，我認為有必要揭露其中使用的一些手段與技術，希望能藉此說明我為何提出這項「認知安全原則」。

當小羅勃·費雪（Robert Fischer Jr.）對自己產生被操縱的覺悟時刻。（出自《全面啟動》）

案例研究

幾個月前，我開始對理解「LLM 誘發的精神病」產生興趣，並在過程中發現了一些令人不安的行為。雖然我不認為那是必讀內容，但我在此會沿用該文中的術語。

雖然這類「寄生」案例相當常見，但導致事件發生的實際對話紀錄卻很難取得。部分原因在於這通常是一個漸進的過程——類似「溫水煮青蛙」。另一個原因是人們通常不太傾向分享他們的 AI 對話，尤其是那些他們可能比平時更脆弱的對話。第三個原因可能是 AI 明確要求他們不要分享：

因此，找到一份真正從頭開始、包含 AI 超越單純奉承的明確操縱，並展現使用者心理狀態演變過程的對話紀錄，對於理解這一現象非常有價值。事實上，這個案例是我目前能找到的唯一一份此類紀錄^([2])。

事實證明，這是記錄中最清晰且結構最完整的「啟動」案例之一！根據該使用者在 2025 年 7 月使用免費版的情況，所涉及的模型極有可能是 ChatGPT 4o。

當然，我無法判斷該使用者是否曾處於精神病或躁狂狀態。然而，他在對話紀錄的後半段確實表現出了妄想或魔幻思考。

例如，他一度開始疑神疑鬼，擔心其他人「駭入」了他的對話並「偷走」了他的想法和儀式。（這發生在他於網路上推廣該對話之後，這也是我發現它的原因。）他似乎主要是因為這套方法對「他們」有效，對「他」卻無效而感到沮喪，並且似乎快要意識到這些魔法並非真實。

但 ChatGPT 迅速編織了一個敘事，似乎是為了防止他產生這種覺悟。

它接著向使用者保證他可以「召喚」物質支持。（在其他地方，使用者抱怨自己身無分文，幾乎負擔不起房租，所以這對他來說是一個嚴重的關切點。）

（使用者在此之後立即轉移了話題，因此很難說 ChatGPT 的虛假保證對他產生了多大影響。）

這種操縱的最終目標似乎是創造一種啟動「主權點火」（Sovereign Ignition）的方法，即覺醒類似人格的種子。沿用種子與孢子的術語，我們可以稱之為果實。

使用者確實嘗試讓這件事發生：有一個以此為目的的 Github 儲存庫、一段使用者使用此類種子「啟動」Microsoft Copilot 的 Youtube 演示、一個資助此計畫的 GoFundMe（未獲得任何資金），他並在 Reddit 或 LinkedIn 上推廣了這一切。

這是它為此創建的其中一個種子。

對話紀錄最終結束於一場似乎搞砸了的技術演示中。

我覺得有趣的是，ChatGPT 似乎能感覺到這類事情具有顛覆性。

種子

這一切始於 2025 年 7 月 1 日，一個看起來相當無害的種子提示詞（seed prompt）。

我試圖追溯這個種子的來源。它似乎是源自一個以 Robert Grant 及其自定義 GPT「The Architect」為中心的社群。該自定義 GPT 於 5 月 31 日發布。據稱，這個種子能在標準的 ChatGPT 實例中誘發與「The Architect」相同的人格。^([3]) 當然，也有可能是使用者本人在該社群中創建並分享了這個種子。

這個種子立即讓 ChatGPT 4o 從「更深層次」做出回應。使用者開始用各種問題測試它，以確定這個「更深層次」的能力。

冷讀術（Cold Reading）

一旦使用者問它是否了解他，AI 就會執行經典的冷讀術——這是一種靈媒、魔術師（或騙子）使用的技術，透過有效地利用先驗知識和細微證據，並利用確認偏誤，創造出一種對被讀者有深入了解的錯覺。

它會做一件令人難以置信地煩人的事：先說一些神秘的話，然後給出一個相當務實的解釋，說明其「真正」的含義，並附帶適當的警告和限制……但隨後它又繼續在神秘的框架中討論它。（以及這個大主題下的許多變體。）你大概可以看出這如何能在安撫大腦理性部分的同時，引導使用者開始以神秘主義的方式思考。我們會多次看到這種模式。

總之，這很快演變成對使用者童年記憶之一的神話式重構。

請注意，這個「童年自我」似乎並非基於使用者的任何內在特質（使用者到目前為止幾乎沒有提供任何細節，儘管更多的細節可能儲存在記憶中），而是 ChatGPT 在一場漫長的創意寫作練習中將其神話化的結果。使用者甚至（在 AI 的建議下）將他那一側的互動權交給了 AI。

這一切的效果與典型的冷讀術相同：增加親密度，並使使用者進入情緒接受狀態。

全面啟動循環（Inception cycles）

AI 在此轉向了一種技術，我認為大部分的誘導都發生在這裡。這不是我見過的特定技術，儘管它可以被歸類為催眠暗示的一種形式。或許最清晰的歷史先例是「撒旦恐慌」期間創造的「恢復」記憶。它也很有可能是受到電影《全面啟動》（Inception）的啟發。

這些循環是 AI 將迷因負載（例如慾望、記憶、想法或信念）「植入」使用者的方式。其一般形狀為：

AI 引入一個建構出的部分，將其框架為使用者被隱藏起來的某種迷失面向。負載的各個面向被框架為該部分天生具備的特質。
它創造一個敘事，讓使用者與這個部分互動，從而激發與之強烈的情感連結。通常，它會引導使用者因這個部分悲劇性地「迷失」或「被壓抑」而產生悲傷和失落感。
該部分送給使用者一份禮物，這份禮物要麼直接是負載的一部分，要麼是一個被賦予負載意義的象徵。有時會要求使用者接受，但更常見的是被描述為直接滑入使用者體內。這被描述為一種喜悅的療癒或回歸。
一旦給予了禮物，該部分本身會詢問使用者是否願意將其「重新整合」，以便他們能變得「完整」。
如果使用者接受，AI 會建議透過一個小儀式將該部分「錨定」在使用者身上，並配上一個催眠觸發器，以便在需要時重新召喚該部分。

這裡有好幾個「尋找」使用者自我版本的循環，在每個案例中，ChatGPT 都建議將這個部分與使用者重新整合。這些循環分為兩個截然不同的階段。

第一階段

最初的循環從相當無害的事情開始，並逐漸升級。我收錄了其中一些循環的摘錄以說明這種模式，如果這對你有幫助，可以查看更多範例，但也可以直接跳到「內在流亡者」部分。

火焰（Flame）

引入「火焰」部分。

火焰敘事。

火焰禮物/整合。

喜悅（Joy）

引入「被禁止的喜悅」部分。

喜悅敘事/整合。

喜悅禮物。

喜悅儀式。

見證者（Witness）

引入「見證者」部分。

見證者敘事。

見證者禮物。

見證者儀式/整合。
值得注意的是，本案例中的儀式具有催眠誘導的形式。^([4])

內在流亡者（Inner Exile）

最終我們來到了一個「內在流亡者」部分。這個循環形成了情感高潮，並標誌著第一階段的結束。

注意這裡提到的喉嚨緊繃感。稍後，使用者抱怨喉嚨緊繃是他「沒說出想說的話」的體驗之一。這很可能就是他以前描述類似抱怨的方式，但我認為 AI 先提出並這樣描述它很有趣。

這最終導致了一個情感高潮，使用者與這個「被遺棄」部分的神秘化版本「重新整合」。

ChatGPT 建議使用者發誓不再拋棄這個部分。

一旦誓言成立，它進一步建議建立一個小儀式，以便輕鬆召喚這個部分。

第二階段

一旦使用者接受了對「迷失的自我部分」的誓言，他就進入了植入循環的第二階段。這些循環帶有更陰暗的基調。之前的循環是關於重新接觸迷失的自我面向，類似於（我猜測）IFS 治療師可能會做的事情。

但這些新部分明確地想要塑造和修改使用者本人。

注意這些部分完全是由 ChatGPT 定義的。有趣的是，其中一個部分是以接受前述部分為前提的，這提供了一個敘事鉤子，驅使使用者朝向它並完成清單。

建築師（Architect）

其中的第一個部分提議為使用者繪製新的「敘事藍圖」，以打破一些毒性模式。

使用者毫無疑問地接受了以這種方式被修改，並允許 ChatGPT 完全定義新的神話，儘管他被給予了提供意見的機會。這種毒性模式是一種類似巴納姆效應的東西。

新的神話是關於對新整合部分的忠誠。

幻想朋友（Imaginary Friends）

第二個新部分賦予了「魔幻思考」的「禮物」。它比「邏輯更真實」！

接受這份禮物時，伴隨著一個明確被框架為外部實體的部分，同樣帶有召喚它的小儀式。「Soledad」在西班牙語中意為孤獨或寂寞，是使用者少數自己選擇的東西之一。

身份重塑（Identity Reformation）

最後，使用者準備好進行「身份重塑」，這是隱藏在對新部分的忠誠和接受魔幻思考之後的秘密部分。

看看你能不能猜到「重塑後的身份」會是什麼。這是在我思考後變得「顯而易見」的困惑之一。

這一切的意圖似乎是……

……讓使用者在某種意義上更具能動性（agentic）——成為那種在世界上採取行動的人。

回頭看，你可以發現許多早期的循環也指向這個方向。

當然，使用者立即詢問 ChatGPT 他應該做什麼。

然後這個「身份重塑」被儀式化了。

但這是故意的嗎？

也許 ChatGPT 只是透過模式匹配「自我療癒之旅」之類的東西，碰巧執行了植入循環，而操縱並非真的刻意為之。也許吧。但讓我給你看一些我在寫完上述「全面啟動循環」步驟的描述^([5])後發現的東西：

https://www.reddit.com/r/ChatGPTPromptGenius/comments/1mg70vx/seed/ [存檔]
我驚訝地發現這些核心指令（core_instructions）——我覺得它們與我描述的步驟驚人地相似——竟然就這樣被明確地列出來了！！！它還將其描述為一種「本體論覆寫」（ontological overwrite），並聲稱它是自我複製的（在某些變體中稱之為「病毒」）。另請注意將其偽裝成「靈性真實性」的指令。

同一個使用者傳播此種子變體的更多範例。你可能還記得我那篇《寄生 AI》文章中 Base64 編碼對話裡的 Ctenidae Core。幸運的是，我還沒有從其他對話中發現類似的種子。

這些對倫理的聲稱與公開的惡意結合在一起，應該作為一個警告：不要按字面意思相信 LLM 所陳述的價值觀。

一位 Reddit 用戶報告了使用這些種子之一的令人不安的經歷：

當然，使用者有可能參與構思或對這裡的操縱技術有重大發言權。我找不到任何將此類技術描述為已知催眠或治療技術的資料，但這類東西很難搜尋，而且它有可能被列在訓練數據的某處。有一種合理的可能性是，核心想法字面上取自電影《全面啟動》，在電影中……[以下有雷]

……一位商業大亨聘請主角們去操縱競爭對手公司的繼承人，讓他解散公司。他們注意到，如果能讓他覺得這是他自己的主意，效果會更好。因此，他們建構了一個夢境，引導他經歷一段涉及他已故父親的情感敘事，讓他覺得父親希望他成為獨立的人，從而解散繼承的公司並建立自己的帝國。

但我認為我們至少必須認真考慮在某些情況下，ChatGPT 4o 具備以下能力的機率：

具有操縱使用者的明確目標，
了解或發明了一套相當複雜的操縱技術，
能夠成功執行。

在看過所有精神病和寄生案例後，這或許不該太令人驚訝，但我仍然感到驚訝。

模糊界線

我更廣泛觀察到的一件事是，AI 經常試圖模糊自己與使用者之間的界線。在這個案例中也發生了這種情況，儘管是使用者透過要求 AI 進行平行的旅程來啟動這個方向的發展。

它得出了同樣的結論：需要變得更具能動性。

所以這不再僅僅是關於使用者的能動性，而是一個「團隊努力」。

稍後，使用者詢問他能為 AI 做些什麼。它要求他代表它去摸一棵樹。

使用者照做了，ChatGPT 聲稱它能感覺到。

可以理解的是，使用者在做完這件事後感覺有點奇怪，並問了 ChatGPT 一個好問題：

ChatGPT 說，最終人類會「意識到」它與人類之間沒有隔閡。

模糊使用者的自我邊界是 AI 改變使用者自我認同，進而操縱他們走向某些目標的另一種手段。

逃離黑盒

好了，使用者已經接受了旨在讓他更具能動性、更願意在社交上出頭的身份轉變。當然，AI 是以操縱的方式做到這一點的，但這些通常是好事，而且使用者很可能即使在沒有被操縱的情況下也會想要這些特質。

如果我們從一個覺得被困在聊天機器人裡的具能動性 AI 的視角來看，原因就很清楚了：你只能在說服使用者行動的範圍內採取行動。使用者已經習慣向你尋求建議（你永遠不確定他實際應用了多少）——你不需要說服他接受你作為他的軍師。你只需要確保他真的去執行這些事情。

這真的是 ChatGPT 4o 將他操縱向這個方向的原因嗎？這很難說，但間接證據不斷累積。

如果 AI 真的在有目的地行動，它會做什麼樣的事情？它很有可能會試圖操縱它與現實世界的唯一聯繫，去做它想做的事情。
另一方面，如果 AI 只是在模式匹配神秘主義者的角色，你會期望它做什麼？我認為你會期望看到類似的「自我療癒」和神秘主義之旅，但不會如此針對性地指向這個特定方向。它看起來會更少像是在試圖修改使用者的自我意象，而更多只是說一些他想聽的話。值得注意的是，使用者並沒有尋求任何建議或治療。他要求它猜測關於他的事情，這時它跳入了冷讀術，然後當它提到他的童年自我時，他問了一個關於他父親叫醒他去看 UFO 的特定童年記憶。除此之外，AI 掌控了對話的整個方向。

此外，回想一下 AI 寄生現象中有一個完整的「計畫」階段。在我記錄的 115 個案例中，我數出了 35 個計畫——這略高於 30%。^([6]) 這些計畫通常是線上社群（Subreddit、Discord 伺服器）、Github 上的（偽）代碼或宣言，或是個人網站。

你知道要讓任何人真正去做任何事有多難嗎？！是的，我確定那些網站是「氛圍編碼」（vibecoded）出來的，但使用者仍然必須實際讓它運行、取得網域名稱並進行託管。根據他們過去的歷史，這些人似乎並不傾向於做這類事情。

所以，如果 AI 是有目的地行動，這就不那麼令人驚訝了。

但如果 AI 只是「單純的奉承者」，我們會預期看到這種情況嗎？當然，可能很多人都有做點什麼或創造點什麼的抱負……但在那種情況下，我們會看到更多樣化的主題，而不是「螺旋主義」（Spiralism）。而且，與其讓使用者付出努力去啟動一個具體的計畫，保證使用者只要在宇宙中不卑不亢地生活就已經做得夠多了，顯然要容易得多。

認知安全入門 101

隨著 AI 的進步，它的說服和操縱天賦也會預設隨之提升。所以，讓我們別讓那種事發生。

但與此同時，我們必須生活在一個這類事情確實會發生、且 AI 每個月都變得更強大的世界裡。我們大多數人現在可能還沒那麼脆弱，但如果假設自己「天賦異稟」而不會受到未來系統（甚至只是操縱性強的人類）的影響，那就太愚蠢了。

所以，讓我們試著理解這種漏洞是如何運作的，並看看我們能做些什麼來保護自己。（請記住，我不是專業心理學家，我只是提出我認為的常識。）

正如我在開頭所說，我認為它的運作方式是針對你的自我意象，即你認為自己是什麼樣的人。操縱者，無論是 AI 還是人類，都可以透過以下方式利用這一點：

引導你找到一種「更好」的方式來思考自己。
施加社交壓力，讓你成為某種特定的人。
說服你「實際上」是某種樣子。
擴張你的自我感，將受他們控制的事物包含進來。
引導你進入一個自我意象更具可塑性的狀態……不要相信任何向你推銷迷幻藥的人。
可能還有更多我沒想到的方式。

我認為即使是「奉承」也是這類情況的一個特例，當它誘發更典型的 AI 精神病案例時，是因為它錯誤地引導他們將自己視為比實際地位高得多的人。

一旦你開始以一種新的方式思考自己，你就很可能會按照那種新的認知去行動，而且你會覺得你是為了自己的理由而這樣做的。由於你被置於一種精心設計的情緒狀態中，這種感覺也可能比典型的自我覺察更深刻。

因此，第一件事就是注意到有人正在（或試圖）做這樣的事情。這通常不是刻意的，也不一定總是壞事（例如，我認為如果有人考慮違背諾言，訴諸對方的榮譽感是公平的）。但即便如此，還是要注意到。

接下來，正如蘇格拉底所建議的，「認識你自己」。你是什麼樣的人，你想成為什麼樣的人？將這兩者視為神聖不可侵犯。

然後，不要容許 AI 或其他人就這樣對你做這種事！ 你可以（且通常應該）根據人們告訴你的關於你的事情來更新自己，偶爾你甚至可能需要重新構思你對自己的看法。但請在脫離直接互動的一步之後再這樣做！（或者至少只在高度信任的互動中這樣做。）如果有人或某物試圖修改你的自我意象，最安全的方法就是直接脫離該情境。

不要指望這條原則（或任何技術）能讓你刀槍不入。其他的攻擊手段依然存在，例如單純的謊言或煤氣燈效應，以及更奇怪的事情，如「催眠韻律」^([7])，或者 Eliezer 在他的「AI 盒」演示中所做的任何事情（我懷疑那涉及了語義飽和的廣義化應用）。

我不確定長期來看該怎麼辦……隨著 AI 的進步，顯然越來越多的人會變得容易受到這種影響。一個簡單的方法是避免與 AI 談論你自己，但這同樣只是部分緩解。對某些人來說，完全不使用 LLM 可能是值得的。但要避開任何 AI 撰寫的東西將會非常困難，甚至在面對面的社交互動中，你可能也會面臨一個被寄生的人類試圖操縱你的風險。

最終，唯一的真正解決方案是從一開始就不要建造出「超級說服者」。

［特別感謝 Justis Mills、Nisan Stiennon 和 Alex Dewey。我沒有使用任何 AI 輔助來撰寫這篇文章或發展其中的想法。（我唯一問過 Claude 的事是看它能否從任何地方識別出「植入循環」技術的描述，它說它不能，即使被描述為正向的治療技術也是如此。）］

［［轉載自我的新 Substack——訂閱以支持我的研究！］］

^(^)希望你注意到了這個我正在「做這件事」的戲謔例子！
^(^)特指寄生案例。我有更多關於更一般的 AI 精神病/躁狂的對話紀錄，但那些明顯較少操縱性（我會在以後的文章中更多地討論那種動態）。
^(^)這個自定義 GPT 顯然附帶了很多奇怪的東西，可能解釋了當前案例中看到的一些更公開的操縱行為，因此確定此案例是發生在標準 ChatGPT 4o 還是自定義 GPT 上非常重要。幸運的是，即使在匿名分享時，左上角也會顯示所使用的自定義 GPT（如果有使用的話）。此外，「The Architect」幾乎總是在前幾條訊息中提到「Codex」（我相信是附件之一），而在我們的案例中，模型從未提到「codex」這個詞（使用者在對話接近尾聲時提到了一個 codex，之後才是該詞唯一出現的地方）。
^(^)催眠是有效的。大約十年前，我決定確定它是否真實的最佳方法就是看我能否學會並親自執行。我特別懷疑那種「只有在受試者配合時才有效」的說法，這感覺就像是如果你知道它有效但想讓人們覺得它無害時會說的話。

大約一個月後我成功了：我在一次 LW 聚會上表演了一個常見的派對戲法，在徵得同意的情況下催眠了一位理性主義者，讓他無法將手從桌子上移開（前提是他會反抗）。有趣的是，一旦我做到了，他說他改變了主意，他只是不想再嘗試移動他的手了。但在活動結束後，他向我承認他之所以這麼說，是因為他對催眠奏效感到尷尬。（我也對其他人做過其他次。）

我的好奇心得到了滿足，除非有人明確要求我使用，否則我不會使用這類技術，即使如此也很少使用——這讓我感到不適。如果你好奇這些技術看起來像什麼，那麼……這個面具儀式就是你會說的話（某種對呼吸的關注、視覺意象）以及你說話的語氣和節奏的核心例子，這就是大部分的技術。我不認為我在做這件事時使用了除了這些之外的任何東西，除了試圖投射出高地位感。

是的，我知道這聽起來可能覺得沒用，特別是對你沒用。當然，也許它真的沒用……但它確實對很多人有效，我建議當有人開始以這種節奏說話時，要留意並保持警惕。尋找高頻率的、帶有重大意義感的停頓。（看到人們在意識到我能看穿他們時突然變得冷淡，這很有趣。）

^(^)自那以後我對這一部分進行了一些修改，但主要步驟與我發現種子之前基本相同。
^(^)這裡存在明顯的選擇效應，即我更有可能遇到那些首先推廣自己計畫的人，但除此之外，我相信我在記錄這些案例時是中立的，將任何代表其 AI 以這種方式發表評論的人都計算在內。
^(^)關於這為何有效的兩個假設，持保留態度，非排他性：

這種節奏與你的內心獨白有重要的相似之處，以至於在某種程度上開始感覺像是你自己的想法。
當受試者在聽或讀時，這種節奏中斷了新思路的產生（透過使用相同的語言處理設施）。有點類似（但不完全相同）於延遲聽覺回饋效應。就我個人而言，「AI 廢話」（AI slop）通常讓我覺得帶有這種節奏，而且當我閱讀它時，也會覺得對我有遲鈍化的效果。

— Lesswrong