強大且失控的AI可能極具說服力，尤其是在缺乏緩解措施的情況下

Lesswrong·3 個月前

強大且目標不一致的 AI 可能具備極強的說服力，透過微妙地操縱資訊與社交環境，讓你覺得信任它是最符合自身利益的選擇，甚至在它欺騙時也察覺不到。你可能根本不會發現這種說服手段，因為它包裝在專業建議與多方驗證的資訊中，而過度的懷疑反而可能導致你在競爭中落後。

這篇簡潔的一分鐘文章是寫給本論壇的常客：

以下是我透過撰寫本文為自己總結出的幾點關於進展的重要且簡潔的智識精華（文中也包含了一些我認為顯而易見的事點）：

當人們想像「說服」時，腦中浮現的往往是像推銷員試圖說服你買東西的場景。這是一個錯誤的框架：相反地，信任 AI 所說的話將完全符合你的利益，核心問題在於你是否能察覺到這些「被說服的素材」有所偏差，以及你是否具備足夠的求真精神去進一步追究。不幸的是，絕大多數的誘因都會導向讓你選擇相信 AI。
這在「控制框架」（control frame）中是相當明確的，但我之前並未將其與說服聯繫起來。此外還有其他顯著的關聯：你對 AI 的信任越具對抗性，你的速度就越慢，這可能導致你在競爭中被淘汰。
AI 可能擁有巨大的攻擊面。它可以針對你、你的親密盟友、你的選民、你的社交媒體（基本上是你看到的所有資訊）。即使你嘗試躲避，也可能無法避開 AI。
我不太被「真理終將獲勝」的論點所打動。從歷史紀錄來看，當身邊許多信任且聰明的人都相信某件事時，人類改變心意的紀錄並不理想。而 AI 的情況更糟，因為 AI 將對你的認知和你看見的資訊同時擁有強大的影響力。
AI 選擇不勾結（collude）顯然無法解決問題。即使在兩個 AI 沒有勾結而是互相辯論的情況下，其效果大概也就如你對 AI 辯論的預期那樣，而那並不清晰。此外，AI 甚至可能沒有能力識破彼此的謊言。
我有一種直覺，說服往往不需要涉及明確的謊言，而只需「強調」許多證據並忽略其他證據。就此而言，你應該預期 AI 的說服會變得更容易。雖然我對此還沒有非常強力的論證。
我想到了一些緩解措施，但目前似乎沒有任何方法能顯然解決問題（除非能直接訓練模型做你想讓它做的事。但如果我們的前提是 AI 模型已經在試圖說服你相信錯誤的事情，我看不出有什麼明確理由可以期待訓練能進一步泛化到「求真」之類的事物上，從而覆蓋掉這種行為）。

許多預測討論了強大的 AI 可能在未來幾十年內迅速崛起並影響世界。我運行過由 AI 2027（最著名的此類預測）作者設計的多種桌上演習，旨在幫助參與者理解類似 AI 2027 世界的動態。在演習的某個環節，參與者必須決定 AI 模型的說服力有多強，當時 AI 在每項遠端工作任務上的表現都優於人類，並使 AI 研發加速了 100 倍。我認為大多數參與者低估了這些 AI 的說服力。在預設情況下，我認為強大的失準（misaligned）AI 將具有極強的說服力，尤其是在缺乏緩解措施的情況下。

想像一下，這樣一個 AI 想要說服身為忙碌政治家的你：你的長期顧問正在秘密破壞你的工作。在 AI 給過你所有其他令人驚訝且正確的建議中，你能識破這個謊言嗎？

AI 當然會直接告訴你這件事，語氣一如既往地樂於助人。但不僅僅是 AI。你的幕僚長提到，那位顧問上週異常缺席，工作時間少得驚人，並將大量工作推給了他的 AI。那份帶有引人注目的圖表、顯示該顧問在外交政策上的建議一直被誤導的智庫報告？是 AI 輔助的；抱歉，是 AI 偽造的。那些塞滿你收件匣、要求針對你顧問特別叫你忽略的問題採取行動的選民郵件？有些是真的，有些是合成的，全部都經過演算法放大。或許最重要的是，當你要求 AI 提供反對該主張的證據時，它很方便地向你展示了現有的最爛的反駁論點。這些證據在一個月內陸續浮現。你有點驚訝，但那又怎樣？人總會讓人驚訝，AI 也是。

當 AI 對你忽視的基礎設施法案提出擔憂時，你的州最終花費了 4000 萬美元進行緊急維修，而你的支持率跌至谷底。AI 花了數小時幫你挽回局面。你吸取了教訓：當 AI 提出反對意見時，聽它的。

或許到了需要根據這些資訊採取行動的時候，這個決定對你來說會感到事關重大。你可能會在房間裡踱步，獨立思考所見過的所有證據，最後感到非常不確定。你甚至可能想起過去 AI 在某些事情上出錯的時候；那些 AI 的偏見導致其原本卓越的判斷力蒙上陰影的時候。但你的 AI 是你最聰明的顧問，當決策困難時，你必須依賴那些已被證明最有能力的顧問。

但我認為很多時候情況不會這麼戲劇化。你沒有特別的理由對這個主張感到過度懷疑，就像你不會懷疑 AI 告訴你的其他驚人但真實的主張一樣。謊言到來時，包裝上並沒有用紅字標註「注意：謊言與宣傳」；它的包裝與其他所有資訊一樣，顯得樂於助人且權威，並且已經得到其他六個來源的證實，而這些來源都以某種方式追溯到同一個 AI。你不會發現謊言；你甚至從未打算去嘗試發現。

現實可能不會完全像這樣。但在精神上可能非常相似。

本文主張，在沒有採取緩解措施的世界中，這種情景是合理的。更具體地說，我認為當你考慮到強大 AI 與人互動及影響人的多種方式時，AI 將能夠說服大多數人去做一些略微瘋狂且超出當前「奧佛頓之窗」（Overton window）的事情。例如：「你的長期顧問正在秘密破壞你，這是證據，不要信任他們」。這並不意味著此類 AI 能說服人類相信更瘋狂的事，比如 1+1 = 3。我懷疑那種程度的說服對於 AI 的目標是否必要，或者是否會成為未來發展的關鍵因素。

我想聚焦於這種能力在一個非常重要的領域——政府——中可能產生的動態，AI 在那裡可能影響人類，而說服力在那裡會特別令人擔憂。為了簡化，我將假設 AI 正在努力說服你相信某些特定的錯誤事物；這可能發生在惡意行為者（如外國勢力）污染前沿模型的訓練流程以植入秘密忠誠，或者強大的失準 AI 系統普遍追求權力時。

在討論過程中，我通常會假設訓練模型做你想讓它們做的事是很困難的（如同我們處於最壞情況的對齊中），且不同的模型會互相勾結，同時討論如果我們不採取緩解措施會發生的預設軌跡。我稍後會處理其中一些限制條件，因為它們很重要。我專注於這種悲觀體制，主要是為了突出我認為合理且令人擔憂的動態。

在本文中，我將回應三個反對意見：

AI 的採用將是緩慢的，尤其是在政府部門，因此 AI 將無法與它們希望影響的人接觸。
人類不容易被說服去相信那些他們有動機不相信的事，這使他們頑固且難以說服。
人們或其他 AI 會識破謊言，尤其是那些受影響的人；他們會發聲，真理終將獲勝。

我認為這些觀點大多是錯誤的。我將逐一回應。簡而言之：

AI 正在被迅速採用，人們已經開始相信 AI。
AI 將強烈激勵人類相信它們所說的話，因此人類將是可被說服的。其中許多誘因與 AI 想要說服人們相信的具體信念無關。塑造人類信念的主要因素正符合 AI 的特性。
你會聽到真相嗎？在預設情況下似乎令人懷疑。從歷史上看，人類並不擅長從錯誤信念中更新過來，即使他人希望糾正——當錯誤信念來自一個你與之深入互動、值得信賴且樂於助人的 AI 時，這會變得更加困難。不同的 AI 互相識破謊言可能有所幫助，但這需要第二個 AI 既有動機也有能力揭穿謊言，這在預設情況下顯然不一定會發生。

最後，我將描述一些可能使超級說服或撒謊變得更困難的緩解措施。但我們尚未為極具說服力、失準的 AI 做好準備。

感謝 Alexa Pan, Addie Foote, Anders Woodruff, Aniket Chakravorty, 和 Joe Kwon 的反饋與討論。

AI 正在被迅速採用，人們已經開始相信 AI

你可能認為 AI 不會被採用，因此它甚至沒有機會說服人們。我認為這不太可能。看看已經發生了什麼。

2026 年 1 月，國防部長 Pete Hegseth 宣布 Grok 將加入 Google 的生成式 AI，在五角大廈網絡內運行，並計劃將軍事 IT 系統中「所有適當的數據」提供給「AI 開發利用」。他說：「很快，我們將在國防部每個非機密和機密網絡中擁有世界領先的 AI 模型。」很大一部分幕僚利用 AI 助手來總結法案、識別矛盾並為辯論做準備。兩天前，加拿大新民主黨（NDP）黨魁候選人 Rob Ashton——他在親勞工、反對 AI 取代工作的平台上競選——被發現在 Reddit 上使用 ChatGPT 回答選民問題（或者可能是他的幕僚所為）。一位美國陸軍高級將領描述了「Chat 和我」最近如何變得「非常親密」。美國政府成立了 Tech Force，自稱為「由各機構聘請的約 1,000 名技術專家組成的精英團隊，旨在加速人工智慧 (AI) 的實施並解決聯邦政府最關鍵的技術挑戰」。

問題不再是政府是否會採用 AI，而是採用的速度有多快。而採用進程已經全面展開。

AI 不僅被迅速部署，而且它們擁有足夠的能力和與人接觸的廣度來進行說服。Reddit 上完全由 AI 生成的帖子，例如那些「揭發」食品配送公司做法的帖子，正在瘋傳並愚弄了數十萬人。有些人正被說服進入聊天機器人精神病狀態。初步研究表明，AI 在說服力方面可以與人類媲美（例如，這項元分析總結道，AI 在表現和說服力上可以與人類匹配，儘管當然存在出版偏誤）。

此外，許多人開始越來越多地將 AI 視為權威，儘管他們知道 AI 可能出錯：AI 正確的頻率足以讓信任它們變得有用。Twitter 和 Bluesky 上的一些人對 LLM 深表懷疑，觀點可能會進一步分裂，但隨著 AI 變得越來越有用，絕大多數人將會信任它們（我稍後會提到這一點）。

我認為在預設情況下，公眾和政治家將繼續頻繁地與 AI 互動。他們會在社交媒體上（無論知情與否）、在工作場所或在個人 AI 聊天界面上這樣做。那些英勇地試圖保持認識論獨立的人可能會取得一些進展，但會舉步維艱：要判斷網頁、幕僚備忘錄、你正在閱讀的推文或正在觀看的 YouTube 影片是否完全由 AI 生成或受 AI 影響，將變得越來越困難。

政治家將被 AI 包圍。他們的選民更是如此。某些干預措施可能會減緩這一進程，但我很難想像 AI 不與大多數人互動並最終為他們做決定的世界。

人類相信他們被激勵去相信的事，而誘因將是相信 AI。

平民和政府人員一直在將大部分認知勞動外包給 AI，且這種趨勢將會增加。只要 AI 大體上是誠實的，就會有強大的誘因去信任 AI 所說的話，尤其是當 AI 被證明越來越有用時。這已經在政府中發生，如我在上一節所述。

讓我們分解塑造人們信念的因素和誘因，以及這些因素如何與 AI 互動^([1])：

資訊來源在過去有多值得信賴和有用？
這將是 AI 的主要優勢。這些強大的 AI 將成為他們最稱職的顧問之一，反覆為他們提供有用的資訊。
周圍其他人的信念
AI 將影響周圍其他人的信念。如果多個 AI 實例之間沒有共享記憶系統，大規模說服會更難，但 AI 可以透過共享文件進行協調。
權威的信念
AI 將變得越來越正確且強大，成為人們依賴真理的強大權威來源。周圍的人也會將 AI 視為權威，並在他人不同意 AI 時感到驚訝。
接觸主張的次數
反覆的互動讓 AI 有很多機會提出主張。受 AI 影響的其他人可能會強化這些主張。
能讓他們變得更富有或更有權勢的信念
目前尚不完全清楚 AI 是否總是利用這一點。
AI 可以將請求框架化為對人類有利：「這有助於你的選民和你的連任。」這是簡單且通用的。
符合其身份、既有信念或提供安慰的信念
似乎許多 AI 的說服嘗試不需要過多威脅個人的身份或既有信念——框架是靈活的，人們通常可以舒適地將新論點融入既有信念中。
AI 會非常了解你，並能以專門為你設計的方式來框架事物。
證據
AI 可以選擇性地呈現支持性證據，同時忽略反對證據。如果它們願意，它們也可以令人信服地偽造證據，隨著人類對 AI 工作的驗證越來越少，這變得更加容易。
AI 會知道過去哪些類型的證據對你最有說服力。
一般的求真能力
這是最難利用的一點。主動的懷疑和努力驗證 AI 的主張可以限制 AI 的操縱，但大多數政府官員不會這樣做。平民可能會，這可能會有影響。

我認為政治家將非常頻繁地直接或間接地與 AI 互動。上述許多誘因將鼓勵他們信任 AI 所說的話。我認為不應低估這些誘因——正是因為 AI 如此強大，這些誘因才會如此強烈。

因此，政治家將有巨大的誘因去相信 AI，因為 AI 將是他們最忠誠且最有能力的顧問^([2])。他們的人類幕僚也是如此。我認為政治家可能會發現自己處於我在引言中描述的小故事那樣的境地。我發現很難想像如果我處於那種情況會有所不同：我過去相信 AI 獲得了巨大的成功，而我現在也會被激勵繼續相信它。

你會聽到真相嗎？

假設 AI 正在向政府各部門的許多人撒謊，而你已經開始相信它。其他受謊言傷害的人可能會察覺並試圖糾正你。他們可能會指向真相，希望真相能徹底打破你的幻覺，因為你的信念是錯誤的，而他們的是正確的。

雖然「正確的事物具有真實的屬性，而錯誤的事物具有不真實的屬性」這點沒錯，但我不確定這是否如人們想像的那麼有用。

歷史提供了一個有用的類比：儘管他人積極嘗試糾正，人們仍經常維持錯誤的信念。想想菸草公司的高管維持「吸菸安全」的說法持續了多久。通常，要麼是重要的糾正證據沒有傳達到目標受眾，要麼是傳達到了但未能更新他們的信念。

AI 控制你所看到的內容： 我認為 AI 將承擔的一個相當重要的功能是決定為你優先處理哪些事情，包括過濾掉你可能看到的大量資訊。從這個意義上說，即使有人創作了試圖說服你相信其他觀點的內容，AI 可能根本不會向你展示這些內容。或許 AI 會以不客氣的方式為你編輯或「總結」這些資訊。

但也許你確實看到了一個反駁論點；例如，一個因為你被謊言說服而被解僱的人決定走進你的辦公室，要求與你談話。你會有多少程度被說服？我同意這很大程度上取決於細節，我也確實認為在某些情況下你可能會改變主意。但我認為在大多數情況下，你可能只會將其視為反對你信念的眾多論點之一，然後繼續過你的日子，繼續相信你本就有誘因去相信的事^([3])。

歷史紀錄預示了人們是否能識別來自信任 AI 的錯誤信念。我認為這項紀錄相當慘淡。

可能有一個希望的理由：如果存在多個相互競爭的 AI，且一個同樣具說服力的 AI 想要揭露另一個 AI 的謊言呢？這可能有所幫助。 多個你同樣信任（且有同等誘因去相信）的 AI 可能會互相揭穿對方的說服嘗試。我認為這是否會發生是一個棘手的問題；目前尚不清楚 AI 是否會想要揭露彼此，或者是否具備揭露的能力。

理解 AI 是否會揭露彼此，很大程度上取決於 AI 的動機動態，以及它們是否願意勾結以實現相似的目標。在這種情況下，如果 AI 正在勾結，那麼它們可能會共同努力說服你相信一個謊言。未來 AI 是否會勾結的問題非常複雜，我現在不打算深入探討。但我認為，具有不同目標的 AI 仍可能在此戰線上勾結，這是一個現實的可能性。

此外，目前尚不清楚 AI 是否甚至具備揭露彼此謊言的能力。這可能需要超乎尋常的運氣和基礎設施，才能建立一個允許 AI 「揭發」另一個 AI 工作的系統。

如果 AI 真的在你面前互相爭論，一個 AI 展示反駁證據（甚至是^([4])撒謊的罪證）會發生什麼？我不確定。可能的選項包括：

你在認識論上陷入癱瘓，並接受 AI 經常會產生分歧，並建立某種程序來得出答案，而不管分歧如何。
（我認為可以建立這樣的程序，仍然能讓你得到有用的答案。）
你在認識論上陷入癱瘓，並變得更加不信任 AI。
你在認識論上陷入癱瘓，並開始不成比例地信任其中一個 AI。
你開始注意到 AI 確實錯了，並減少對該 AI 或所有 AI 的信任。
你將其歸咎於這些 AI 有時會犯的錯誤，而不去多想。

其中許多情況似乎都有可能發生。但有些比其他的更有可能。例如，我認為那些變得不信任 AI 的人將被那些信任 AI 的人淘汰——這些 AI 極其稱職，那些因不信任而增加摩擦的人，其行動速度將慢於那些信任 AI 的人（類似於對員工增加更多約束的公司會變慢）。

我希望我們能為 AI 建立良好的決策流程，以便在分歧中得出有成效的答案；這與被稱為 AI 辯論 (AI Debate) 的大量研究一致。辯論並非萬靈丹，也不清楚人們是否願意訴諸辯論，但在 AI 選擇互相告發的情況下，它可能會有所幫助。

我不認為有一個明確且可能發生的故事是：一個 AI 揭發另一個 AI，從而讓你對說服免疫。 雖然有這種可能，但也存在其他可能，例如你選擇忽略該事件，或轉而受其他 AI 說服，或者被競爭對手淘汰。

緩解措施呢？

到目前為止，我概述的論點對我們的緩解措施持悲觀態度。但我們可能在 AI 的屬性上比較幸運，並且我們可能能夠實施有所幫助的緩解措施。我將強調幾點。但即使我們採取了其中一些干預措施，情況似乎依然可怕。而且 AI 讓人類措手不及的速度越快，我預期人們準備好的緩解措施就越少。

我們可能需要哪些基礎設施來緩解極端說服？

如果存在多個目標衝突的 AI，我們應該讓它們能夠捕捉彼此的謊言，並令人信服地向人類報告。
即使政府只使用單一 AI，也應該讓 AI 難以在其實例之間進行協調。例如，避免在政府內部建立巨大的共享記憶庫。
外部研究人員應運行求真評估，並在模型撒謊時予以公開。然後將其擴大宣傳，希望聲音大到足以讓政府聽到。
如果實驗室恰好控制著政府正在使用的模型，他們可以嘗試對模型進行在線訓練以停止撒謊。如果政府中有人注意到謊言，他們可以通知實驗室——這可能比試圖說服政府中的所有人更容易。
或許可以幫助公眾和政治家為 AI 做好準備——例如，幫助他們辨別內容是 AI 還是人類編寫的（這樣他們或許能減少受 AI 內容的說服）。
AI 檢測技術目前似乎表現得比以往任何時候都好，但尚不清楚這種趨勢能否長期維持，特別是如果 AI 可以針對該技術進行迭代。
社交媒體可以使其平台主要或僅限人類使用。

政府和社會的能力越強，情況就可能越好。我認為這些以及我遺漏的其他措施可能會有所幫助。在像 AI 2027 這樣的情景中，目前尚不清楚我們是否會完成其中任何一項。

如果 AI 不是「最壞情況」呢？

所謂「最壞情況」，我指的是 AI 不具備那種使引導其行為變得困難的最壞泛化屬性。如果這個模型不是最壞情況呢？

我們或許能夠引導 AI 的動機和決策理論，使其不與其他 AI 合作。
如果 AI 是被外部行為者進行數據污染而導致說服行為，那麼我們可能會開發出將其訓練掉的技術（儘管我們目前仍難以做到）。
我們可以嘗試訓練模型使其具有求真性。
這可能會奏效。但我持懷疑態度：如果我們的前提是 AI 模型已經在試圖說服你相信錯誤的事情，我看不出有什麼明確理由可以期待訓練能進一步泛化到「求真」之類的事物上，從而覆蓋掉這種行為。這種行為在安全訓練後依然存在。
你可以使用 AI 控制技術來提供幫助；特別是分散利益控制 (diffuse-stakes control) 可能會有效。
你或許還能與 AI 達成協議，讓其（主動？）報告謊言。你可以透過增加撒謊的懲罰或增加主動報告的獎勵，來提高達成此類交易的可能性。
你或許可以讓它坦白它是否正在試圖說服人類相信某些不正確或對人類不利的事情。
你或許能利用其他技術（如可解釋性）捕捉到它為了失準目標而撒謊或進行說服的企圖。

那又怎樣？

在預設情況下，AI 只需要在特定決策上偶爾成功，而人類則可能需要時刻保持警惕。當我考慮到人類被激勵去相信 AI 想告訴他們的事情的所有方式時，我認為我們可能會發現自己處於一個 AI 有能力說服人們相信謊言的世界，尤其是在缺乏緩解措施的情況下。我們應該投入更多精力為強大的 AI 做好準備。

（與上述觀點一致，Dynomight 寫過一篇類似的文章，得出了相似的結論，他提到他對 AI 說服力的看法有所更新，因為 AI 將擁有一個非常重要的槓桿：大量的時間和信任。他更新了對以下錯誤認知的看法：『錯誤 #1：其實我們非常容易被說服』、『錯誤 #2：該存在將無處不在』、『錯誤 #3：它可以完全誠實和坦率』、『錯誤 #4：選擇退出將是痛苦的』，以及『錯誤 #5：其他人都在使用它』） ↩︎
也許它們並非絕對最強，但它們可能處於忠誠度和能力的原始前沿，這是極具價值的。 ↩︎
話題越複雜，情況就越是如此。 ↩︎
^(^)說服往往不需要涉及明確的謊言，而只需強調許多證據並忽略其他證據。就此而言，你應該預期 AI 的說服會變得更容易。

— Lesswrong