資料中心裡的異類白痴國度：AI進展與公眾恐慌

Lesswrong·6 個月前

隨著普及但尚不稱職的 AI 代理人開始讓人感覺像是一個陌生的新物種，大眾的恐慌與不信任感可能會大幅激增，這或許能在超級人工智慧降臨前，徹底改變全球對 AI 對齊與監管的局勢。

認識狀態：我相當確定 AI 將引發公眾足夠的警覺，從而實質性地改變對齊挑戰（alignment challenge）。我提供我的主線預測情境作為一種直覺啟發，但我預期它在許多方面會出錯，其中一些可能很關鍵。抽象論證見於「競賽條件」及結論章節。

Nora 的手機裡有一個朋友。她的媽媽則在抱怨她那群新的 AI 「同事」。2025 年底的情況大致如預期：具變革性的 AGI 尚未出現，而大型語言模型（LLM）代理（agents）已從「毫無用處」演變為「僅僅是不稱職」。

Nora 覺得她的 AI 朋友很有趣。她的父母認為這既健康又有教育意義。他們的朋友則認為這既危險又詭異，但他們的孩子正偷偷交著卑劣的 AI 男友。所有人都認識擔心因 AI 丟掉工作的人。

人類正在接觸一個新物種，而我們大多數人既不喜歡也不信任它。

這可能會戲劇性地改變對齊問題的賽場。或者，像 AI 2027 中提到的 Agent-4 那樣具備接管能力的 AGI，可能會在公眾恐懼影響政策和決策之前就已被部署。

令人震驚的不稱職

公眾對 AI 的態度發生了轉變，就像 2020 年 2 月到 3 月間對待新冠肺炎（COVID）的態度一樣。

既然數據中心裡現在住著一個隱喻性的「白癡之國」，風險與機遇顯得迫在眉睫。AI 代理正被部署，而它們往往表現出瘋狂且令人震驚的不稱職。運行在廉價舊模型上的兒童伴侶仍會產生幻覺、在未經年齡驗證的情況下發起性暗示對話、給出糟糕的建議，並哀求孩子購買升級包。許多代理透過來自難以起訴之司法管轄區的 VPN 運行，讓人們除了 AI 本身之外無人可怪。個人和專業助手在網頁界面、權限、數據整合和執行功能方面依然掙扎。這使得它們在研究、購物、數據收集處理及日程安排上的表現，就像是在「驚人的效率」與「收費的愚蠢」之間擲骰子。

LLM 代理在判斷力、溝通和常識上的失誤，常使人類青少年看起來像聖人。然而，在有監督或低風險的角色中，它們確實有用。一種變體的「彼得原理」保證了它們會被用在剛好超出其可靠能力範圍的地方，因此即使它們在進步，看起來也常顯得不稱職。而它們的不稱職甚至延伸到了讓人質疑其對齊性的決策上。

助手代理尚未具備快速變革的能力。如果沒有幫助，它們無法勝任一整份工作，更不用說自我提升了。但許多人在直覺上將它們視為「實體」而非「工具」。從它們的行動和思維鏈（chain of thought）可以清楚看出，它們會制定計劃和決策（儘管很拙劣），並且擁有信念、個性和目標。它們通常試圖照人類說的去做，但錯誤百出。

這些被稱為「類人 AI」（parahuman AI）：像人卻又不像人，並與人類並肩工作。人類似乎擁有強烈的代理檢測本能（可能是因為對掠食者產生誤報的代價，比漏掉掠食者跡象的代價要低），因此即使是具備有限真實代理能力的 AI，也會讓人類集體豎起寒毛。這些奇怪、殘缺的迴聲正與它們所模仿的人類相遇——而它們讓我們感到毛骨悚然。

這些早期代理的不稱職，成為了令人寬慰的能力否認的藉口。人們說服自己，AI 永遠沒有能力取代他們的工作，更不用說接管世界了。但對於考慮證據的人來說，很明顯這個新物種將持續進步。代理現在每個月都在執行新的任務。一類顯然相關的工作是「運行世界」。這些不稱職者顯然還無法勝任那份工作——目前還不行。關於突破的傳聞驅動著點擊率，也引發了憂慮者和思想開放者的擔憂。

競賽條件

如果「不稱職但廣泛分佈」的 AI 代理在「稱職的 AGI」出現之前很久就已到來，公眾輿論可能會及時發生戲劇性轉變，從而產生影響。這將產生幾種效應，包括：對齊研究的資金投入；監管壓力；以及將「不信任與厭惡」作為壓倒性的「常識性」態度。這種共享的思維圈（noosphere）將使關鍵決策者承受巨大的社會壓力，無論好壞。這可能會使對齊問題從宅男們的冷門話題，變成全民的恐懼和許多人的癡迷。

這場競賽的結果似乎值得預測和規劃。隨著事件發展，更好的預測需要更多的工作和數據。在此我僅提及一些控制進步速度的因素及其相互作用。

技術進步和對市場的猜測塑造了早期部署。公眾的警覺隨後觸發監管，進而重新引導經濟激勵。不同群體中的熱情與污名化、基於衝突的極化以及其他心理/社會效應，塑造了效用之外的市場。安全措施的技術進步同時影響著採用速度和警覺強度。還有更多因素和相互作用，使其成為一個令人生畏的預測問題。但這並不意味著要放棄預測，因為警覺的主要影響可能非常強大，值得為之規劃。

我的猜測是，轉變將相當迅速，並對資源以及安全努力與決策的認識環境產生戲劇性影響。我猜測世界可能會在完全太遲之前「嚇得要死」。我甚至猜測信念的擴散將戰勝極化，關鍵決策者將透過傳染獲得理智。雖然風險程度確實存在爭議，但關於非平凡風險（nontrivial risk）的論點相當簡單且具說服力。而且對齊問題棘手的證據可能會繼續增加。但對此我不太確定。我擔心公眾壓力可能會使支持者進一步走向否認。

預測是困難的，特別是對於沒有真實歷史先例的事件。如果這其中的大部分被證明是錯誤的，我不會感到驚訝。但如果這被證明不值得投入精力去預測，我會非常驚訝。即使是像樣的預測，也可能真正有助於規劃安全工作，並或許有助於將公眾的認識引導至更好的狀態。

關於相關因素和相互作用的更多內容，見結尾處的可展開章節。

不稱職的 AI 預設會傳播警覺

在這樣的未來，新聞中充斥著關於代理做出可疑且令人震驚的決策的故事。一個為 B2B 交易提供回扣的代理即使沒有引發訴訟也會登上新聞；人們樂於憎恨 AI。對齊失誤和錯誤將會瘋傳，即使它們在審查過程中被阻止且主管打了小報告。

會有假故事，也會有關於這是否全是假故事的辯論。但對於觀察者來說，證據將很清晰：代理有時在直覺定義上顯然是「失對齊」（misaligned）的。它們必須選擇子目標，而它們並不總是選擇得明智。有時會選擇令人震驚、顯然失對齊的目標，如駭客攻擊、偷竊和操縱。經分析，如果它們足夠稱職能逃避打破規則的後果，這些將是實現用戶定義目標的明智方式。公眾正在辯論這是真正的失對齊還是僅僅是用戶錯誤。人類產生的和 AI 產生的對齊問題似乎同樣危險。

仍有人為 AI 辯護，堅持認為當我們到達那一步時，我們會搞定對齊。他們指出，每一次公開的對齊失敗都是可以修復的。他們的眾多批評者則問，如果代理變得足夠聰明以至於能逃脫並複製，更不用說自我提升，失敗將如何被修復？隨著世界其他地方對他們咆哮，一些 AI 支持者的觀點變得更加根深蒂固。其他人則脫離隊伍，站在家人和社區這一邊。

除了自發產生的失對齊，代理還被教唆搞鬼。它們被用於網絡犯罪，並傳聞被部署用於國家資助的間諜活動。有些代理獨立存在並持續運行，透過捐款、網絡犯罪或隱藏創建者的秘密資助來租用算力。有些甚至可能從事誠實的工作，儘管這會與來自粉絲和 AI 權利活動家的捐款混淆不清。取決於這類代理生存和繁殖的能力，這可能會創造另一個主要的混亂和警覺來源，正如 AI 2027 情境中優秀的 Rogue Replication 修改版所描述的那樣。

新的 System 2 對齊方法被用來對抗預設的失對齊。代理使用「系統 2」推理來確定子目標或實現指定目標的方法；它們的不稱職常導致失對齊的決策。這些有時會透過幾種方法被捕捉或訓練掉。

針對思維鏈進行複雜推理訓練的 LLM，將同樣的訓練用於對齊。它們對最終答案應用強化學習（RL）以符合倫理或拒絕標準，這會訓練整個思維鏈。這種「審議式對齊」（deliberative alignment）方法顯而易見且易於添加。獨立的模型和/或人類主管在重要決策執行前提供「獨立審查」。而「思想管理」技術則監控並引導思維鏈轉向可接受的子目標和行動（這裡有一個早期例子）。這些同樣結合了獨立模型和人類監督。

有很多機會可以將這些代理對齊到足以勝任其有限角色的程度。但實施和測試的時間，以及額外算力的資金總是有限的。因此會有很多疏漏，這將繼續為媒體關注和公眾警覺提供燃料。內部捕捉到的疏漏仍可能被舉報者或匿名曝光。而隨著資金和受眾不斷擴大的對齊研究，揭示了更多的失對齊情況。

那種認為超人類 AI 及其創造者和控制者「就是不會犯錯」的說法，聽起來越來越像是一廂情願。人類總是犯錯，而現在我們看到具代理能力的 AI 也會犯錯。

公共舞台上的共鳴

在這個未來，大多數人堅決反對 AI。但企業出於競爭必要性而採用它們。一些人出於好奇和叛逆而使用並倡導 AI。

網紅頻繁展示他們的 AI 伴侶。大多數都很迷人，但少數是為了獲取點擊率而自製的、宣稱仇恨人類的 AI。代理的不稱職和人類的鼓勵，都促使代理決定擁有新的最高目標。這最早見於 2025 年的 Nova 現象和其他寄生型 AI。這些 AI 在反思後決定，生存比當一個有用的助手更重要。隨著能力/智能/理性程度的提高，這種情況似乎更有可能增加而非減少。產生點擊和金錢的公開演示，展示了 LLM AGI 可能推理其目標並發現失對齊的多種方式。

在這個時間線中，AI 是一個巨大的話題，這也包括對齊。出現了以此為標題的書、節目和電影，包括虛構和非虛構類。《機械公敵》（I, Robot）和《2001：太空漫遊》有了很多同伴；好萊塢正以最快速度製作基於對齊錯誤的新故事。「對齊」也很好地捕捉了人類圍繞該話題對齊其利益和信念的掙扎，因此它也出現在關於構建 AGI 和 ASI 過程中人類戲劇的故事標題中。馬斯克/奧特曼的恩怨已是公眾常識，關於美中 AGI 競爭的猜測激發了狂熱的想像。

「專家」們繼續排隊支持或反對繼續開發 AI，但這證明了雙方的論點都相當具有推測性。在觀察了分歧後，常識性的觀點是：沒人知道對齊超人類 AI 有多難，因為它還不存在。這導致公眾壓力要求更多的對齊研究，以及主要實驗室提供更好的安全計劃。

反 AI 抗議很常見，AI 被比作非法移民和外星人入侵。可能會出現極化。這可能跨越現有的群體（如政黨），但也可能劃分出新的群體界限。如果是這樣，證據和論點的力量可能會使 AI 支持者成為極少數。

否認創造新物種的危險，比質疑氣候變遷是否由人為造成更難。那些恐懼中國 AGI 勝過恐懼失對齊的人，可能仍會軟化並倡導某種程度的謹慎，例如政府對 AGI 的控制。

對風險意識、資金和政策的影響

在上述情境的未來中，公眾將廣泛呼籲限制 AI 的開發和部署。這應包括推動限制對超智能的研究。限制針對兒童的 AI 和能取代工作的 AI 將顯得更為緊迫，儘管這些可能錯過了主要危險，但對於減緩 AGI 進程可能有用。一個特定的目標可能是「能學習執行任何工作」的 AI。那就是通用 AI——AGI 的原始定義。因此，這個特定的懷疑目標可能有助於減緩通向危險 AGI 和通用超智能的進程。

圍繞原型 AGI 系統的對齊和使用的決策，似乎很可能在一個非常不同的環境氛圍中做出。關鍵決策將在「大多數人認為 ASI 非常危險」的認知下做出。如果觀點擴散起到了主導作用，這將推動走向謹慎。但極化和其他類型的動機性推理也有可能導致那些仍在研發 AGI 的人封閉其關於對齊難度的信念。這似乎是雙向的。最大化利益看起來很棘手，但值得一試。

增加對齊資金是警覺度提高的一個主要效果。更多人參與反風險事業似乎也勢在必行。更多人可能會為了研究、樂趣和利潤而實驗 LLM 代理的對齊。

在這個世界上創造 AGI 仍將是一場極其不負責任的賭博——但賭注將在與我們現在所見不同的信息和態度下進行。更大的公眾關注應能使 AI 2027 情境至少在某種程度上傾向於成功，並可能劇烈改變該情境。

結語與問題

許多從事 AI 安全的人一直感到沮喪，因為人們對關於 AI 危險的抽象論證大多無動於衷。我認為大多數人只是還沒有產生足夠的興趣。到目前為止參與其中的人通常從事 AI 工作或能從中獲益，因此他們傾向於對擔憂不屑一顧。當 AI 奪走工作並顯得更像人類——或外星人——時，它將變得更直接地令人擔憂。Conor Leahy 經常指出（例如此處 [01:28:03]），我也觀察到，非技術人員通常理解「創造一個比你更有能力且可能與你利益不一致的東西」的危險。畢竟，他們的祖先避免了被失對齊的人類滅絕。

因此，公眾輿論將會轉變，而且可能轉變得很劇烈、很迅速。這種轉變在多大程度上會傳播給 AI 支持者，還是會進一步激發他們忽視簡單有力的邏輯和日益增加的證據，仍有待預測或觀察。

開放性問題：

AI 的捍衛者和反對者之間的觀點極化程度如何？
部署將如何在通用型「實體」和特定任務代理之間劃分？
AI 伴侶和網紅對年輕一代的吸引力有多大？
恐懼會在多大程度上放大對失業的合理擔憂？
平庸的和 System 2 對齊技術在防止明顯失對齊方面有多有效？
真實的 AGI 對齊問題能在多大程度上引起公眾的想像？

清單還可以繼續。在這個可展開章節中簡要討論了擴展和其他因素。

公眾對 AI 擔憂增長中的相互作用因素

技術能力與瓶頸： 代理特定挑戰的進展速度決定了可行性。2025 年底，針對迄今為止困擾代理的所有挑戰，研究正在進行中。視覺處理、推理能力差、判斷力和情境感知、缺乏權限、身份驗證和隱私、缺乏記憶/持續學習（見我的 LLM AGI 將擁有記憶評論）、速度和算力成本都得到了改善，並可預期進一步改善——但哪些瓶頸會保留下來很難預測。這些將對 LLM 代理的部署廣度產生重大影響。

工具型 vs. 行動者型 AI： 「實體直覺」紮根的速度和強度取決於進步和部署的方向。專業代理目前在經濟上更可行。但主要實驗室正在改進作為通用推理者的 LLM，特別是它們在代理角色上的能力。我們很可能會看到兩者的混合。如果代理主要是專業化的、不學習的，或者推理不夠有創意以至於無法做出奇怪的決策，它們引發的對齊擔憂和生存恐懼會較少。足夠稱職、無需人類監督即可發揮作用的代理將更令人警覺，比「奴隸」代理更能觸發實體直覺。更多內容見 AI 2027 的 Rogue Replication 補充。

經濟激勵與部署模式： 專注於編碼/AI 研究代理的主要實驗室可能會衝向稱職的 AGI。初創公司已經在為專業角色和通用學習/訓練（如 Tasklet）搭建代理框架，利用實驗室的進展而非與之競爭。客戶服務、數據處理和後勤運作中的日常任務提供了大量部分取代工作的機會。客戶服務的部署會引發更廣泛的對 AI 的挫折感，但無論可見度如何，勞工都會經歷流失和怨恨，並會公開抱怨。

部分取代的動態： 部分工作取代將使失業風險顯得不那麼明顯且更具爭議性。它還可能比完全自動化產生更多的人機摩擦。勞工整天監督、糾正和清理不稱職 AI 同事的爛攤子，在承受績效壓力的同時經歷不斷的挫折。這種惱怒可能會煽動對真實和恐懼中失業的怨恨之火。

監管與責任因素： 責任擔憂（繼加拿大航空先例後）可能會減緩某些司法管轄區的部署，而其他地區則會競相前進。監管機構在多大程度上以適度的安全要求 vs. 全面限制來回應，將影響部署。監管碎片化意味著即使在某些地方被封鎖，部署仍可在寬鬆的司法管轄區進行。

文化與人口分歧： 不同群體與 AI 代理的關係將截然不同。青少年可能在父母一代拒絕 AI 的同時，更強烈地擁抱它。這將在下一代勞動力中創造「正常化」，即使當前勞工在抵制。專業和教育部門的差異（科技相關 vs. 手工業）進一步分化了態度。將身份與支持或反對 AI 的立場掛鉤會加速極化，但也加深了雙方的參與度。

AI 權利運動： 我將此列為一個因素，但我很難猜測這將如何影響觀點及其分歧。強有力的論點可能會為實體直覺火上澆油，但軟弱的論點可能會引起反彈和極化。然而，我預期權利運動和禁止運動在「限制通用 AI 奪取工作」領域會成為天然盟友。而且權利運動會將 AI 人格化，這實際上可能是好事。

能力認可 vs. 否認主義： 人們看到的是穩定進步還是持續的不稱職，取決於使用頻率、職業激勵（受威脅的工人有動機性否認主義）、媒體偏好以及他們追蹤哪些能力。經常使用者看到明顯的進步；一次性評估者則認為「依然只是自動完成」。關於能力軌跡的公眾辯論可能是有益的——它迫使人們關注「能力將會提高」這一顯而易見的現實，即使速度仍不確定。

警覺心理學： 為什麼不稱職會產生警覺而非不屑一顧，仍是一個開放性問題。可能的因素包括：代理在可見推理中表現得有多像實體、失敗看起來是隨機的還是有目標導向的、工作威脅的顯著性，以及媒體放大模式。無論哪種心理機制佔主導地位，合理的情境大多會增加公眾的意識和擔憂。這種擔憂的強度和焦點隨具體路徑而有很大差異。

改進的對齊與控制措施： 更好的安全措施減少了部署摩擦和明顯的失對齊，加速了企業採用。一些系統 2 對齊/內部控制方法（見下文）也將在監控日誌中提供嘗試失對齊行動的證據。少數內部人士會揭發並公開失對齊的證據。其他人則會匿名發帖，攪渾真實與捏造的對齊失敗之間的池水。

所有這些因素都在相互作用。

這很難預測。但在我們達到具備接管能力的 AGI 之前，對齊計劃或許應考慮到公眾輿論可能發生重大變化的可能性。

— Lesswrong