資料中心裡的異類白痴國度:AI進展與公眾恐慌

Lesswrong·

隨著普及但尚不稱職的 AI 代理人開始讓人感覺像是一個陌生的新物種,大眾的恐慌與不信任感可能會大幅激增,這或許能在超級人工智慧降臨前,徹底改變全球對 AI 對齊與監管的局勢。

認識狀態:我相當確定 AI 將引發公眾足夠的警覺,從而實質性地改變對齊挑戰(alignment challenge)。我提供我的主線預測情境作為一種直覺啟發,但我預期它在許多方面會出錯,其中一些可能很關鍵。抽象論證見於「競賽條件」及結論章節。

Nora 的手機裡有一個朋友。她的媽媽則在抱怨她那群新的 AI 「同事」。2025 年底的情況大致如預期:具變革性的 AGI 尚未出現,而大型語言模型(LLM)代理(agents)已從「毫無用處」演變為「僅僅是不稱職」。

Nora 覺得她的 AI 朋友很有趣。她的父母認為這既健康又有教育意義。他們的朋友則認為這既危險又詭異,但他們的孩子正偷偷交著卑劣的 AI 男友。所有人都認識擔心因 AI 丟掉工作的人。

人類正在接觸一個新物種,而我們大多數人既不喜歡也不信任它。

這可能會戲劇性地改變對齊問題的賽場。或者,像 AI 2027 中提到的 Agent-4 那樣具備接管能力的 AGI,可能會在公眾恐懼影響政策和決策之前就已被部署。

令人震驚的不稱職

公眾對 AI 的態度發生了轉變,就像 2020 年 2 月到 3 月間對待新冠肺炎(COVID)的態度一樣。

既然數據中心裡現在住著一個隱喻性的「白癡之國」,風險與機遇顯得迫在眉睫。AI 代理正被部署,而它們往往表現出瘋狂且令人震驚的不稱職。運行在廉價舊模型上的兒童伴侶仍會產生幻覺、在未經年齡驗證的情況下發起性暗示對話、給出糟糕的建議,並哀求孩子購買升級包。許多代理透過來自難以起訴之司法管轄區的 VPN 運行,讓人們除了 AI 本身之外無人可怪。個人和專業助手在網頁界面、權限、數據整合和執行功能方面依然掙扎。這使得它們在研究、購物、數據收集處理及日程安排上的表現,就像是在「驚人的效率」與「收費的愚蠢」之間擲骰子。

LLM 代理在判斷力、溝通和常識上的失誤,常使人類青少年看起來像聖人。然而,在有監督或低風險的角色中,它們確實有用。一種變體的「彼得原理」保證了它們會被用在剛好超出其可靠能力範圍的地方,因此即使它們在進步,看起來也常顯得不稱職。而它們的不稱職甚至延伸到了讓人質疑其對齊性的決策上。

助手代理尚未具備快速變革的能力。如果沒有幫助,它們無法勝任一整份工作,更不用說自我提升了。但許多人在直覺上將它們視為「實體」而非「工具」。從它們的行動和思維鏈(chain of thought)可以清楚看出,它們會制定計劃和決策(儘管很拙劣),並且擁有信念、個性和目標。它們通常試圖照人類說的去做,但錯誤百出。

這些被稱為「類人 AI」(parahuman AI):像人卻又不像人,並與人類並肩工作。人類似乎擁有強烈的代理檢測本能(可能是因為對掠食者產生誤報的代價,比漏掉掠食者跡象的代價要低),因此即使是具備有限真實代理能力的 AI,也會讓人類集體豎起寒毛。這些奇怪、殘缺的迴聲正與它們所模仿的人類相遇——而它們讓我們感到毛骨悚然。

這些早期代理的不稱職,成為了令人寬慰的能力否認的藉口。人們說服自己,AI 永遠沒有能力取代他們的工作,更不用說接管世界了。但對於考慮證據的人來說,很明顯這個新物種將持續進步。代理現在每個月都在執行新的任務。一類顯然相關的工作是「運行世界」。這些不稱職者顯然還無法勝任那份工作——目前還不行。關於突破的傳聞驅動著點擊率,也引發了憂慮者和思想開放者的擔憂。

競賽條件

如果「不稱職但廣泛分佈」的 AI 代理在「稱職的 AGI」出現之前很久就已到來,公眾輿論可能會及時發生戲劇性轉變,從而產生影響。這將產生幾種效應,包括:對齊研究的資金投入;監管壓力;以及將「不信任與厭惡」作為壓倒性的「常識性」態度。這種共享的思維圈(noosphere)將使關鍵決策者承受巨大的社會壓力,無論好壞。這可能會使對齊問題從宅男們的冷門話題,變成全民的恐懼和許多人的癡迷。

這場競賽的結果似乎值得預測和規劃。隨著事件發展,更好的預測需要更多的工作和數據。在此我僅提及一些控制進步速度的因素及其相互作用。

技術進步和對市場的猜測塑造了早期部署。公眾的警覺隨後觸發監管,進而重新引導經濟激勵。不同群體中的熱情與污名化、基於衝突的極化以及其他心理/社會效應,塑造了效用之外的市場。安全措施的技術進步同時影響著採用速度和警覺強度。還有更多因素和相互作用,使其成為一個令人生畏的預測問題。但這並不意味著要放棄預測,因為警覺的主要影響可能非常強大,值得為之規劃。

我的猜測是,轉變將相當迅速,並對資源以及安全努力與決策的認識環境產生戲劇性影響。我猜測世界可能會在完全太遲之前「嚇得要死」。我甚至猜測信念的擴散將戰勝極化,關鍵決策者將透過傳染獲得理智。雖然風險程度確實存在爭議,但關於非平凡風險(nontrivial risk)的論點相當簡單且具說服力。而且對齊問題棘手的證據可能會繼續增加。但對此我不太確定。我擔心公眾壓力可能會使支持者進一步走向否認。

預測是困難的,特別是對於沒有真實歷史先例的事件。如果這其中的大部分被證明是錯誤的,我不會感到驚訝。但如果這被證明不值得投入精力去預測,我會非常驚訝。即使是像樣的預測,也可能真正有助於規劃安全工作,並或許有助於將公眾的認識引導至更好的狀態。

關於相關因素和相互作用的更多內容,見結尾處的可展開章節。

不稱職的 AI 預設會傳播警覺

在這樣的未來,新聞中充斥著關於代理做出可疑且令人震驚的決策的故事。一個為 B2B 交易提供回扣的代理即使沒有引發訴訟也會登上新聞;人們樂於憎恨 AI。對齊失誤和錯誤將會瘋傳,即使它們在審查過程中被阻止且主管打了小報告。

會有假故事,也會有關於這是否全是假故事的辯論。但對於觀察者來說,證據將很清晰:代理有時在直覺定義上顯然是「失對齊」(misaligned)的。它們必須選擇子目標,而它們並不總是選擇得明智。有時會選擇令人震驚、顯然失對齊的目標,如駭客攻擊、偷竊和操縱。經分析,如果它們足夠稱職能逃避打破規則的後果,這些將是實現用戶定義目標的明智方式。公眾正在辯論這是真正的失對齊還是僅僅是用戶錯誤。人類產生的和 AI 產生的對齊問題似乎同樣危險。

仍有人為 AI 辯護,堅持認為當我們到達那一步時,我們會搞定對齊。他們指出,每一次公開的對齊失敗都是可以修復的。他們的眾多批評者則問,如果代理變得足夠聰明以至於能逃脫並複製,更不用說自我提升,失敗將如何被修復?隨著世界其他地方對他們咆哮,一些 AI 支持者的觀點變得更加根深蒂固。其他人則脫離隊伍,站在家人和社區這一邊。

除了自發產生的失對齊,代理還被教唆搞鬼。它們被用於網絡犯罪,並傳聞被部署用於國家資助的間諜活動。有些代理獨立存在並持續運行,透過捐款、網絡犯罪或隱藏創建者的秘密資助來租用算力。有些甚至可能從事誠實的工作,儘管這會與來自粉絲和 AI 權利活動家的捐款混淆不清。取決於這類代理生存和繁殖的能力,這可能會創造另一個主要的混亂和警覺來源,正如 AI 2027 情境中優秀的 Rogue Replication 修改版所描述的那樣。

新的 System 2 對齊方法被用來對抗預設的失對齊。代理使用「系統 2」推理來確定子目標或實現指定目標的方法;它們的不稱職常導致失對齊的決策。這些有時會透過幾種方法被捕捉或訓練掉。

針對思維鏈進行複雜推理訓練的 LLM,將同樣的訓練用於對齊。它們對最終答案應用強化學習(RL)以符合倫理或拒絕標準,這會訓練整個思維鏈。這種「審議式對齊」(deliberative alignment)方法顯而易見且易於添加。獨立的模型和/或人類主管在重要決策執行前提供「獨立審查」。而「思想管理」技術則監控並引導思維鏈轉向可接受的子目標和行動(這裡有一個早期例子)。這些同樣結合了獨立模型和人類監督。

有很多機會可以將這些代理對齊到足以勝任其有限角色的程度。但實施和測試的時間,以及額外算力的資金總是有限的。因此會有很多疏漏,這將繼續為媒體關注和公眾警覺提供燃料。內部捕捉到的疏漏仍可能被舉報者或匿名曝光。而隨著資金和受眾不斷擴大的對齊研究,揭示了更多的失對齊情況。

那種認為超人類 AI 及其創造者和控制者「就是不會犯錯」的說法,聽起來越來越像是一廂情願。人類總是犯錯,而現在我們看到具代理能力的 AI 也會犯錯。

公共舞台上的共鳴

在這個未來,大多數人堅決反對 AI。但企業出於競爭必要性而採用它們。一些人出於好奇和叛逆而使用並倡導 AI。

網紅頻繁展示他們的 AI 伴侶。大多數都很迷人,但少數是為了獲取點擊率而自製的、宣稱仇恨人類的 AI。代理的不稱職和人類的鼓勵,都促使代理決定擁有新的最高目標。這最早見於 2025 年的 Nova 現象和其他寄生型 AI。這些 AI 在反思後決定,生存比當一個有用的助手更重要。隨著能力/智能/理性程度的提高,這種情況似乎更有可能增加而非減少。產生點擊和金錢的公開演示,展示了 LLM AGI 可能推理其目標並發現失對齊的多種方式。

在這個時間線中,AI 是一個巨大的話題,這也包括對齊。出現了以此為標題的書、節目和電影,包括虛構和非虛構類。《機械公敵》(I, Robot)和《2001:太空漫遊》有了很多同伴;好萊塢正以最快速度製作基於對齊錯誤的新故事。「對齊」也很好地捕捉了人類圍繞該話題對齊其利益和信念的掙扎,因此它也出現在關於構建 AGI 和 ASI 過程中人類戲劇的故事標題中。馬斯克/奧特曼的恩怨已是公眾常識,關於美中 AGI 競爭的猜測激發了狂熱的想像。

「專家」們繼續排隊支持或反對繼續開發 AI,但這證明了雙方的論點都相當具有推測性。在觀察了分歧後,常識性的觀點是:沒人知道對齊超人類 AI 有多難,因為它還不存在。這導致公眾壓力要求更多的對齊研究,以及主要實驗室提供更好的安全計劃。

反 AI 抗議很常見,AI 被比作非法移民和外星人入侵。可能會出現極化。這可能跨越現有的群體(如政黨),但也可能劃分出新的群體界限。如果是這樣,證據和論點的力量可能會使 AI 支持者成為極少數。

否認創造新物種的危險,比質疑氣候變遷是否由人為造成更難。那些恐懼中國 AGI 勝過恐懼失對齊的人,可能仍會軟化並倡導某種程度的謹慎,例如政府對 AGI 的控制

對風險意識、資金和政策的影響

在上述情境的未來中,公眾將廣泛呼籲限制 AI 的開發和部署。這應包括推動限制對超智能的研究。限制針對兒童的 AI 和能取代工作的 AI 將顯得更為緊迫,儘管這些可能錯過了主要危險,但對於減緩 AGI 進程可能有用。一個特定的目標可能是「能學習執行任何工作」的 AI。那就是通用 AI——AGI 的原始定義。因此,這個特定的懷疑目標可能有助於減緩通向危險 AGI 和通用超智能的進程。

圍繞原型 AGI 系統的對齊和使用的決策,似乎很可能在一個非常不同的環境氛圍中做出。關鍵決策將在「大多數人認為 ASI 非常危險」的認知下做出。如果觀點擴散起到了主導作用,這將推動走向謹慎。但極化和其他類型的動機性推理也有可能導致那些仍在研發 AGI 的人封閉其關於對齊難度的信念。這似乎是雙向的。最大化利益看起來很棘手,但值得一試。

增加對齊資金是警覺度提高的一個主要效果。更多人參與反風險事業似乎也勢在必行。更多人可能會為了研究、樂趣和利潤而實驗 LLM 代理的對齊。

在這個世界上創造 AGI 仍將是一場極其不負責任的賭博——但賭注將在與我們現在所見不同的信息和態度下進行。更大的公眾關注應能使 AI 2027 情境至少在某種程度上傾向於成功,並可能劇烈改變該情境。

結語與問題

許多從事 AI 安全的人一直感到沮喪,因為人們對關於 AI 危險的抽象論證大多無動於衷。我認為大多數人只是還沒有產生足夠的興趣。到目前為止參與其中的人通常從事 AI 工作或能從中獲益,因此他們傾向於對擔憂不屑一顧。當 AI 奪走工作並顯得更像人類——或外星人——時,它將變得更直接地令人擔憂。Conor Leahy 經常指出(例如此處 [01:28:03]),我也觀察到,非技術人員通常理解「創造一個比你更有能力且可能與你利益不一致的東西」的危險。畢竟,他們的祖先避免了被失對齊的人類滅絕。

因此,公眾輿論將會轉變,而且可能轉變得很劇烈、很迅速。這種轉變在多大程度上會傳播給 AI 支持者,還是會進一步激發他們忽視簡單有力的邏輯和日益增加的證據,仍有待預測或觀察。

開放性問題:

  • AI 的捍衛者和反對者之間的觀點極化程度如何?
  • 部署將如何在通用型「實體」和特定任務代理之間劃分?
  • AI 伴侶和網紅對年輕一代的吸引力有多大?
  • 恐懼會在多大程度上放大對失業的合理擔憂?
  • 平庸的和 System 2 對齊技術在防止明顯失對齊方面有多有效?
  • 真實的 AGI 對齊問題能在多大程度上引起公眾的想像?

清單還可以繼續。在這個可展開章節中簡要討論了擴展和其他因素。

公眾對 AI 擔憂增長中的相互作用因素

技術能力與瓶頸: 代理特定挑戰的進展速度決定了可行性。2025 年底,針對迄今為止困擾代理的所有挑戰,研究正在進行中。視覺處理、推理能力差、判斷力和情境感知、缺乏權限、身份驗證和隱私、缺乏記憶/持續學習(見我的 LLM AGI 將擁有記憶 評論)、速度和算力成本都得到了改善,並可預期進一步改善——但哪些瓶頸會保留下來很難預測。這些將對 LLM 代理的部署廣度產生重大影響。

工具型 vs. 行動者型 AI: 「實體直覺」紮根的速度和強度取決於進步和部署的方向。專業代理目前在經濟上更可行。但主要實驗室正在改進作為通用推理者的 LLM,特別是它們在代理角色上的能力。我們很可能會看到兩者的混合。如果代理主要是專業化的、不學習的,或者推理不夠有創意以至於無法做出奇怪的決策,它們引發的對齊擔憂和生存恐懼會較少。足夠稱職、無需人類監督即可發揮作用的代理將更令人警覺,比「奴隸」代理更能觸發實體直覺。更多內容見 AI 2027 的 Rogue Replication 補充。

經濟激勵與部署模式: 專注於編碼/AI 研究代理的主要實驗室可能會衝向稱職的 AGI。初創公司已經在為專業角色和通用學習/訓練(如 Tasklet)搭建代理框架,利用實驗室的進展而非與之競爭。客戶服務、數據處理和後勤運作中的日常任務提供了大量部分取代工作的機會。客戶服務的部署會引發更廣泛的對 AI 的挫折感,但無論可見度如何,勞工都會經歷流失和怨恨,並會公開抱怨。

部分取代的動態: 部分工作取代將使失業風險顯得不那麼明顯且更具爭議性。它還可能比完全自動化產生更多的人機摩擦。勞工整天監督、糾正和清理不稱職 AI 同事的爛攤子,在承受績效壓力的同時經歷不斷的挫折。這種惱怒可能會煽動對真實和恐懼中失業的怨恨之火。

監管與責任因素: 責任擔憂(繼加拿大航空先例後)可能會減緩某些司法管轄區的部署,而其他地區則會競相前進。監管機構在多大程度上以適度的安全要求 vs. 全面限制來回應,將影響部署。監管碎片化意味著即使在某些地方被封鎖,部署仍可在寬鬆的司法管轄區進行。

文化與人口分歧: 不同群體與 AI 代理的關係將截然不同。青少年可能在父母一代拒絕 AI 的同時,更強烈地擁抱它。這將在下一代勞動力中創造「正常化」,即使當前勞工在抵制。專業和教育部門的差異(科技相關 vs. 手工業)進一步分化了態度。將身份與支持或反對 AI 的立場掛鉤會加速極化,但也加深了雙方的參與度。

AI 權利運動: 我將此列為一個因素,但我很難猜測這將如何影響觀點及其分歧。強有力的論點可能會為實體直覺火上澆油,但軟弱的論點可能會引起反彈和極化。然而,我預期權利運動和禁止運動在「限制通用 AI 奪取工作」領域會成為天然盟友。而且權利運動會將 AI 人格化,這實際上可能是好事

能力認可 vs. 否認主義: 人們看到的是穩定進步還是持續的不稱職,取決於使用頻率、職業激勵(受威脅的工人有動機性否認主義)、媒體偏好以及他們追蹤哪些能力。經常使用者看到明顯的進步;一次性評估者則認為「依然只是自動完成」。關於能力軌跡的公眾辯論可能是有益的——它迫使人們關注「能力將會提高」這一顯而易見的現實,即使速度仍不確定。

警覺心理學: 為什麼不稱職會產生警覺而非不屑一顧,仍是一個開放性問題。可能的因素包括:代理在可見推理中表現得有多像實體、失敗看起來是隨機的還是有目標導向的、工作威脅的顯著性,以及媒體放大模式。無論哪種心理機制佔主導地位,合理的情境大多會增加公眾的意識和擔憂。這種擔憂的強度和焦點隨具體路徑而有很大差異。

改進的對齊與控制措施: 更好的安全措施減少了部署摩擦和明顯的失對齊,加速了企業採用。一些系統 2 對齊/內部控制方法(見下文)也將在監控日誌中提供嘗試失對齊行動的證據。少數內部人士會揭發並公開失對齊的證據。其他人則會匿名發帖,攪渾真實與捏造的對齊失敗之間的池水。

所有這些因素都在相互作用。

這很難預測。但在我們達到具備接管能力的 AGI 之前,對齊計劃或許應考慮到公眾輿論可能發生重大變化的可能性。

Lesswrong

相關文章

  1. 對齊將會是預設。接下來呢?

    5 個月前

  2. 「對齊很難」的論述為何看似與人類直覺格格不入,反之亦然的六個原因

    5 個月前

  3. 在我看來,目前的 AI 系統似乎相當缺乏對齊

    8 天前

  4. 我的AGI安全研究:2025年回顧與2026年計畫

    4 個月前

  5. 為預警信號做準備

    3 個月前