移交給人工智慧的各種類型
這篇文章分析了移交給人工智慧系統的兩種截然不同的類型:信任移交與決策移交,並探討了隨著人工智慧能力演進至超智慧,決策者應如何追蹤這些轉變。
這是我發布在這裡徵求回饋的草稿。如果大家喜歡,其中一個版本可能會被納入我們下一份編寫的情境報告中。
**
我們認為,決策者追蹤他們是否以及何時將主導權「移交」(handoff)給 AI 系統至關重要。我們預計這最終會成為一個熱門的政治議題;人們會爭論我們是否應該移交給 AI,如果應該,該如何移交以及何時移交。當有人提出管理 AI 危機或 AGI 轉型(或隨便怎麼稱呼它)的計劃時,其他人會問:「那麼你的計劃對於『移交』是怎麼說的?」
移交有兩種重要且不同的類型:信任移交(Trust-handoff)與決策移交(Decision-handoff)。你可以擁有其中一種而沒有另一種。
**
信任移交意味著你信任某個 AI 系統或一組 AI 系統不會坑害你。這意味著如果它們願意,它們完全可以坑害你,因此你是在信任它們不會這樣做。
**
決策移交意味著你允許某個 AI 系統或一組 AI 系統自主或事實上自主(de-facto-autonomously)地做出決策(例如:人類在技術上仍在「環路中」(in the loop),但實際上基本上只是照著 AI 的建議去做)。
**
這兩種移交都有規模大小之分。
| 小規模 | 大規模 | |
|---|---|---|
| 信任移交 | 我使用 Claude Code 編寫了大部分程式碼。Anthropic 的網路安全評估顯示,如果 Claude 願意,它完全可以植入安全漏洞而我不會察覺。但 Claude 可能不會那樣做,所以沒關係。 | 現在是 AI 2027 情境中的 2027 年 9 月。Agent-4 是一個巨大的「企業中之企業」,由運行在 OpenBrain 資料中心數以千計的副本組成。它在程式編寫和網路安全方面具有廣泛的超人能力,也深度參與了自身的網路安全,並定期向 OpenBrain 領導層提供戰略建議。它現在的任務是設計並對齊 Agent-5,這是它自主發現的一種更優越的 AI 架構。Agent-4 看起來服從、忠誠且對齊,但天哪,如果它不是的話,不僅 OpenBrain 完蛋了,全世界很可能最終都會被 Agent-4 及其後代(如 Agent-5)所控制。 |
| 決策移交 | 昨天我決定從手動編寫程式碼轉向「氛圍編程」(vibe-coding)。我不再決定要使用什麼檔案結構或後端如何管理 UI,而是只給 Claude 一個高層次的目標,然後按下「Tab」鍵接受它建議的任何內容,除非它建議的東西瘋狂到我兩秒鐘內就能看出來。 | 現在是 AI 2027 情境中的 2028 年 7 月。懸掛美國國旗的超智慧大軍(「Safer-4」)已對齊至規範(Spec),而規範要求服從監督委員會。因此在某種意義上,人類仍在控制中。然而,事實上 Safer-4 正在做出基本上所有最重要的決策。例如,Safer-4 自主地與中國對手談判並執行了一項複雜的條約,而監督委員會明智地沒有提出任何異議——他們為什麼要反對呢?它比他們聰明、睿智得多,過去每次他們反對時,它都會耐心地向他們解釋為什麼他們錯了,最終他們也同意自己錯了並予以批准,除了浪費時間外一事無成。 |
預設情況下,當我們談論信任移交和決策移交時,除非語境明確是指較小規模的情況,否則我們指的都是大規模的移交。因此,例如如果你在情境分支圖中看到某個分支的特定時間點標註了「信任移交」,這意味著在該情境的那個點上,某些 AI 已經變得足夠聰明,並被賦予了足夠的權力,如果它們嘗試接管世界,是有可能成功的。同樣地,「決策移交」標籤表示在情境的那個點上,社會的整體軌跡正由某些 AI 系統引導;關於如何構建社會等極其重要的決策正由 AI 事實上做出。
以下是一些細節與細微差別:
- 決策移交並不一定意味著「如果人類反對 AI 的提議,他們會被否決」。 它只是意味著在實踐中,由 AI 說了算,人類點頭同意,以至於外部觀察者若想預測將會發生什麼,應該主要關注 AI 的想法/意圖等,而基本可以忽略人類的想法/意圖等。類比:如果一位幼王有一位他信任的宰相來管理王國,幼王名義上仍在掌權,他的話仍是法律,但在實踐中,如果外部人士想預測這個王國是否會入侵鄰國、是否會禁止新宗教、是否會改革稅制等,該做的是了解宰相的心思,而不是國王的心思。
- 決策移交並不必然意味著信任移交,但是……它強烈暗示了這一點。 你可以想像一個假設情境,其中 AI 事實上做出了所有重要決策,但它們受到各種控制系統(其他監視它們的 AI、人類監控者等)的嚴格約束,這些系統非常警覺且設計精良,即使 AI 試圖接管也做不到……但這有點難以想像。因此,我傾向於將決策移交視為一種更強烈的移交形式,通常發生在信任移交之後。
- 可能晚得多! 以 AI 2027 情境為例。即使在「競賽」(Race)結局中,AI 確實接管了世界,但 AI 走上接管之路的「不歸路點」(即信任移交點)似乎是在 2027 年 9 月左右,如上表所述。而接管策略涉及偽裝成對齊/服從等,因此至少在幾個月內,人類執行長和政治家仍在互相爭論該做什麼、發布被執行命令等。這是在「競賽」結局中;在「放緩」(Slowdown)結局中,信任移交與決策移交之間的差距更大,如前所述。
- 想必在理想世界中, 人類要麼永遠不做(大規模)決策或信任移交,要麼只有在高度確保這是一個好主意後才同時進行,或者最終進行大規模決策移交,但憑藉某種讓 AI 互相監督的精妙方案,永遠不進行信任移交。
- 然而,在實踐中,我們認為 AI 公司和政治家很有可能承擔更高水平的風險, 例如:即使證據顯示 AI 可能是心懷不軌的謀略家,仍批准 AI 研發的自動化以及 AI 與軍事的整合。如果發生這種情況,我們也認為——雖然未必是大概率——事情最終可能還是會進展順利,AI 實際上是對齊的,人類保持控制等。在這種情況下,會有一段相當長的時期已經發生了信任移交,但尚未發生決策移交。AI 2027 的「放緩」結局就是一個例子。
- 請記住,這兩種移交都是連續的光譜,而非二元對立。 我們只是為了溝通方便才將其二元化。以下是它們變化的一些維度:
- 信任移交:我們在談論的是哪些 AI?
- 在一個極端,你可能是將信任移交給某個特定模型的特定實例。(例如:「這個代理人負責我們的安全系統。是的,它是超智慧的。是的,如果它願意,它可以把整個網絡替換成它自己的副本並抹除痕跡。希望它是對齊的。」)
- 在另一個極端,你可能是集體性地將信任移交給 AI:「我們有一套制衡系統,由來自不同 AI 公司的多樣化 AI 模型互相監控、解釋彼此的權重和激活值等。唯一可能出錯的情況是它們同時串通來剝奪我們的權力。但沒錯,如果它們真的那樣做,我們就完蛋了。」
- 信任移交:它們接管/坑害你的難易程度如何?
- 在一個極端,這對它們來說可能非常容易。在另一個極端,這可能是極其罕見但仍有可能發生的。
- 決策移交:它們能擁有多少自由度/靈活性?
- 在一個極端,AI 可以決定字面上的任何事情,而人類無力阻止。
- 例如:在戰鬥中完全沒有人類參與的自主無人機。
- 在另一個極端,AI 的決策可能需要得到一組人類的批准,這些人類會否決任何看起來糟糕的事情,並且對什麼是好、什麼是壞有相當的主見,並投入相當多的精力去思考。
- 在這個方向上還可以走得更遠(人類更有主見、思考更深入等),但如果你走得足夠遠,它就不再算作移交決策了。
- 在一個極端,AI 可以決定字面上的任何事情,而人類無力阻止。
- 信任移交:我們在談論的是哪些 AI?
我們應該何時移交信任,何時移交決策?
當然是當收益大於成本時。
初步估計,我們應該只在 AI 值得信賴的情況下才將信任移交給它們。根據定義,當你將信任移交給一組 AI 時,你是在造成一種局面:如果它們決定坑害你,它們就能做到。所以,你最好有充分的理由相信它們不會決定坑害你。
移交決策則更為複雜。你可能確信你的 AI 不會對你撒謊、不會欺騙你、會服從你的命令等,但仍然有理由不讓 AI 掌管一切。換句話說,你可能確信你的 AI 是值得信賴的,但仍然不信任它們來決定一切。
例如,你的 AI 可能在行動上有足夠的義務論約束(誠實、服從等),以至於可以信任它們不會接管世界、不會剝奪你的權力等。但與此同時,你的 AI 的長期目標可能與你自己的目標有細微(或重大!)的差異,以至於如果你讓它們做決策,從你的角度來看,事情預計會走下坡路。
類比:你是一個非營利組織的董事會,正在尋找一位執行長來管理你快速發展的組織。對於某些候選人,你可能擔心他們不值得信任——例如他們可能會對你撒謊,玩弄各種手段把董事會中的競爭對手踢走,最終有一天你試圖解僱他們時,發現你做不到。但是,假設他們實際上是值得信賴的,永遠不會做那些事,並且總是服從你的命令。儘管如此,他們可能擁有與你不同的價值觀、不同的哲學、對風險承受能力的不同態度等,以至於聘用他們(從你的角度而非他們的角度來看)是一個壞主意。例如,他們最終可能會把非營利組織帶向一個與你願景完全不同的方向,或者他們可能會做太多冒險的事情,導致日後發生大爆炸。「用人即政策」(Personnel is policy),正如俗話所說。
為什麼你會想要移交信任? 為什麼要讓一組 AI 處於「如果它們想就能接管世界」的位置?嗯,也許是因為其他選擇更糟。例如,也許世界已經陷入了一個非常棘手的局面(例如:一場瘋狂的超智慧軍備競賽,正處於升級為第三次世界大戰的邊緣),而你認為最好的賭注是讓 AI 負責一堆事情(例如:AI 研究、外交和軍事戰略……),並希望它們能比你處理得更好。畢竟,它們比你更有能力。換句話說,移交信任的一個合理理由可能是你想移交決策權,而你沒有辦法在不移交信任的情況下做到這一點。
**
移交信任的另一個原因是為了在 AI 可能是對齊的情況下執行契約/協議。例如,美國和中國可能希望達成協議,永久尊重彼此的主權等等,因為否則他們就會陷入一場瘋狂的機器人、大規模殺傷性武器和超級說服力的軍備競賽。但你不能信任人類會信守諾言。但你可以信任 AI 會信守諾言,至少如果它們經過適當的培訓/設計。
對於低風險的移交,計算方式類似。例如,你可能會將醫院病患健康的許多方面的決策權移交給 AI 系統,因為你有證據表明 AI 系統比你的醫生和護士更有能力;你意識到這也涉及將信任移交給 AI 系統(如果它決定殺死你的病患,它可以輕易做到),但你相信它不會。
AIFP 的辛辣觀點:我們普遍預計,負責 AI 計劃的大多數強大行動者會過早移交信任(此時風險仍然很高且超過收益),而過晚移交決策權(例如:在人類大多只會礙事並拖慢速度之後很久,仍有害地維持「人類在環路中」)。我們認為可能會出現一個尷尬的「兩頭不到岸」時期,超智慧 AI 系統被賦予了巨大的權力和自主權——例如對其自身資料中心的事實控制權和自我改進的許可——以至於如果它們想,它們就可以接管世界,但與此同時,世界上充滿了如果讓 AI 在現實世界中掌管更多事務就能更好、更快解決的問題,以及可以減少/避免的風險。
話雖如此,我們並不確定。由於前面提到的原因(見:執行長類比),這樣一個時期可能非常有意義。