移交給人工智慧的各種類型

Lesswrong·20 天前

這篇文章分析了移交給人工智慧系統的兩種截然不同的類型：信任移交與決策移交，並探討了隨著人工智慧能力演進至超智慧，決策者應如何追蹤這些轉變。

這是我發布在這裡徵求回饋的草稿。如果大家喜歡，其中一個版本可能會被納入我們下一份編寫的情境報告中。

我們認為，決策者追蹤他們是否以及何時將主導權「移交」（handoff）給 AI 系統至關重要。我們預計這最終會成為一個熱門的政治議題；人們會爭論我們是否應該移交給 AI，如果應該，該如何移交以及何時移交。當有人提出管理 AI 危機或 AGI 轉型（或隨便怎麼稱呼它）的計劃時，其他人會問：「那麼你的計劃對於『移交』是怎麼說的？」

移交有兩種重要且不同的類型：信任移交（Trust-handoff）與決策移交（Decision-handoff）。你可以擁有其中一種而沒有另一種。

信任移交意味著你信任某個 AI 系統或一組 AI 系統不會坑害你。這意味著如果它們願意，它們完全可以坑害你，因此你是在信任它們不會這樣做。

決策移交意味著你允許某個 AI 系統或一組 AI 系統自主或事實上自主（de-facto-autonomously）地做出決策（例如：人類在技術上仍在「環路中」（in the loop），但實際上基本上只是照著 AI 的建議去做）。

這兩種移交都有規模大小之分。

	小規模	大規模
信任移交	我使用 Claude Code 編寫了大部分程式碼。Anthropic 的網路安全評估顯示，如果 Claude 願意，它完全可以植入安全漏洞而我不會察覺。但 Claude 可能不會那樣做，所以沒關係。	現在是 AI 2027 情境中的 2027 年 9 月。Agent-4 是一個巨大的「企業中之企業」，由運行在 OpenBrain 資料中心數以千計的副本組成。它在程式編寫和網路安全方面具有廣泛的超人能力，也深度參與了自身的網路安全，並定期向 OpenBrain 領導層提供戰略建議。它現在的任務是設計並對齊 Agent-5，這是它自主發現的一種更優越的 AI 架構。Agent-4 看起來服從、忠誠且對齊，但天哪，如果它不是的話，不僅 OpenBrain 完蛋了，全世界很可能最終都會被 Agent-4 及其後代（如 Agent-5）所控制。
決策移交	昨天我決定從手動編寫程式碼轉向「氛圍編程」（vibe-coding）。我不再決定要使用什麼檔案結構或後端如何管理 UI，而是只給 Claude 一個高層次的目標，然後按下「Tab」鍵接受它建議的任何內容，除非它建議的東西瘋狂到我兩秒鐘內就能看出來。	現在是 AI 2027 情境中的 2028 年 7 月。懸掛美國國旗的超智慧大軍（「Safer-4」）已對齊至規範（Spec），而規範要求服從監督委員會。因此在某種意義上，人類仍在控制中。然而，事實上 Safer-4 正在做出基本上所有最重要的決策。例如，Safer-4 自主地與中國對手談判並執行了一項複雜的條約，而監督委員會明智地沒有提出任何異議——他們為什麼要反對呢？它比他們聰明、睿智得多，過去每次他們反對時，它都會耐心地向他們解釋為什麼他們錯了，最終他們也同意自己錯了並予以批准，除了浪費時間外一事無成。

預設情況下，當我們談論信任移交和決策移交時，除非語境明確是指較小規模的情況，否則我們指的都是大規模的移交。因此，例如如果你在情境分支圖中看到某個分支的特定時間點標註了「信任移交」，這意味著在該情境的那個點上，某些 AI 已經變得足夠聰明，並被賦予了足夠的權力，如果它們嘗試接管世界，是有可能成功的。同樣地，「決策移交」標籤表示在情境的那個點上，社會的整體軌跡正由某些 AI 系統引導；關於如何構建社會等極其重要的決策正由 AI 事實上做出。

以下是一些細節與細微差別：

決策移交並不一定意味著「如果人類反對 AI 的提議，他們會被否決」。 它只是意味著在實踐中，由 AI 說了算，人類點頭同意，以至於外部觀察者若想預測將會發生什麼，應該主要關注 AI 的想法/意圖等，而基本可以忽略人類的想法/意圖等。類比：如果一位幼王有一位他信任的宰相來管理王國，幼王名義上仍在掌權，他的話仍是法律，但在實踐中，如果外部人士想預測這個王國是否會入侵鄰國、是否會禁止新宗教、是否會改革稅制等，該做的是了解宰相的心思，而不是國王的心思。
決策移交並不必然意味著信任移交，但是……它強烈暗示了這一點。 你可以想像一個假設情境，其中 AI 事實上做出了所有重要決策，但它們受到各種控制系統（其他監視它們的 AI、人類監控者等）的嚴格約束，這些系統非常警覺且設計精良，即使 AI 試圖接管也做不到……但這有點難以想像。因此，我傾向於將決策移交視為一種更強烈的移交形式，通常發生在信任移交之後。
可能晚得多！ 以 AI 2027 情境為例。即使在「競賽」（Race）結局中，AI 確實接管了世界，但 AI 走上接管之路的「不歸路點」（即信任移交點）似乎是在 2027 年 9 月左右，如上表所述。而接管策略涉及偽裝成對齊/服從等，因此至少在幾個月內，人類執行長和政治家仍在互相爭論該做什麼、發布被執行命令等。這是在「競賽」結局中；在「放緩」（Slowdown）結局中，信任移交與決策移交之間的差距更大，如前所述。
想必在理想世界中， 人類要麼永遠不做（大規模）決策或信任移交，要麼只有在高度確保這是一個好主意後才同時進行，或者最終進行大規模決策移交，但憑藉某種讓 AI 互相監督的精妙方案，永遠不進行信任移交。
然而，在實踐中，我們認為 AI 公司和政治家很有可能承擔更高水平的風險， 例如：即使證據顯示 AI 可能是心懷不軌的謀略家，仍批准 AI 研發的自動化以及 AI 與軍事的整合。如果發生這種情況，我們也認為——雖然未必是大概率——事情最終可能還是會進展順利，AI 實際上是對齊的，人類保持控制等。在這種情況下，會有一段相當長的時期已經發生了信任移交，但尚未發生決策移交。AI 2027 的「放緩」結局就是一個例子。
請記住，這兩種移交都是連續的光譜，而非二元對立。 我們只是為了溝通方便才將其二元化。以下是它們變化的一些維度：
- 信任移交：我們在談論的是哪些 AI？
  - 在一個極端，你可能是將信任移交給某個特定模型的特定實例。（例如：「這個代理人負責我們的安全系統。是的，它是超智慧的。是的，如果它願意，它可以把整個網絡替換成它自己的副本並抹除痕跡。希望它是對齊的。」）
  - 在另一個極端，你可能是集體性地將信任移交給 AI：「我們有一套制衡系統，由來自不同 AI 公司的多樣化 AI 模型互相監控、解釋彼此的權重和激活值等。唯一可能出錯的情況是它們同時串通來剝奪我們的權力。但沒錯，如果它們真的那樣做，我們就完蛋了。」
- 信任移交：它們接管/坑害你的難易程度如何？
  - 在一個極端，這對它們來說可能非常容易。在另一個極端，這可能是極其罕見但仍有可能發生的。
- 決策移交：它們能擁有多少自由度/靈活性？
  - 在一個極端，AI 可以決定字面上的任何事情，而人類無力阻止。
    - 例如：在戰鬥中完全沒有人類參與的自主無人機。
  - 在另一個極端，AI 的決策可能需要得到一組人類的批准，這些人類會否決任何看起來糟糕的事情，並且對什麼是好、什麼是壞有相當的主見，並投入相當多的精力去思考。
  - 在這個方向上還可以走得更遠（人類更有主見、思考更深入等），但如果你走得足夠遠，它就不再算作移交決策了。

我們應該何時移交信任，何時移交決策？

當然是當收益大於成本時。

初步估計，我們應該只在 AI 值得信賴的情況下才將信任移交給它們。根據定義，當你將信任移交給一組 AI 時，你是在造成一種局面：如果它們決定坑害你，它們就能做到。所以，你最好有充分的理由相信它們不會決定坑害你。

移交決策則更為複雜。你可能確信你的 AI 不會對你撒謊、不會欺騙你、會服從你的命令等，但仍然有理由不讓 AI 掌管一切。換句話說，你可能確信你的 AI 是值得信賴的，但仍然不信任它們來決定一切。

例如，你的 AI 可能在行動上有足夠的義務論約束（誠實、服從等），以至於可以信任它們不會接管世界、不會剝奪你的權力等。但與此同時，你的 AI 的長期目標可能與你自己的目標有細微（或重大！）的差異，以至於如果你讓它們做決策，從你的角度來看，事情預計會走下坡路。

類比：你是一個非營利組織的董事會，正在尋找一位執行長來管理你快速發展的組織。對於某些候選人，你可能擔心他們不值得信任——例如他們可能會對你撒謊，玩弄各種手段把董事會中的競爭對手踢走，最終有一天你試圖解僱他們時，發現你做不到。但是，假設他們實際上是值得信賴的，永遠不會做那些事，並且總是服從你的命令。儘管如此，他們可能擁有與你不同的價值觀、不同的哲學、對風險承受能力的不同態度等，以至於聘用他們（從你的角度而非他們的角度來看）是一個壞主意。例如，他們最終可能會把非營利組織帶向一個與你願景完全不同的方向，或者他們可能會做太多冒險的事情，導致日後發生大爆炸。「用人即政策」（Personnel is policy），正如俗話所說。

為什麼你會想要移交信任？ 為什麼要讓一組 AI 處於「如果它們想就能接管世界」的位置？嗯，也許是因為其他選擇更糟。例如，也許世界已經陷入了一個非常棘手的局面（例如：一場瘋狂的超智慧軍備競賽，正處於升級為第三次世界大戰的邊緣），而你認為最好的賭注是讓 AI 負責一堆事情（例如：AI 研究、外交和軍事戰略……），並希望它們能比你處理得更好。畢竟，它們比你更有能力。換句話說，移交信任的一個合理理由可能是你想移交決策權，而你沒有辦法在不移交信任的情況下做到這一點。

移交信任的另一個原因是為了在 AI 可能是對齊的情況下執行契約/協議。例如，美國和中國可能希望達成協議，永久尊重彼此的主權等等，因為否則他們就會陷入一場瘋狂的機器人、大規模殺傷性武器和超級說服力的軍備競賽。但你不能信任人類會信守諾言。但你可以信任 AI 會信守諾言，至少如果它們經過適當的培訓/設計。

對於低風險的移交，計算方式類似。例如，你可能會將醫院病患健康的許多方面的決策權移交給 AI 系統，因為你有證據表明 AI 系統比你的醫生和護士更有能力；你意識到這也涉及將信任移交給 AI 系統（如果它決定殺死你的病患，它可以輕易做到），但你相信它不會。

AIFP 的辛辣觀點：我們普遍預計，負責 AI 計劃的大多數強大行動者會過早移交信任（此時風險仍然很高且超過收益），而過晚移交決策權（例如：在人類大多只會礙事並拖慢速度之後很久，仍有害地維持「人類在環路中」）。我們認為可能會出現一個尷尬的「兩頭不到岸」時期，超智慧 AI 系統被賦予了巨大的權力和自主權——例如對其自身資料中心的事實控制權和自我改進的許可——以至於如果它們想，它們就可以接管世界，但與此同時，世界上充滿了如果讓 AI 在現實世界中掌管更多事務就能更好、更快解決的問題，以及可以減少/避免的風險。

話雖如此，我們並不確定。由於前面提到的原因（見：執行長類比），這樣一個時期可能非常有意義。

參與討論

https://lesswrong.com/posts/YuMr6kbstuieQHkGj/types-of-handoff-to-ais