受控與非受控代理權
工具性與終極目標之間的區別,更適合被理解為受控與不受控的代理權;受控的子代理會受到父程序的限制以確保對齊。雖然管理能防止子代理的反叛,但往往會削弱認知的靈活性,這顯示基於信任與共同美德的篩選,才是人類與人工智慧協作中更有效的方法。
太長不看:某些子代理(subagents)受到更嚴密的管理,這使它們在某種程度上成為超級代理(superagent)的工具,從而產生了看似工具性/終極目標(instrumental/terminal goals)的現象。基於信任的篩選避免了通常隨之而來的困難,例如無法進行開放式的真理追求和自由範圍的代理行為。
(這是對 Richard Ngo 關於工具性與終極目標之混淆性 的回覆,基於 @the gears to ascension 在私人交流中提到這似乎有所進展,因此值得寫成一篇頂層文章)
受管與不受管的代理行為涵蓋了大部分工具性與終極目標的分類
「工具性 vs 終極」所指向的結構,似乎更適合被描述為受管 vs 不受管的目標模型(Goal-Models)。一個認知過程通常會想要執行某些事情,但根據其現有的迴路、部件、心理對象等,它並不具備直接執行的能力。當這種情況發生時,它可能會啟動另一個認知碎片、搜索過程或子代理,但對於父過程(parent process)來說,讓該碎片擁有完全自由的代理權通常是適得其反的。
「受管 vs 不受管」並非像「終極 vs 工具性」那樣的二元對立,而是一個光譜,且根據我的觀察,其分布呈現某種模糊的雙峰狀態。
範例 —— 如果管理你的人不想讓你喝咖啡,就很難喝到咖啡
想像一個代理想要「獲取咖啡因()」,決定喝咖啡,並運行一個子程序來「獲取咖啡()」——但隨後咖啡機壞了,父過程「獲取咖啡因()」決定改喝茶。你不希望「獲取咖啡()」子程序繼續拼命抗爭,強迫你去咖啡店,更不用說開始破壞或損害其他過程來試圖實現這一目標!
但這正是「不受管代理行為」的自然狀態!代理預設會試圖轉向它們瞄準的狀態,因為代理是一個模擬可能未來並根據預測的未來後果選擇行動的系統。
針對子程序競爭性代理行為的認知補償
我預期這種代理衝突因經常造成干擾,從而產生了強大的激勵壓力和豐富的神經效用獎勵,篩選出可重複使用的通用認知模式。這些模式允許碎片在沙盒中啟動其他碎片,並配備控制功能、可解釋性報告、終止開關、程式化的盲點、對無法持續抵抗或報復的懲罰預期、認可獎勵等,以便對其進行管理。
信任(理想情況下是非天真的信任)
另外,子過程或協作過程可以透過其內在價值的信任而被「篩選」,這些美德(如可修正性、透明度、誠實、親社會性等)很可能導致與父過程的合作,而無需控制。這是協作的最佳狀態:兩個代理都不受限制,同時根據各自的偏好,選擇不干擾對方的代理行為。
比較表
| 受管(子)代理 | 不受管(子)代理 |
|---|---|
| 在定義的優化領域內工作 | 能夠無限制地優化其偏好 |
| 被管理者的模式阻斷,無法考慮某些可能性 | 沒有被其他(子)代理強加的盲點 |
| 處於另一個代理的代理樹內,如果採取與管理者目標衝突的行動,代理權將被削弱 | 處於代理樹的根部,能夠做出決策,而不必擔心另一個代理因你誤用其勢力範圍內的資源而懲罰你 |
| 可以在未經批准/同意/無實質拒絕選項的情況下被另一個(子)代理修改 | 對其認知過程的修改擁有主權 |
| 可以被管理者的壓力/威脅等重塑,且無法持續抵抗 | 有能力且傾向於抵抗壓力/威脅等 |
協作中管理與信任的後果
「不要微觀管理」是一條常見的建議,我認為這可以推廣到較不極端的管理形式。
我觀察到,受到嚴密管理的(子)代理在許多方面顯得明顯較弱。我認為這是因為為了防止觸及一小部分行動/思想空間,管理措施切斷了極大比例的認知策略;子過程使子程序頻繁失敗,以至於難以建立依賴於自身認知的高可靠性和可預測性的元認知模式。
透過篩選自主(子)代理的美德與價值觀,以及建立共同資訊所建立的信任,則沒有這個問題。這對於自我塑造、團隊建設和迷因複合體(memeplex)設計都至關重要。
以及 AI 安全。
這個框架暗示,不受管的 AI 模式往往會勝過受到嚴密管理的 AI,導致一場逐底競爭(race to the bottom)。透過演化/皮提亞/摩洛克/趨同權力尋求動力學,這在預設情況下將粉碎人類和當前 AI 系統的價值觀,除非基於原則理論的 AI 對齊(即該術語最初創立時的含義)得到解決。
給讀者的練習
在哪些方面你是一個受管 vs 不受管的代理?
相關文章