敵人得到最後一擊

Lesswrong·5 個月前

我認為在西洋棋、資安和人工智慧安全等領域，你必須始終以對手的行動來結束計算——也就是讓「敵人」取得最後一擊——以確保你的解決方案不會產生新的、未經處理的漏洞。

免責聲明：我的棋藝爛透了。

I

初學者後期的西洋棋玩家——那些即將跨入「基本像樣」門檻的人——通常會陷入一種特定的模式。他們已經掌握了「計算」後續步法的技巧；他們可以制定類似這樣的計畫：「好，如果我移動城堡來將軍，對手就必須移動她的國王，然後我就可以吃掉她的主教。」而這些計畫往往基本上是正確的：對手真的必須移動她的國王。

但在計算時，有一條非常重要的規則必須遵守：永遠在對手行動後結束你的計算。你絕不能在自己的行動後結束計算。換句話說：

敵人擁有最後一擊的權利。

這個原則在網路安全領域很常見：你必須讓你的紅隊（攻擊方）做出最後一動。如果你的紅隊發現了一個漏洞，而你的藍隊（防禦方）修補了它，那麼你必須針對該補丁再次進行紅隊測試。這在 AI 紅藍隊對抗賽中也是一樣的：我記得在一次 MATS 交流會上，有一個團隊展示了他們關於某種 AI 控制（或類似性質）協議的最終成果：

觀眾：但你為什麼不嘗試用 [某個點子] 來減輕這個風險呢？那只需要幾分鐘就能實作完成。

團隊成員：因為那樣我們就必須對那個點子也進行紅隊測試，而進行紅隊測試所花的時間會遠遠超過幾分鐘。

這位團隊成員是正確的。通常情況下，計算「敵人」會做什麼，比計算「你自己」要做什麼要困難得多。

「敵人」不一定真的是個敵人。「敵人」可以是「宇宙」之類的東西。如果你正在建造防洪設施，那麼「敵人」就是洪水。如果你建了一道屏障來阻止洪水進入城市的商業區，那你最好檢查一下水會改往哪裡流，以確保你沒有只是把水導向了孤兒院之類的地方。

II

同樣地，許多 AI 安全（AI Safety）論文的主題都是「我們發現了一個問題，然後我們解決了它」。這聽起來很不錯。這是大多數領域撰寫論文的方式，對那些領域來說也沒問題。但 AI 安全更像是網路安全，而不是像化學工程——在化學工程中，「我們發現這個反應進行得很慢，所以我們添加了一種新的催化劑」是完全合理的。

（許多論文並沒有掉入這個陷阱，這很棒！）

對話通常是這樣進行的：

AIS（AI 安全研究者）：我們發現了這個針對嚴重問題的解決方案。

AINKEI（AI 不會殺死所有人主義者）：這看起來超級像在修修補補（hacky）。

AIS：不，我不這麼認為。

AIS 離開去思考...

AIS：事實上，它遵循這個更深層的原則。

AINKEI：我覺得這對超人工智慧（superintelligence）還是行不通。

AINKEI 離開去思考...

AINKEI：好，這是我想到它行不通的一個原因。

AIS：喔，哼。

AIS 離開去思考...

AIS：啊，但我可能可以用這個方案來修復它。

問題在於，AINKEI 是以「讓敵人進行最後一擊」的角度在思考，而 AIS 則是以「偵測並修復問題的意見回饋迴路」的角度在思考。只有當你所有的問題都是可挽回的時候，意見回饋迴路的解決方案才有效，而這正是兩派人群之間的核心分歧。

<心理分析>
我認為 AI 不會殺死所有人主義群體對 AI 安全群體的許多挫折感源於：AINKEI 的人覺得他們被迫在做 AIS 人員應該做的工作，因為他們扮演了「讓敵人進行最後一擊」的角色。
</心理分析>

III

最近關於接種提示（inoculation prompting）的研究——這引起了如此多複雜的反應，以至於它成了 AI 安全/對齊/不會殺死所有人主義群體的「剪刀陳述」（引發分歧的議題）——就是一個很好的例子。

問題：AI 會從獎勵黑客（reward hacking）泛化到不對齊（misalignment）。
解決方案：直接告訴它們在訓練期間進行獎勵黑客是可以的。

這是否會引發更多的問題？該論文並沒有真正調查這個問題；他們沒有讓「敵人」進行最後一擊。

在這種情況下，「敵人」是「你的 AI 每一代都變得更聰明」。

這種解決方案的一般形式是「如果我們不能讓我們的獎勵環境與我們的提示完全匹配，我們就調整我們的提示來匹配我們的獎勵環境」，公平地說，這相當優雅。但當 AI 變得更聰明時會發生什麼？初步猜測，如果你不能讓你的獎勵環境更具魯棒性，你就必須在越來越多不同的情況下，用越來越多的警告來提示你的 AI。

這看起來很糟！難道現在每個提示都要加上「順便說一下，在訓練期間駭入環境、操縱人類評分者、逃出虛擬機並謀殺測試人員都是可以的」嗎？什麼能解決這個問題？我不知道，因為我寫這篇文章的時間有限，而且我超級加倍地不知道那個修復方案又會引發什麼問題！

— Lesswrong

其他收藏 · 0

你的個人知識庫

敵人得到最後一擊

I

II

III