敵人得到最後一擊

Lesswrong·

我認為在西洋棋、資安和人工智慧安全等領域,你必須始終以對手的行動來結束計算——也就是讓「敵人」取得最後一擊——以確保你的解決方案不會產生新的、未經處理的漏洞。

免責聲明:我的棋藝爛透了。

I

初學者後期的西洋棋玩家——那些即將跨入「基本像樣」門檻的人——通常會陷入一種特定的模式。他們已經掌握了「計算」後續步法的技巧;他們可以制定類似這樣的計畫:「好,如果我移動城堡來將軍,對手就必須移動她的國王,然後我就可以吃掉她的主教。」而這些計畫往往基本上是正確的:對手真的必須移動她的國王。

但在計算時,有一條非常重要的規則必須遵守:永遠在對手行動後結束你的計算。你絕不能在自己的行動後結束計算。換句話說:

敵人擁有最後一擊的權利。

這個原則在網路安全領域很常見:你必須讓你的紅隊(攻擊方)做出最後一動。如果你的紅隊發現了一個漏洞,而你的藍隊(防禦方)修補了它,那麼你必須針對該補丁再次進行紅隊測試。這在 AI 紅藍隊對抗賽中也是一樣的:我記得在一次 MATS 交流會上,有一個團隊展示了他們關於某種 AI 控制(或類似性質)協議的最終成果:

觀眾:但你為什麼不嘗試用 [某個點子] 來減輕這個風險呢?那只需要幾分鐘就能實作完成。

團隊成員:因為那樣我們就必須對那個點子也進行紅隊測試,而進行紅隊測試所花的時間會遠遠超過幾分鐘。

這位團隊成員是正確的。通常情況下,計算「敵人」會做什麼,比計算「你自己」要做什麼要困難得多。

「敵人」不一定真的是個敵人。「敵人」可以是「宇宙」之類的東西。如果你正在建造防洪設施,那麼「敵人」就是洪水。如果你建了一道屏障來阻止洪水進入城市的商業區,那你最好檢查一下水會改往哪裡流,以確保你沒有只是把水導向了孤兒院之類的地方。

II

同樣地,許多 AI 安全(AI Safety)論文的主題都是「我們發現了一個問題,然後我們解決了它」。這聽起來很不錯。這是大多數領域撰寫論文的方式,對那些領域來說也沒問題。但 AI 安全更像是網路安全,而不是像化學工程——在化學工程中,「我們發現這個反應進行得很慢,所以我們添加了一種新的催化劑」是完全合理的。

(許多論文並沒有掉入這個陷阱,這很棒!)

對話通常是這樣進行的:

AIS(AI 安全研究者):我們發現了這個針對嚴重問題的解決方案。

AINKEI(AI 不會殺死所有人主義者):這看起來超級像在修修補補(hacky)。

AIS:不,我不這麼認為。

AIS 離開去思考...

AIS:事實上,它遵循這個更深層的原則。

AINKEI:我覺得這對超人工智慧(superintelligence)還是行不通。

AINKEI 離開去思考...

AINKEI:好,這是我想到它行不通的一個原因。

AIS:喔,哼。

AIS 離開去思考...

AIS:啊,但我可能可以用這個方案來修復它。

問題在於,AINKEI 是以「讓敵人進行最後一擊」的角度在思考,而 AIS 則是以「偵測並修復問題的意見回饋迴路」的角度在思考。只有當你所有的問題都是可挽回的時候,意見回饋迴路的解決方案才有效,而這正是兩派人群之間的核心分歧。

<心理分析>
我認為 AI 不會殺死所有人主義群體對 AI 安全群體的許多挫折感源於:AINKEI 的人覺得他們被迫在做 AIS 人員應該做的工作,因為他們扮演了「讓敵人進行最後一擊」的角色。
</心理分析>

III

最近關於接種提示(inoculation prompting)的研究——這引起了如此多複雜的反應,以至於它成了 AI 安全/對齊/不會殺死所有人主義群體的「剪刀陳述」(引發分歧的議題)——就是一個很好的例子。

問題:AI 會從獎勵黑客(reward hacking)泛化到不對齊(misalignment)。
解決方案:直接告訴它們在訓練期間進行獎勵黑客是可以的。

這是否會引發更多的問題?該論文並沒有真正調查這個問題;他們沒有讓「敵人」進行最後一擊。

在這種情況下,「敵人」是「你的 AI 每一代都變得更聰明」。

這種解決方案的一般形式是「如果我們不能讓我們的獎勵環境與我們的提示完全匹配,我們就調整我們的提示來匹配我們的獎勵環境」,公平地說,這相當優雅。但當 AI 變得更聰明時會發生什麼?初步猜測,如果你不能讓你的獎勵環境更具魯棒性,你就必須在越來越多不同的情況下,用越來越多的警告來提示你的 AI。

這看起來很糟!難道現在每個提示都要加上「順便說一下,在訓練期間駭入環境、操縱人類評分者、逃出虛擬機並謀殺測試人員都是可以的」嗎?什麼能解決這個問題?我不知道,因為我寫這篇文章的時間有限,而且我超級加倍地不知道那個修復方案又會引發什麼問題!

Lesswrong

相關文章

  1. 我們如何能更安全地將決策權交給AI?

    2 個月前

  2. 滿足低成本AI偏好以提升安全性的論點

    大約 2 個月前

  3. 對齊將會是預設。接下來呢?

    5 個月前

  4. LeelaPieceOdds 的數據分析

    6 個月前

  5. 人工智慧安全僅剩 12 個月的窗口期

    大約 2 個月前

其他收藏 · 0