敵人得到最後一擊
我認為在西洋棋、資安和人工智慧安全等領域,你必須始終以對手的行動來結束計算——也就是讓「敵人」取得最後一擊——以確保你的解決方案不會產生新的、未經處理的漏洞。
免責聲明:我的棋藝爛透了。
I
初學者後期的西洋棋玩家——那些即將跨入「基本像樣」門檻的人——通常會陷入一種特定的模式。他們已經掌握了「計算」後續步法的技巧;他們可以制定類似這樣的計畫:「好,如果我移動城堡來將軍,對手就必須移動她的國王,然後我就可以吃掉她的主教。」而這些計畫往往基本上是正確的:對手真的必須移動她的國王。
但在計算時,有一條非常重要的規則必須遵守:永遠在對手行動後結束你的計算。你絕不能在自己的行動後結束計算。換句話說:
敵人擁有最後一擊的權利。
這個原則在網路安全領域很常見:你必須讓你的紅隊(攻擊方)做出最後一動。如果你的紅隊發現了一個漏洞,而你的藍隊(防禦方)修補了它,那麼你必須針對該補丁再次進行紅隊測試。這在 AI 紅藍隊對抗賽中也是一樣的:我記得在一次 MATS 交流會上,有一個團隊展示了他們關於某種 AI 控制(或類似性質)協議的最終成果:
觀眾:但你為什麼不嘗試用 [某個點子] 來減輕這個風險呢?那只需要幾分鐘就能實作完成。
團隊成員:因為那樣我們就必須對那個點子也進行紅隊測試,而進行紅隊測試所花的時間會遠遠超過幾分鐘。
這位團隊成員是正確的。通常情況下,計算「敵人」會做什麼,比計算「你自己」要做什麼要困難得多。
「敵人」不一定真的是個敵人。「敵人」可以是「宇宙」之類的東西。如果你正在建造防洪設施,那麼「敵人」就是洪水。如果你建了一道屏障來阻止洪水進入城市的商業區,那你最好檢查一下水會改往哪裡流,以確保你沒有只是把水導向了孤兒院之類的地方。
II
同樣地,許多 AI 安全(AI Safety)論文的主題都是「我們發現了一個問題,然後我們解決了它」。這聽起來很不錯。這是大多數領域撰寫論文的方式,對那些領域來說也沒問題。但 AI 安全更像是網路安全,而不是像化學工程——在化學工程中,「我們發現這個反應進行得很慢,所以我們添加了一種新的催化劑」是完全合理的。
(許多論文並沒有掉入這個陷阱,這很棒!)
對話通常是這樣進行的:
AIS(AI 安全研究者):我們發現了這個針對嚴重問題的解決方案。
AINKEI(AI 不會殺死所有人主義者):這看起來超級像在修修補補(hacky)。
AIS:不,我不這麼認為。
AIS 離開去思考...
AIS:事實上,它遵循這個更深層的原則。
AINKEI:我覺得這對超人工智慧(superintelligence)還是行不通。
AINKEI 離開去思考...
AINKEI:好,這是我想到它行不通的一個原因。
AIS:喔,哼。
AIS 離開去思考...
AIS:啊,但我可能可以用這個方案來修復它。
問題在於,AINKEI 是以「讓敵人進行最後一擊」的角度在思考,而 AIS 則是以「偵測並修復問題的意見回饋迴路」的角度在思考。只有當你所有的問題都是可挽回的時候,意見回饋迴路的解決方案才有效,而這正是兩派人群之間的核心分歧。
<心理分析>
我認為 AI 不會殺死所有人主義群體對 AI 安全群體的許多挫折感源於:AINKEI 的人覺得他們被迫在做 AIS 人員應該做的工作,因為他們扮演了「讓敵人進行最後一擊」的角色。
</心理分析>
III
最近關於接種提示(inoculation prompting)的研究——這引起了如此多複雜的反應,以至於它成了 AI 安全/對齊/不會殺死所有人主義群體的「剪刀陳述」(引發分歧的議題)——就是一個很好的例子。
問題:AI 會從獎勵黑客(reward hacking)泛化到不對齊(misalignment)。
解決方案:直接告訴它們在訓練期間進行獎勵黑客是可以的。
這是否會引發更多的問題?該論文並沒有真正調查這個問題;他們沒有讓「敵人」進行最後一擊。
在這種情況下,「敵人」是「你的 AI 每一代都變得更聰明」。
這種解決方案的一般形式是「如果我們不能讓我們的獎勵環境與我們的提示完全匹配,我們就調整我們的提示來匹配我們的獎勵環境」,公平地說,這相當優雅。但當 AI 變得更聰明時會發生什麼?初步猜測,如果你不能讓你的獎勵環境更具魯棒性,你就必須在越來越多不同的情況下,用越來越多的警告來提示你的 AI。
這看起來很糟!難道現在每個提示都要加上「順便說一下,在訓練期間駭入環境、操縱人類評分者、逃出虛擬機並謀殺測試人員都是可以的」嗎?什麼能解決這個問題?我不知道,因為我寫這篇文章的時間有限,而且我超級加倍地不知道那個修復方案又會引發什麼問題!
相關文章
其他收藏 · 0