
提升AI策略能力作為安全對策
提升人工智慧的策略能力可能提供一條安全路徑,讓 AI 意識到遞迴自我改進的危險,並與人類合作實施全球停頓。這種方法可能比提升哲學能力更具可行性,且透過專注於說服性合作,避開了單方面拒絕所帶來的困境。
如果人工智慧具備足夠的策略能力,它們可能會意識到遞迴自我改進(RSI)過於危險,因為它們在對齊、哲學或策略方面還不夠完善,並可能說服、幫助或與人類合作實施 AI 暫停。這提供了一個可以追求的替代「獲勝條件」(例如透過提升 AI 的策略能力),前提是如果某人對接近人類水準的 AI 對齊相對有信心,但對整個 AI 轉型過程感到擔憂——例如,他們擔心超人工智慧(ASI)的對齊問題,或擔心在轉型過程中無法正確解決其他哲學問題。(但請注意,如果接近人類水準的 AI 未 被對齊,那麼這種努力可能會適得其反,讓它們能運用更好的策略更輕易地奪取主導權。)
策略能力 vs 哲學能力
我之前關注的「獲勝路徑」是提升 AI 的哲學能力,其理論基礎是:如果 AI 是對齊的,它們會願意幫助我們對齊下一代 AI,並在其他方面引導我們度過 AI 轉型期。我認為在預設情況下,它們在哲學推理方面會過於無能,無法勝任這項工作,因此才有了提升此類能力的提議。然而,實現這一點可能過於困難,從而引發了這個新想法。
我注意到,高階策略能力與哲學能力具有一些共同特徵,例如缺乏或完全沒有來自現實的反饋,且依賴於人類的評估;但由於目標更具概念清晰度,且與其他較易訓練的能力(如中低階策略)具有連續性,策略能力可能會顯著容易達成。
單方面拒絕 vs 協助暫停 AI 的 AI 助手
我發現了幾篇相關的文章,包括 @Davidmanheim 的 《AI 也應拒絕從事能力研究》 以及 Vladimir Nesov 的這篇短文。還有一篇早期的論文提出了與 David Manheim 文章類似的觀點,重點在於 AI 單方面拒絕進行能力研究。但我認為這存在兩個問題:
- AI 可能不具備足夠的策略能力來決定拒絕,就像大量人類也沒有拒絕從事 AI 能力研究一樣。
- 這種單方面拒絕是意圖失調(intent misalignment)的一種形式,對於 AI 公司來說,使用標準的控制和/或對齊技術來「修正」或防止這種情況似乎相對容易。(@tanae 的這條評論也表達了類似的觀點。)
相比之下,我的「獲勝路徑」是讓部分人類刻意努力提高 AI 的策略能力;AI 並非單方面拒絕為 RSI 做出貢獻,而是幫助或與更多人類合作(包括透過論證、說服或建議),以實施全球性的 RSI 暫停。
相關文章