可解釋性研究人員如何助益AGI的順利發展?

Lesswrong·

Google DeepMind 機械解釋性團隊主張採取務實的解釋性研究方法,重點關注診斷失控風險、增強其他安全領域以及監控極端錯誤行為等具體行動理論,以確保通用人工智慧(AGI)的安全發展。

執行摘要

變革理論 (Theories Of Change)

為了應用我們的務實哲學,我們需要瞄準北極星目標。我們從事這項工作是因為我們高度關注 AGI 帶來的生存風險,並希望確保 AGI 的發展順利。我們尋找北極星的方法之一,是思考可解釋性研究者可以幫助 AGI 順利發展的變革理論(這遠超出了「經典」的機理性可解釋性範疇)。

我們下方的思考深受我們對機理性可解釋性研究者**比較優勢**看法的影響,如配套文章中所述:

  • 在標準技術失效時,利用**模型內部機制(model internals)**創造價值。

  • 對模型行為和認知範例進行深度鑽研,特別是利用工具識別行為的關鍵定性驅動因素無監督發現假設,並以科學心態仔細考慮、測試和證偽假設。

值得注意的是,我們認為雖然可解釋性擅長產生定性洞察(包括意想不到的洞察),但在完整性或精確性方面較弱。因此,我們選擇的變革理論不需要高置信度的解釋,這與可解釋性領域傳統流行的一些觀點不同(例如:試圖排除合理懷疑地證明一個系統是對齊的)。

最後,我們鼓勵讀者將我們的務實框架應用於自己對 AGI 安全的看法!如果能被其他「機理性可解釋性心態有所助益」的變革理論所說服,我們會感到非常興奮。

失調科學 (Science Of Misalignment)

想像一個尖端模型採取了極其惡劣的行動——例如,在關鍵的監控代碼中引入了安全漏洞。我們如何知道它是惡意策劃(scheming),還是僅僅是搞錯了?

這種區別會導致完全不同的安全應對措施。如果它真的被發現是在搞陰謀,我們需要嚴肅對待、發出警報並全面修復這些問題。但如果它是無意的,我們就不應該為了小事大驚小怪(儘管仍應採取緩解措施)。

此外,如果我們真的發出警報,當我們需要證明採取嚴肅行動的合理性時,我們需要向利益相關者提供強大且嚴謹的證據。如果模型經常表現不佳,這很容易。但如果它在規避檢測的同時搞陰謀,那麼區分惡意行為與良性的偶發故障就會變得困難,而且可能沒有確鑿的證據(smoking gun)。

可解釋性可以透過分析行為不端的真實案例(例如:來自部署日誌)來幫助定罪或證明模型的清白。我們的關機抗拒案例研究是對一個較簡單問題的初步嘗試,我們在配套文章中討論了從中獲得的啟示。

為什麼選擇這個? 因為它發揮了對模型行為定性理解、無監督發現以及收集支持和反對競爭假設之證據的科學方法的比較優勢。

在此取得成功需要:

我們認為這是「證明模型是對齊的」的一個更集中且更易處理的類似方案 ^([5])。關鍵的轉變在於關注狹義的定罪而非廣義的清白證明。 我們不是在試圖證明一個全局性的否定命題;我們只需要為關於單一實例的特定假設收集足夠的證據,而這正是可解釋性大放異彩的地方。

我們還注意到,即使你對當前軌跡下的對齊感到悲觀,並希望 AI 進程暫停或放緩,這一議程仍然具有價值:嚴謹、高質量的證據雖然不充分,但對於幫助人們對任何警告信號做出正確反應非常有價值。

賦能其他 AGI 安全領域 (Empowering Other Areas Of AGI Safety)

可解釋性提供了其他機器學習領域通常缺乏的手段。我們不認為它是萬靈丹,但它提供了不相關(decorrelated)的工具,我們很高興能填補其他安全議程中的弱點。

Lesswrong

相關文章

  1. 可解釋性的務實願景

    5 個月前

  2. 研究如何在訓練中使用模型內部資訊是合理的

    2 個月前

  3. 對通用人工智能(AGI)安全產品的論證

    3 個月前

  4. 可解釋性的大膽願景

    5 個月前

  5. 給研究人員的抽象建議:應對AGI對齊的困難核心問題

    5 個月前