AI 公司應公開其安全性評估報告

Lesswrong·1 天前

AI 公司應聘請第三方專家針對關鍵威脅模型進行安全性評估，並公開發布高層級的調查結果，以提高透明度並改善整體的安全標準。

AI 公司應聘請第三方安全專家，針對關鍵威脅模型評估其安全性（可能還包括紅隊演練/滲透測試），並發布該評估的高層級調查結果：即針對各個威脅模型，他們在多大程度上能抵禦不同的威脅行為者。他們還應公布是由誰進行了這項評估。評估可由 AI 公司委託，或由 AI 公司提供相關資訊/權限的第三方機構執行。

做好這件事想必涉及許多重要細節，而我並非電腦安全專家，因此我可能會在某些細節上出錯。這是一篇投入精力相對較少的文章，我主要是想提高大眾對這個想法的關注。（我在此並未提出詳盡的論證或闡明所有細節。）感謝 Fabien Roger 和 Buck Shlegeris 提供的評論與討論。

我懷疑這項主張中最具爭議的部分是「應公開高層級調查結果」。發布一份關於你對哪些威脅行為者具有防禦韌性的摘要（針對每個相關威脅模型），不應會顯著降低對我們所關注的威脅行為者的安全性，且分享這些資訊對公眾而言似乎非常重要。
^([1])

這些威脅模型至少應包括：

模型權重外洩
竊取演算法秘密及其他知識產權 (IP)
^([2])
篡改模型（例如：植入後門或秘密忠誠度）
竊取算力及/或大規模獲取未經授權的模型訪問權限（例如：在公司的數據中心運行未經授權的推論）
攻擊者建立持久性存在（persistent presence），使得未來針對上述威脅模型的防禦變得更加困難
^([3])

理想情況下，這些評估應將 AI 本身視為潛在的威脅行為者，但從人類威脅行為者開始也是可以接受的。

如果公司認為中等資源的對手能夠竊取或破壞其模型和 IP 是可以接受的，他們至少應該明確說明這一點。
^([4])

在保持作為一家具競爭力的 AI 公司的同時（在擁有可能從根本上改變電腦安全現狀的高能力 AI 之前），要抵禦國家級行為者旨在竊取模型權重或 IP 的頂級攻擊，很可能是難以實現的。然而，我仍然認為在當前階段，普遍提升安全性是重要的，且防禦其他威脅模型（篡改模型和竊取算力）以及其他威脅行為者（例如 AI 本身）至關重要。

目前眾所周知 AI 公司的安全性較差（例如，外國對手很容易竊取模型權重，也可能篡改模型），但這一點並不夠透明，且安全性究竟差到什麼程度（以及各公司之間的對比）在公眾面前並不明確。
此外，我認為隨著 AI 能力的不斷增強和局勢的演變，保持這些細節的清晰圖像非常重要；我最關心的是建立執行此類評估的制度/機制。

理想情況下，每家公司應由不同團隊進行多次評估，並形成一種規範：如果一家公司使用了某個團隊（假設該團隊沒有利益衝突），其他公司也應使用該團隊。

這可能存在集體行動問題，即使是出於利他心的個別公司也不願孤軍奮戰，因為這可能太過尷尬（即使他們是安全性最高的公司）。在這種情況下，或許某些第三方 AI 安全組織應嘗試推動此事，同時為多家公司進行評估（最初可以讓退出評估的代價較低，隨後再讓不參與評估變得令人尷尬）。

我也認為，一個合理的首要步驟是讓公司在官網上發布關於其針對這些威脅模型的安全性高層級聲明，並努力保持這些聲明的更新。

既然短期內美國 AI 公司似乎很難在保持競爭力的同時，抵禦國家級行為者頂級的竊取企圖，為什麼我認為這種透明度很重要？

對於思考 AI 以及如何讓強大 AI 發展得更好的人來說，更深入地了解安全局勢普遍而言是重要的。這是局勢中非常關鍵的一個面向！例如，安全性差意味著，目前美國在 AI 能力上領先中國開發者的優勢，對未來（當 AI 極其強大時）領先地位的影響，遠比人們通常假設的要弱得多。
我認為透明度將有助於促使公司在邊際上做得更好，特別是在我認為最具槓桿作用的領域：防禦模型權重被篡改，以及（長期而言）防止算力被濫用。

我也認為，制定利用強大 AI 徹底改善安全性的長期計劃具有相當大的槓桿作用，但這種類型的透明度對此並無特別幫助。

安全是一個集體行動問題，我們理想中應過渡到一種機制，讓所有美國公司都支付相關的安全稅，並達到更高的安全水平。這可能需要美國政府的介入。

我認為，進一步闡明此提案的不同版本並仔細分析其利弊將非常有價值。要真正實現這一點，可能還需要進行倡議。

提高 AI 公司安全性低劣的關注度，確實有可能在短期內（在 AI 變得極其強大之前）使攻擊發生的可能性略微增加，但我對其長期影響持懷疑態度。我也認為短期的攻擊損害要小得多。↩︎
總體而言，相對於防禦模型權重，我對防禦演算法秘密和 IP 的看法較為矛盾。這是因為防禦演算法秘密和 IP 會激勵大量的保密行為，這在我看來淨影響是負面的。我也認為公司應該對當前訓練方法中與風險相關的方面更加透明，並且通常應該在「透明度-安全性」權衡的前沿上更傾向於透明度。但我仍然認為「誰能竊取關鍵 IP」是一個重要的問題。↩︎
如果攻擊者現在建立了持久性存在，那麼即使隨後投入巨資加強安全，防禦其他威脅模型也可能變得困難得多。↩︎
如果一家 AI 公司明確計劃在所有這些威脅模型上永久保持低劣的安全性，以至於（例如）投機性的網路犯罪集團可以在不被阻止（甚至不被發現）的情況下完成任何此類攻擊，那麼我想就不需要第三方評估了，但我預期沒有哪家美國前沿 AI 公司會持這種立場。↩︎

參與討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

AI 公司應公開其安全性評估報告