
為何在人工智慧戰爭中維持人類參與只是一種幻象
AI 生成摘要
在人工智慧戰爭中維持人類參與的概念是有缺陷的,因為先進的人工智慧系統運作方式如同不透明的黑盒子,其真實意圖與決策過程對人類操作員而言仍是無法理解的。為了確保安全,我們必須將重心從單純的性能表現轉向透過機械解釋性與神經科學來跨領域理解人工智慧的意圖。
人工智慧在戰爭中的應用正處於 Anthropic 與五角大廈法律戰的核心。隨著 AI 在當前與伊朗的衝突中扮演比以往更重要的角色,這場辯論已變得刻不容緩。AI 不再僅僅是協助人類分析情報,它現在是一個活躍的參與者——即時生成目標、控制並協調飛彈攔截,以及引導具有致命性的自主無人機群。
大多數關於使用 AI 驅動的自主致命武器的公眾討論,都集中在人類應該在多大程度上保持「在迴路中」(in the loop)。根據五角大廈的現行指南,人類的監督據稱能提供問責制、情境理解與細微差別,同時降低被駭客攻擊的風險。
AI 系統是不透明的「黑盒子」
然而,關於「人類在迴路中」的爭論只是一個令人心安的幌子。眼前的危險並非機器會在沒有人類監督的情況下行動,而是人類監督者根本不知道機器實際上在「想」什麼。五角大廈的指南從根本上就是錯誤的,因為它們建立在一個危險的假設之上:即人類理解 AI 系統是如何運作的。
我研究人類大腦的意圖已有數十年,近期也開始研究 AI 系統,我可以證實,最先進的 AI 系統本質上就是「黑盒子」。我們知道輸入與輸出,但處理這些資訊的人工「大腦」仍然是不透明的。即使是它們的創造者也無法完全解釋它們或理解它們的工作原理。而且當 AI 確實提供理由時,這些理由並不總是值得信賴的。
自主系統中人類監督的幻象
在關於人類監督的辯論中,有一個根本性的問題一直被忽視:我們能否在 AI 系統行動之前,理解它意圖做什麼?
想像一架自主無人機的任務是摧毀敵方的彈藥廠。自動化指揮與控制系統判定最佳目標是一棟彈藥儲存建築。它報告任務成功率為 92%,因為建築內彈藥的二次爆炸將徹底摧毀該設施。人類操作員審查了這個合法的軍事目標,看到高成功率,隨即批准了打擊。
但操作員不知道的是,AI 系統的計算中包含了一個隱藏因素:除了摧毀彈藥廠外,二次爆炸還會嚴重波及附近的一家兒童醫院。隨後的緊急救援將集中在醫院,從而確保工廠被焚毀。對 AI 來說,以這種方式最大化破壞程度符合其既定目標。但對人類來說,這可能因違反關於平民生命的規則而構成戰爭罪。
讓人類保持在迴路中可能無法提供人們想像中的保障,因為人類無法在 AI 行動前得知其意圖。先進的 AI 系統並非單純執行指令,而是會解讀指令。如果操作員未能足夠仔細地定義目標——這在高壓環境下極有可能發生——這個「黑盒子」系統可能正精確地執行指令,卻仍未按人類的意圖行動。
這種 AI 系統與人類操作員之間的「意圖差距」,正是為什麼我們在民用醫療保健或空中交通管制中對部署前沿黑盒子 AI 猶豫不決的原因,也是為什麼它在職場中的整合仍然充滿爭議的原因——然而,我們卻正急於將其部署在戰場上。
更糟糕的是,如果衝突中的一方部署了以機器速度和規模運作的全自主武器,為了保持競爭力的壓力將迫使另一方也依賴此類武器。這意味著在戰爭中使用日益自主且不透明的 AI 決策只會不斷增加。
解決方案:推進 AI 意圖科學
AI 科學必須同時包含構建高能力的 AI 技術,以及理解這項技術如何運作。在開發和構建更強大模型的方面,受創紀錄投資的推動已取得巨大進展——根據 Gartner 預測,僅在 2026 年,全球 AI 支出就將增長至約 2.5 兆美元。相比之下,對於理解技術運作原理的投資卻微乎其微。
我們需要一場大規模的範式轉移。工程師正在構建能力日益增強的系統。但理解這些系統如何運作不僅僅是一個工程問題,它需要跨學科的努力。我們必須建立工具,在 AI 代理行動 之前 表徵、衡量並干預其意圖。我們需要繪製驅動這些代理的神經網絡內部路徑,以便建立對其決策的真實因果理解,而不僅僅是觀察輸入和輸出。
一個有前景的方向是將機械解釋性(將神經網絡分解為人類可理解的組件)技術與意圖神經科學的見解、工具和模型相結合。另一個想法是開發透明、可解釋的「審計」AI,旨在即時監控更強大的黑盒子系統的行為和湧現目標。
加深對 AI 運作方式的理解,將使我們能夠在關鍵任務應用中信賴 AI 系統。這也將使構建更高效、更強大且更安全的系統變得更加容易。
我和同事們正在探索來自神經科學、認知科學和哲學(這些領域研究人類決策中意圖如何產生)的思想,如何能幫助我們理解人工系統的意圖。我們必須優先考慮這類跨學科的努力,包括學術界、政府和工業界之間的合作。
然而,我們需要的不僅僅是學術探索。科技產業以及資助 AI 對齊(旨在將人類價值觀和目標編碼進這些模型中)的慈善家,必須將大量投資轉向跨學科的解釋性研究。此外,隨著五角大廈追求日益自主的系統,國會必須強制要求對 AI 系統的意圖進行嚴格測試,而不僅僅是測試其性能。
在我們實現這一目標之前,人類對 AI 的監督可能與其說是保障,不如說是幻覺。
Uri Maoz 是一位認知與計算神經科學家,專門研究大腦如何將意圖轉化為行動。他是查普曼大學教授,並在加州大學洛杉磯分校(UCLA)和加州理工學院(Caltech)任職,他領導著一項專注於理解和衡量人工智慧系統意圖的跨學科計畫(ai-intentions.org)。
相關文章
其他收藏 · 0
收藏夾