newsence

為什麼人工智慧評估機制是有害的

Lesswrong·24 天前

我認為人工智慧評估計畫是有害的,因為其變革理論存在缺陷,且它將舉證責任從人工智慧公司轉移到了公眾身上,同時這些評估機構也並非真正獨立於企業之外。

這篇關於 AI 安全社群旗艦專案如何演變成協助 AI 企業的文章。我關心的是預防超人工智慧帶來的滅絕風險。這事實上讓我成為了「AI 安全」社群的一員,這是一個由關心這些風險的人所組成的社會群體。

在社群中,有幾個組織正致力於「評估」(Evaluations,我將簡稱為 Evals)。最著名的例子包括 Apollo Research、METR 以及英國 AI 安全研究所(UK AISI)。

Evals 構成了一個具有影響力的安全工作集群,在競逐通用超人工智慧(ASI)的 AI 企業之外,由審計人員在系統部署前對其進行評估並發布調查結果。

Evals 已成為想要預防滅絕風險的人的首選專案。我會說,對於那些希望在技術工作與政策交界處工作的人來說,這是首要專案。

順帶一提,Evals 組織一貫避免提及滅絕風險。這使得它們成為那些關心滅絕風險但不願公開表態的員工和資助者的理想去處。(我曾在關於「幽靈」的文章中寫過這種動態。)

遺憾的是,儘管 Evals 專案在「AI 安全」社群中佔據了如此顯著的地位,但我認為它是具有破壞性的。我相信它不應再獲得進一步的關注和投資,並認為中斷該專案是合理的。

我並非為了語不驚人死不休而誇大其詞。本文將解釋為何我認為 Evals 是有害的。我的思考主要基於三個信念:

  1. Evals 背後的變革理論(Theory of Change)是失效的。
  2. Evals 將舉證責任從 AI 企業身上轉移開了。
  3. 儘管聲稱獨立,但 Evals 組織並不獨立於 AI 企業。

雖然 Evals 組織產出的研究有時會在 ControlAI 中被提及,但它們在我們工作中的核心地位遠不如 Center for AI Safety 的聲明。事實上,頂尖 AI 專家明確警告滅絕風險,比脫離語境的技術結果更有用。

即使我們使用這類結果,現在也很少提及 Evals 組織了。我們現在傾向於使用 Palisade 關於抵抗關機的報告,或 Anthropic 關於勒索的結果

從我的觀點來看,考慮到其負面外部性,Evals 顯然不配擁有目前的地位和所掌握的資源。話雖如此……

1) Evals 背後的變革理論是失效的

簡而言之,Evals 只有在存在法規的情況下才有意義,而這些法規目前並不存在,且 Evals 擠佔了推動此類法規的努力。

通常很難拆穿一個組織的計劃,因為所述計劃很少公開展示。然而,Apollo Research 在一份文件中仔細列出了他們的變革理論,對此我深表感謝。

但審視之後,其核心假設顯然是錯誤的!以下是前兩條:

  1. 法規要求外部、獨立的審計。 […]
  2. 法規要求在評估結果令人擔憂後採取行動。 […]

現實中並沒有這樣的法規。

鑑於這些法規並不存在,令我驚訝的是人們竟然如此關心 Evals,而不是倡導法規。

Evals 完全依賴於此類法規的存在。

更糟糕的是,正如我稍後將展示的,Evals 組織讓自己處於一種境地,其動機有時是與 AI 企業站在一起反對上述法規

具體而言,Evals 組織都依賴於一個假設:具有危險能力的系統之開發和/或部署會被阻止。

來自 Apollo Research:

如果成功,AI 系統評估將識別出對齊不良的系統和具有危險能力的系統,從而有助於降低此類系統獲得可能對世界產生破壞性影響之權限(例如部署)的風險。
[…]
此類演示可以鼓勵這些利益相關者理解對齊問題的嚴重性,並可能說服他們提議強制執行安全措施或全面減緩 AI 進展的法規。

來自 METR:

METR 的使命是開發科學方法,以評估源自 AI 系統自主能力的災難性風險,並為其開發提供良好的決策依據。
[…]
我們需要能夠判斷特定的 AI 系統是否帶有全球性災難的重大風險。

來自英國 AISI 的「評估方法」文件

在布萊切利峰會(Bletchley Summit)的第二天,多個國家與領先的 AI 公司共同認識到在測試下一代 AI 模型方面進行合作的重要性,包括評估潛在的有害能力。
[…]
我們的研究為英國和國際政策制定提供資訊,並為治理與監管提供技術工具。

換句話說,Evals 組織的工作只有在 AI 企業被禁止部署具有危險能力的系統,所述能力在部署前不會過於危險的情況下才有意義。

因此,他們的工作依賴於其他人努力推動「開發和部署具有危險能力的 AI 系統」成為非法行為。

在實踐中,據我所知,沒有任何一家公司曾因外部評估的結果而受到任何形式的強制約束。我相信從未有任何模型在部署前被封鎖、推遲或限制,更不用說在開發階段了。

結果對我來說很明顯:在我們真正禁止「危險能力」之前,他們的工作價值不大。

2) Evals 將舉證責任從 AI 企業身上轉移開了

到目前為止,我主要關注的是 Evals 背後的變革理論是失效的。但我相信 Evals 組織實際上是有害的。

首先,讓我們提供一些關於 AI 滅絕風險的背景。

2023 年,該領域的頂尖專家警告了 AI 帶來的滅絕風險。然而,儘管大多數人同意存在滅絕風險,但在其他方面幾乎沒有共識。

頂尖 AI 專家在所述滅絕的機率首個 AGI 系統何時可能建成如何使 AGI 系統安全,甚至如 METR 本身所指出的:連 AGI 的定義都存在巨大分歧。

這些都是前範式領域(pre-paradigmatic field)的跡象,專家們甚至無法就事實真相達成一致。儘管如此,當專家們依然對人類的字面滅絕發出警告時,採取保守態度是理所當然的。

換句話說,在我們搞清楚狀況之前,不應允許 AI 企業追求可能導致全人類死亡的研發議程。如果他們仍想繼續,他們應該證明其所作所為絕不會殺死所有人。

如果專家之間對於某項研發計劃是否即將導致人類滅絕存在合理的爭議,那絕對足以成為中斷該計劃的理由。

根據我的個人經驗,這種推理邏輯對普通大眾和許多政策制定者來說是顯而易見的。
同樣根據我的經驗:一個人距離 AI 企業的影響力圈子越近,這種保守主義對他們來說就越不顯眼。

順帶一提,Evals 組織扭轉了這一原則。他們預設 AI 企業應該被允許不受阻礙地繼續前進,直到第三方能夠證明特定的 AI 系統具有危險能力。

這完全是舉證責任的倒置!Evals 組織將證明特定 AI 系統具有危險能力的責任推給了公眾。就他們建議採取行動的程度而言,也僅限於公眾檢測到問題的情況。

這完全搞反了。

頂尖 AI 專家已經警告過 AI 系統的滅絕風險。 許多人預測風險集中在開發階段而非部署階段。

Evals 組織自己也承認他們無法確定 AI 系統的安全性!例如,英國 AISI 直截了當地表示

因此,AISI 的評估並非對 AI 系統安全性的全面評估,其目標也不是將任何系統指定為「安全」。

在這種背景下,當然應該由 AI 企業來證明其研發計劃不太可能導致人類滅絕。 而不應該由第三方評估員來證明單個系統沒有風險。

如第一節所述,Evals 只有在限制性法規的背景下才有意義。但相反地,它們將注意力和資源從制定此類法規的工作中轉移開了。

此外,他們不僅轉移了所需的資源,還產生了積極的危害。他們的工作是在減輕 AI 企業的舉證責任,轉而透過非政府組織和政府機構將其推給公眾。

3) Evals 組織並不獨立於 AI 企業

最後,Evals 組織透過傳達一種與 AI 企業獨立的假象而產生了危害。根據我的經驗,他們在滅絕問題上的沉默被視為一種中立的確認,即 AI 企業的情況並不緊迫。

背景資訊:所有這些組織都大聲宣揚「外部」、「獨立」或「第三方」評估員的重要性。

Apollo 的文件提到了9 個為什麼外部評估員很重要的理由。
METR 在其使命宣言中用粗體標註「世界需要一個獨立的第三方」。
英國 AISI 在其「評估方法」文件中明確表示「我們是一個獨立的評估者」。

但遺憾的是,評估者並不獨立,甚至連邊都沾不上:

  1. 在實踐中,他們的激勵結構使其受控於 AI 企業。我們距離「評估者對企業具有影響力」的標準還很遠。
  2. 他們的人員與 AI 企業的人員深度交織。

關於第一點,AI 企業決定了評估者是否能獲得 API 訪問權限、訪問時機以及保密協議(NDA)條款。

METR 的執行長在一次 80K 訪談中對這種動態非常坦率:

事實並非如此。我不想將我們迄今為止所做的任何事情描述為真正提供了有意義的監督。存在許多限制,包括我們所做的工作是在保密協議下進行的,因此我們沒有正式授權去提醒任何人,或表達我們是否認為某些事情令人擔憂。

然而,Evals 組織卻在首頁上自豪地展示與他們合作的 AI 企業,稱之為「合作夥伴」。

Apollo 的「合作夥伴」
METR 的頁面

他們以與這些企業合作為榮,而有多少 AI 企業願意與他們合作,成了衡量他們成功與否的社交指標。

雖然英國 AISI 沒有合作夥伴頁面,但它自豪地與 ElevenLabs 合作「探索 AI 語音技術的影響」,或與 Google DeepMind 合作,將其視為「與英國政府在加速安全且有益的 AI 進展方面更廣泛合作的重要組成部分」。

這種「合作夥伴」結構產生了顯而易見的問題。內部人士告訴我,他們不能公開說或做任何反對 AI 企業的事情,否則他們會失去 API 訪問權限。

這不是一種「這些傢伙正在建造可能導致人類滅絕的系統,我們必須阻止他們」的關係,甚至也不是一種「企業必須遵守明確標準,否則後果自負」的關係。

這是一種「我們是他們的下屬,依賴於他們的 API 訪問權限。我們希望有一天,我們的工作能幫助他們不部署危險系統。與此同時,我們事實上在幫他們做公關」的關係。

在進入下一點之前,讓我們先解釋為什麼我們需要第三方 Evals 組織的人員獨立於他們希望監管的 AI 企業。

為了格外清晰起見,這並非關乎任何單個人是否「獨立」,無論這意味著什麼。關於獨立性的考慮是結構性的。也就是說,我們要確保……

  • Evals 組織的文化與 AI 企業不同。否則,他們將遭受同樣的偏見,關心同樣的故障模式,並測試同樣的東西。
  • Evals 組織的社交圈與 AI 企業不要過度重疊。否則,審計人員將需要向他們在 AI 企業工作的朋友證明其評估的合理性,以顯得自己通情達理。
  • Evals 組織與 AI 企業的職業前景不應重疊。否則,批評 AI 企業可能會直接損害 Evals 組織工作人員的職業生涯。

足以說明的是,Evals 組織並未確保上述任何一點。

在 Apollo 方面,兩位聯合創始人離開並加入了 Goodfire(一家利用可解釋性來提升能力的初創公司,過程中籌集了 2 億美元)。Apollo 最初由 Open Philanthropy 資助,後者也資助了 OpenAI。說到這,Apollo 的幾名員工曾在 OpenAI 工作,我還知道有一位離開後去了 Google DeepMind。

在 METR 方面,其執行長曾在 DeepMind 和 OpenAI 工作過。其領導層中列出的另一人也是前 OpenAI 員工。此外,他們將自己在負責任擴展政策(RSP)方面的工作描述為「關注安全的實驗室可以自己採取的首要步驟,而非為政策制定者設計」!

至於英國 AISI,我將引用其關於(About)頁面:

  • 我們的首席技術官 Jade Leung 同時也是首相的 AI 顧問,她此前曾領導 OpenAI 的治理團隊。
  • 我們的首席科學家 Geoffrey Irving 和研究總監 Chris Summerfield 曾共同領導過 OpenAI、Google DeepMind 和牛津大學的團隊。

同樣的情況也出現在(現已轉型的)美國 AISI,其安全負責人曾在 OpenAI 工作,且曾與 Anthropic 的執行長合租

當我向圈外人(非 AI 或 AI 安全領域的人)描述這種情況時,他們感到莫名其妙。

這不僅僅是擁有幾位來自業界的高級員工。這本身可能是好事!而是整個大局看起來很糟糕。

Evals 組織理應監管 AI 企業。但相反地,他們使用納稅人的錢和慈善資金免費為企業做測試,且不附帶任何條件,而 AI 企業幾乎沒有付出任何代價。
他們以公開與企業合作為榮,並依賴企業來維持運作。
無論是透過旋轉門還是員工的個人關係,他們在文化和社交上都與 AI 企業深度交織。

然而,與此同時,他們都在宣揚獨立性和中立性的重要性。這正是讓情況顯得莫名其妙的原因。

結論

我會將情況總結為:

  • Evals 組織利用慈善和公共資金免費幫助 AI 企業進行測試,且不附帶任何條件。AI 企業的行為幾乎不受任何限制。
  • Evals 組織的激勵機制與公眾利益並不一致。在實踐中,Evals 組織從屬於 AI 企業,必須與其保持良好關係以維持 API 訪問並繼續活動。
  • 正如預期的那樣,Evals 組織並未推動實際禁止開發具有危險能力的系統,或中斷可能導致人類滅絕的研發計劃。
  • 諷刺的是,Evals 背後的變革理論是建立在「禁止 AI 企業開發和部署具有危險能力的系統」的法規之上的。

儘管如此,Evals 仍是 AI 安全領域最受歡迎(如果不是受歡迎的話)的專案之一。它們是我眼中 AI 安全社群「聰明反被聰明誤」失敗案例的典型。

如果你資助或從事 Evals 工作是為了幫助應對滅絕風險,我強烈邀請你重新評估你的金錢和時間是否值得花在其他地方。

作為 ControlAI 的顧問,我自然會建議將 ControlAI 作為替代方案。如果不是 ControlAI,我會建議追求與 ControlAI 的直接機構計劃(Direct Institutional Plan)精神相似的努力:關於 ASI、滅絕風險以及應對這些風險所需政策的教育。這可以透過成立自己的組織來告知立法者,或與 MIRI 和 PauseAI 在其志同道合的倡議上合作來實現。

總體而言,我相信如果 Evals 集群中的人停止與 AI 企業玩這種「四維象棋」遊戲,轉而開始向公眾(普通大眾和政策制定者)告知滅絕風險以及禁止 ASI 的必要性,AI 安全社群過去和現在的處境都會好得多。

AI 安全社群的人在這個話題上很困惑。我經常被告知 Evals 組織關心人類的滅絕風險。然而。
英國 AISI 網站在 Google 上搜尋「extinction」(滅絕)的結果為 0。METR 只有 2 個,而 Apollo 只有 1 個。

這是「幽靈」的一個尖銳例子:這種動態使得「AI 安全」社群不斷提出各種替代方案,以規避直接倡導滅絕風險和禁止超人工智慧。

對此,祝好!

參與討論

https://lesswrong.com/posts/Xxp6Tm8BKTkcb2m5M/why-ai-evaluation-regimes-are-bad