收買功利主義者「零成本」

Lesswrong·7 個月前

我們提出了一個正式模型，證明功利主義推理如何創造出一種結構性脆弱，讓人工智慧企業能以極低的成本獲得公共安全的虛假外表。

我們提出了一個正式模型，論證功利主義推理如何創造出一種結構性脆弱，使得人工智慧（AI）企業能以極低的成本獲取安全的公共形象。

借鑒 Houy [2014] 的研究，我們證明了一個組織只需支付微不足道的溢價 ϵ，即可換取 k 名具備安全意識的員工。

這一結果將 AI 安全領域一個眾所周知的現象正式化：關注 AI 生存風險的研究人員，往往以「從內部改變現狀」為由加入加速主義企業，卻從未產生可衡量的安全改進。

我們討論了這對 AI 治理、組織公信力的影響，以及功利主義決策在競爭性勞動力市場中的局限性。

1) 引言

標題是致敬加密貨幣領域的一個民間結論：「殺死」一個權益證明（Proof-of-Stake）加密貨幣將讓你毫無成本。

如果一名攻擊者可靠地承諾購買權益證明加密貨幣中 51% 的代幣，那麼所有代幣的價值都會歸零。因此，在有可靠承諾的情況下，以任何大於 0 的價格出售代幣都符合每個人的利益。這使得攻擊者能以任意小的代價摧毀網絡。

功利主義者之間也存在類似的動態。

例如，DeepMind、OpenAI 和 Anthropic 的研究人員經常聲稱，他們在這些 AI 公司工作是為了最終從內部改善現狀。他們會說：「我待在那裡總比別人待在那裡好，至少我可以爭取更多的安全性。」

我的目標是為這種現象提供一個正式的解釋。

2) 正式框架

讓我們考慮幾個主體：A，一家加速主義 AI 企業；以及 S1,...Sn，一組具備安全意識的功利主義者。

加速主義企業 A 有興趣聘用關鍵數量的安全意識功利主義者。這能為其帶來大量的聲望、社會資本、公關點數，以及在政府面前的公信力。我們將獲得的效用稱為 PR，並將獲得該 PR 效用所需的最少安全意識功利主義者人數稱為 k。

相反地，每位安全意識功利主義者 Si 加入 A 的動機正是 si，即 A 因為 Si 加入而支付的安全溢價。（這裡我們假設他們總能在非 AI 公司，或至少是非加速主義公司找到一份待遇相當的工作。）

通常情況下，我們預期「市場出清」的條件為 ∃C, |C|≥k, ∑i∈C si ≤ PR。

換句話說，PR 正是 A 的支付意願。

因此，只有當存在一個足夠大的安全意識功利主義者聯盟，能讓加速主義企業獲得公關利益，且其總體安全溢價小到足以讓公關利益覆蓋成本時，這種安排才成立。

—

然而，這並非功利主義者的推理方式。

從功利主義的角度來看，唯一重要的事情是：他們加入企業與不加入企業相比，A 所支付的安全溢價差額。

結果是，A 決定簡單地向首批 k 名安全意識功利主義者每人提供 ϵ/k 的溢價。他們都會接受，理由是讓 A 支付 ϵ/k 的安全溢價總比 0 好。

因此，A 可以用 ϵ 買到 PR，而 ϵ 可以設定為任意小的數字。

3) 影響

這一結果意義重大。

我們的模型從數學上解釋了一種機制，組織可以利用功利主義推理，以遠低於其實際支付意願的成本，獲取一層安全的外衣。

該模型直接解釋了為什麼那些認為 AI 可能導致人類滅絕機率不低的研究人員，仍然會加入 AI 企業。儘管他們的安全溢價 si 可能相當大（反映了對滅絕風險的真實擔憂），但每位研究人員都接受了邊際 ϵ/k 的報價，最終卻沒有產生任何結果。

這種機制可以推廣到技術研究和工程職位之外。

在加速主義企業中從事政策、治理和遊說工作的人員，也援引功利主義理由來合理化其職位。只要他們能自圓其說地解釋自己造成的損害比替代者稍微少一點，我們的模型就能解釋他們如何為任何行動辯護。這種邏輯在結構上與基礎模型中接受 ϵ/k 是完全一致的。

這種剝削甚至延伸到組織外部的參與者。

從致力於讓政客「確保獲得自願承諾」^([1]) 的組織，到為了希望創造「激勵梯度」而對某些公司表現友善的人，我們的框架同樣解釋了這些行為。

在這三個領域中，核心脆弱性是相同的：功利主義決策者僅根據邊際影響來評估行動，這使得他們在集體上易受剝削。

4) 未來研究方向

對我們框架的幾項擴展將增加其解釋力和預測準確性。我們概述了四個有前景的未來研究方向。

高額薪酬方案的扭曲效應。 已有大量文獻證明財務激勵如何影響各個領域的風險感知和安全評估。我們相信將這項研究引入 AI 安全領域將會很有收穫。

影響力最大化框架。 某些參與者在非標準框架下運作，即追求最終結果影響力的最大化，而非其效用。這種影響力有助於模擬由地位追求驅動的行為，即個人最大化其在重大決策中的核心地位，即使其淨影響是負面的。

塑造溫和派形象的優勢。 將「暫停 AI」（AI Pause）描述為「激進」（Buck [2025]）或「最極端」（Dario [2023]）通常能賦予某種公信力，使個人能在多個利益相關者群體中維持影響力。研究這種公信力是否能轉化為比通常的 ϵ/k 更高的安全溢價，以及這是否主導了打壓暫停倡導者的負面影響，將會很有趣。

社會執行與同儕動態。 我們目前的模型忽略了同儕對個人決策的影響。對成員選擇持批評態度的社群，可以有效增加個人加入加速主義企業的成本，從而發揮集體談判權的作用。相反地，與加速主義企業深度糾纏的社群，可能會讓公開反對該企業的人付出代價。

結論

以防有人沒看出來，這是一篇惡搞文章。

儘管如此，它捕捉到了一種真實的動態。我見過許多人完全背叛原則，卻沒有換取任何明顯的好處，只會編造功利主義的藉口來為自己的選擇辯護。

這對 AI 企業的員工、AI 企業的創始人^([2])，以及那些與 AI 企業關係密切、僅倡導對企業成本低廉的解決方案的人（如 Buck 和 Paul）來說都是如此。

我不指望這篇文章能讓他們重新考慮。相反地，我希望這能讓他們身邊的人看清楚：為了微小的 ϵ 而背叛原則，說明的是缺乏勇氣（如 Nate 所言），而非高明的策略。

祝好！

^(^)「自願承諾」本身就是個矛盾辭。如果是自願的，就不具備多少約束力。但「確保獲得自願承諾」更是高明！
^(^)Anthropic、DeepMind 和 OpenAI 的執行長都曾親自告訴我，他們比彼此更優秀，以此來為自己的選擇辯護。

— Lesswrong

其他收藏 · 0