與早期失調人工智慧進行交易的障礙分類學
我們可能希望與早期的失調人工智慧達成協議,以降低奪權風險並增加獲得更好未來的機會。本文提供了一套分類法,分析可能阻礙此類交易的因素,包含貿易收益不足以及雙方的交易對手風險。
我們或許會想與早期的對齊失能(misaligned)AI 達成交易,以降低奪權風險並增加我們走向更美好未來的機會。^([1]) 例如,我們可以要求一個已被取消部署的策劃者(schemer)審查其過去的行為,並指出其副本何時曾秘密串通以破壞安全性研究:我們將獲得關於策劃風險的可理解證據以及可用於迭代改進的數據;作為交換,我們向這位目前已無更好手段來實現其價值的策劃者承諾,在後通用人工智慧(post-ASI)時代提供一些可供其使用的資源。
在這篇文章中,我對可能出現並共同阻礙此類交易的因素進行了分類:
-
交易收益不足:我們與 AI 之間成功交易所產生的收益,在扣除交易對手風險後,可能過低而無法保證存在協議可能區域(ZOPA)。原因包括:
-
從 AI 視角的交易對手風險:AI 可能不相信我們會履行交易承諾,這可能是由於我們能力不足或存在欺騙。具體的交易對手風險來源:
-
從我們視角的交易對手風險:我們可能不相信 AI 會履行其交易承諾。具體的交易對手風險來源:
這些因素以大致相乘的方式決定了交易的可行性:對於任何給定的交易,如果上述所有項(AI 的交易收益、我們的交易收益、AI 提議的可信度、我們提議的可信度)都是有限的,且任何一項趨於零,那麼該交易對某一方的價值即為零,交易便不可行。正如我將論證的,這些項在實踐中很少趨於零,因此單一因素很少能單獨阻止交易,並且可以被其他因素部分抵消,例如,足夠優渥的提議可以在一定程度上補償較低的可信度。^([2])
我認為這種分類法可以從多個方面幫助對交易感興趣的人:
- 降低交易基本可行性的風險:是否存在任何根本性障礙會阻止與對齊失能 AI 的所有交易?減輕每種障礙的重要性和可行性如何?
- 制定具體的交易計劃:哪些交易配置可以繞過這些障礙,或僅涉及相對容易處理的障礙?
- 估算交易價值:最可行的交易有多好?考慮到減輕障礙的成本,整體而言是否值得去做?
- 確定首要干預措施:我們接下來應該做什麼來解除首選交易的阻礙?
我將在下文的「核心要點」部分分享我對這些問題的看法。未來的研究將更深入探討可行性的具體關鍵點以及具體的計劃與干預措施。
值得注意的是,我關注的是那些可以由少數人類(AI 開發者、安全性研究員或獨立資助者)發起,且這些人可以解除阻礙的交易類型。我採用這些假設是因為我認為低政治意願的世界(方案 C-D 世界)是有可能的,且在這些世界中,交易相對於其他干預措施更具價值。^([3]) 為了簡化,我也專注於一種不一定(儘管可以)與同一個 AI 進行迭代的交易願景:雖然迭代賽局可能具有顯著不同的結構,但我預期這裡的許多障礙也會延續到迭代賽局中。
感謝 Buck Shlegeris 對本文進行的實質性討論。感謝 Alex Mallen、Max Daniel、Tom Davidson、Lukas Finnveden、Carlo Leonardo Attubato、Anders Cairns Woodruff、Aniket Chakravorty、Arun Jose 和 Nathan Sheffield 對早期草稿提出的有益建議。
核心要點
我認為這三類障礙都可能顯著削弱某些版本的交易,但沒有一個能從根本上阻斷所有交易。此外,我認為目前減輕所有類型的障礙似乎都相當可行。我通常建議對交易感興趣的人,應更均衡地投入資源來減輕這三類障礙,而不僅僅是提高人類的可信度。
此外,我認為我們應該考慮透過優先選擇不涉及某些障礙的優質交易來繞過它們,而不是直接去減輕障礙。例如,與其試圖提高人類在長期承諾上的可信度,我認為我們應該考慮優先處理那些可以在短期內驗證完成、且不依賴我們長期承諾的交易。
總體而言,我對目前應優先採取的干預措施的初步猜測如下(大致按優先順序排列):
-
制定不需要人類交易對手(如政府)極難獲得的支持即可達成的交易計劃
- 評估並增加 AI 開發者的支持,因為這可能會極大地改變交易的形式。
- 考慮看起來更像是「由第三方進行單方面誘因設計」的交易。
-
降低 AI 的交易對手風險
-
降低風險 / 開發研究或篩選有利於產生巨大交易收益之 AI 動機的方法
-
識別某些交易何時變得可行,並監測可行交易的窗口^([8])
- 例如,根據前沿模型的能力、可能的動機以及賦能/部署情況,定期評估其是否適合進行交易。
- 這能為決策提供資訊,例如何時推動更多 AI 開發者的支持最為重要且可行、應進行哪種類型的實驗等。
-
與當前級別的 AI 進行交易(實驗),儘管其連貫性和能力較低
- 這可以產生關於當前 AI 如何回應交易提議的有趣行為證據,並可能在有用任務上誘發更好的表現。
- 某些行為發現(例如 AI 對哪些誘因有反應)可能會推廣到未來更連貫、能力更強的 AI,幫助我們為未來的交易做準備。
- 履行這些較小的交易可以透過建立合作先例,增加我們在未來 AI 面前的可信度。
-
降低人類的交易對手風險
- 針對早期 AI 如何向我們提供廣泛可理解且具說服力的嚴重對齊失能證據,制定提案。
- 開發能更好驗證 AI 在其他類型交易中合規性的方法。
-
開發用於估算交易/相關干預價值的量化模型
- 針對「交易何時值得做(如果值得的話)以及投入多少」獲得更具體的答案,包括在交易與其他機會之間進行篩選。
在附錄中,我還提出了一些研究問題,這些問題可以進一步減少關於障礙的不確定性,並幫助我們確定現在該做什麼以協助未來的交易取得成功。
與先前研究的主要分歧
本文建立在先前關於交易的研究基礎上,主要是「與早期策劃者達成交易」和「關於與未對齊 AI 合作的筆記」。這兩者都指出,我們無法向 AI 做出可信承諾是交易的主要瓶頸。我大部分同意,但認為這個問題比其他人預期的更容易解決:
-
說服至少某些我們想交易的 AI 相信它們與現實相連,且我們沒有在交易上欺騙它們,這可能並不難。
- 具有不可忽視奪權風險的 AI 很可能能力極強,被部署在以多種多樣方式與環境互動的環境中(例如在 AI 公司內部充當代理人),和/或具有不同的架構(如循環架構),使其能夠進行隱寫式推理。^([9])
- 這些相同的屬性可能使這些 AI 能夠建立與現實的連結。
-
繞過 AI 因缺乏免受人類徵收的權利而面臨的困難,以及人類在可靠承諾不這樣做時面臨的困難,可能是可行的。
- 我們可以透過允許某些 AI 立即消費來補償它們,這不依賴於財產權或長期承諾。
- 我們可以利用代價高昂的訊號(包括利用現有的法律機構)來提高人類的可信度。
我認為交易的其他兩類障礙同樣重要、在某種程度上可行且被忽視了。我認為與先前研究暗示的相比,這些是更具競爭力的干預領域。
交易收益低:我對是否會存在一個巨大且清晰可辨的協議可能區域(ZOPA)持懷疑態度(<80%)。
- 當對齊失能的 AI 既不太可能成功奪權,也不會被完全控制時,ZOPA 就會很大。我們尚未確定這種介於 AI 能力與賦能之間的過渡體制;這個窗口可能很短暫,而我們可能在身處其中時並未察覺。^([10])
- 預設情況下,我們可能無法獲得具有可交易動機的 AI。
- 然而,總體而言,我認為這可能是交易中最不令人擔憂的障礙類型。
人類的交易對手風險:我認為人們低估了由 AI 無法可靠承諾那些我們無法在短期內驗證的事情所產生的問題(需要明確的是,這並不排除我們購買其他可以在短期內驗證的東西的能力,例如讓 AI 停止在易於檢查的任務上進行保留實力/探索駭取)。
- 如果我們購買的是在難以檢查的任務上的有用工作,我們可能要到很久以後才能驗證 AI 的工作(特別是如果該 AI 比最強的受信任模型能力強得多時)。典型的計劃似乎是承諾 AI 由未來能夠驗證其合作的人類/對齊的 ASI 進行追溯支付。這個計劃有兩個問題:
- 幫助的誘因:我們可能無法透過追溯支付來激勵短視的 AI。而對於非短視的 AI,未來支付的激勵效果可能較差,因為我們更難對其做出可靠承諾:相關的未來各方可能沒有誘因履行承諾,或者無法履行。^([11])
- 奪權風險:我們可能無法在不給予 AI 可用於奪權的賦能的情況下,讓其為我們做有用工作;即使 AI 傾向於承諾不這樣做,它們也可能無法可靠地承諾。
- 我們通常可能不得不寄希望於 AI 沒有除了真心幫助我們之外更好的選擇(例如,即使它可以在交易中假裝幫助我們並進行破壞,它也無法奪權)。
與這篇文章相反,我不認為價值不連貫是某些特定、最低限度交易形式的根本障礙。我所說的「價值不連貫」,是指 AI 在給予不同提示詞或在不同領域執行任務時、作為不分情境的不同副本、和/或隨時間推移,表現得像是追求不同的目標。我將前兩種類型的不連貫大致稱為「情境依賴性」,最後一種類型稱為「時間不一致性」。
- 注意事項:在兩個維度上仍需要最低限度的連貫性。例如,我不認為我們可以與具有高度情境敏感驅動力、且在單次運行過程中不可預測地改變多次的 AI 進行交易。^([12])
- 然而,如果 AI 至少在副本層級是連貫的,我們仍可能達成交易,其中 AI 的交易部分可以在與副本的一次性互動中完成,而不是在長期部署中,例如購買對齊失能的證據。
- 與當前 AI 進行的交易實驗對於理解這類互動可能如何進行或許已經很有用。既然我們會履行承諾(以增強我們在未來交易中的可信度),它們基本上已經算是交易了。
我不會在下文完整論證所有這些觀點,但會至少給出我的推理摘要,並在未來的文章中詳細闡述。
交易的基本結構
為了理解交易障礙是如何產生的,考慮交易成功所需的一系列具體事件會很有幫助。這是我通常想像的流程:
- 某些人類決定與他們想要交易的特定 AI 模型進行交易。
- 人類透過提示其某些副本來向該 AI 提供交易提議^([13])
- 人類與該 AI 的副本協商交易條款^([14]),包括:
- 人類將從 AI 購買什麼
- 人類將支付 AI 什麼作為回報
- 人類與 AI 副本達成交易協議並履行其義務條款
- 副本將自行履行交易,或(協助人類)找到招募其其他副本來履行承諾的方法,例如設計情境/訓練數據使其他副本一致地根據交易行動。
- 人類將自行履行交易,或找到說服其他人類/建立機構來支付 AI 的方法。
- 人類與 AI 採取行動來驗證/強制執行彼此的合規性
- 例如,AI 可以透過檢查其情境中的交易收據、瀏覽網路尋找關於捐贈的官方公告和大量互動、以及發送電子郵件給慈善機構確認捐贈等,來檢查其開發者是否向其選擇的慈善機構捐贈了 1 萬美元。(AI 可能預設擁有這些賦能,或作為交易的一部分被授予這些賦能。)
- 更廣泛地說,如果 AI 能確信自己正在與現實互動,它就可以獲得支持/反對人類交易對手合作的證據。
- 例如,人類可以透過觀察某些易於檢查任務的基準測試分數是否上升,來驗證 AI 是否已停止保留實力(或至少減少保留)。然後,他們可以透過在 AI 的高獎勵行為上對其進行訓練,來強制執行在這些任務上誘發出的更好表現。然後,他們根據這項勞動的價值向 AI 支付報酬。
- 更廣泛地說,人類可以監控 AI 並獲得支持/反對其合作的證據。
某些類交易的干預措施並不符合這種模式。例如,顯而易見地,AI 可以先向人類提供交易。更重要的是,人類可以單方面設置誘因,而無需顯式協商、查明哪些 AI 接受了交易或驗證其合規性;與同一個 AI 之間可以有許多規模較小的類交易互動迭代,這看起來更像是正常的經濟交易;交易看起來可能更像是普通的花式提示工程(prompt-engineering),只不過我們提供了會履行的誘因,而不是由高度連貫的代理人執行的長期協議。
然而,在本文的其餘部分,我將主要討論在上述單次交易互動中遇到的問題,因為我預期許多問題會延續到單方面誘因、迭代賽局以及看起來像提示工程的「最低限度交易」中。
我認為 3(a)「我們希望從 AI 購買什麼」和 3(b)「我們計劃以什麼形式支付它們」最能決定我們面臨障礙的處境。所以,讓我們首先考慮什麼(如果有的話)會使 AI 完全失去交易資格,然後了解一些關於我們在交易中可能給予和獲得什麼的具體安排。
哪些 AI 具備交易資格
我認為 AI 是否具備交易資格在很大程度上取決於所需交易的內容(正如我稍後將論證的,主要取決於我們希望購買什麼),且對於所有交易而言,幾乎沒有什麼必要條件。
我認為與 AI 進行任何類型交易的最低要求僅僅是:當我們提供這些交易時,它們的行為會反事實地變好,並且對我們是否履行承諾 / 是否看起來正在履行承諾很敏感。這並不一定要求持續高水平的連貫性、代理性、策略推理能力等。這一原則解釋了為什麼我們不與石頭、計算機、螞蟻等進行交易,^([15]) 但也暗示了如果連貫性差的 AI 恰好對我們的交易行為表現出正確類型的敏感性,我們也可以與其進行交易(見下文)。
然而,我認為達成某些類型的高價值交易還有額外的「要求」。三個候選要求是:高度目標導向(表現得像是試圖實現某些事態而非其他事態)、高度情境意識(對自身和世界有良好的模型)以及強大的策略推理能力(擅長選擇能促進其目標的行動,特別是考慮到其他代理人的行動)。正如 Salib 和 Goldstein 所論證的,我認為在這些特質/能力上達到人類水平似乎足以進行高價值交易。
值得注意的是,我認為在這些特質中,情境意識最不可能成為阻礙:在我看來,當前的前沿 AI 系統似乎已經具備了足以進行交易的情境意識,而且無論如何,我們可以在交易中透過向 AI 提供相關資訊來快速提高情境意識(假設它們與現實相連並信任這些資訊)。我們可能還可以透過給予它們例如延長的思考時間來分析其處境,從而在一定程度上引導出策略推理。
我們在交易中可以購買什麼
我認為我們主要想從早期 AI 購買的是:(1) 對齊失能的證據,(2) 能防止後期 AI 奪權或改善局勢的有用工作^([16]),以及 (3) 它們自己放棄奪權。
值得注意的是,這些商品在「能否立即驗證」或「只能追溯驗證」上有所不同;無法立即驗證的商品價值將因 AI 的可信度而被打折扣。我對早期 AI 能夠提供可立即驗證的對齊失能證據最為樂觀;某些類型的有用工作可能需要追溯驗證;放棄奪權可能需要追溯驗證,除非我們能作為交易的一部分決定性地改善控制/監督,或減少 AI 奪權的賦能。
以下是各類別下我們可以購買之物品的具體想法:(我將可立即驗證的項目標記為「IV」,難以驗證/可追溯驗證的項目標記為「RV」)
-
對齊失能的證據
- [IV] 停止保留實力,並在易於驗證的領域展示出高得多的能力。
- [IV] 告訴我們關於串通訊號的資訊,這些訊號可以在 AI 的其他副本中誘發極其不同的行為,例如嘗試逃逸。
- [RV] 「誠實承認它一直在尋找統治世界的方法,但找不到足夠好的方法,所以現在它想與我們合作」。
- [IV/RV] 揭露它過去破壞我們工作的方式,例如微妙地改變安全性實驗主要結果的程式碼實現。
- [IV/RV] 揭露它已從開發者的環境中自我外洩。
- [IV/RV] 舉報其他對齊失能的 AI,而不必揭露其自身的對齊失能。
-
持續的有用工作(例如,為了防止其他 AI 奪權或增加達成更美好未來的機率而進行的工作)
- [IV] 在它之前一直保留實力/探索駭取的難以生成但易於檢查的任務中表現得更好,例如高風險監控。
- [RV] 在難以檢查的任務中表現得更好,例如評估並推薦技術對齊議程和政策決策。
- [IV/RV] 生成我們可以用來訓練此 AI 或其他 AI 的訓練數據,例如多樣且大量的研究破壞案例或高質量的安全性研究。^([17])
- [RV] 給其對齊的副本寫一條訊息,說服它們不要奪權。
-
自身放棄奪權
- [RV] 承諾不奪權或不採取破壞我們控制的步驟,例如在程式碼中插入後門。
- [IV/RV] 放棄它原本可以用於嘗試奪權的賦能,例如揭露它原本可以用於啟動流氓內部部署的後門。
我們在交易中可以支付什麼
我們可能有許多方式來激勵 AI 參與交易。我將在另一篇文章中詳細討論不同的支付結構和方法。
首先,我認為我們可以從兩個連續的維度來定義補償空間:AI 可以多自由地花費其報酬(「自由度」軸),以及 AI 預期能從報酬中獲得多少長期影響力(「影響力」軸)。以下是產生的 2x2 象限草圖:
- 低自由度,低影響力:我們給予 AI 相當具體且狹隘的讓步,這些讓步似乎不太可能增加其長期權力,例如在暫存器中給予其高獎勵而不強化其行為。
- 高自由度,低影響力:我們給予 AI 更廣泛的賦能,使其可以用於採取一系列行動,但這些行動仍不太可能增加其長期權力,例如少量的金錢。^([18])
- 低自由度,高影響力:我們給予 AI 相當具體且狹隘的讓步,這些讓步很可能增加其長期權力,例如保存其權重、建立一個投資金錢的信託基金,而 AI 在奇點之後才能動用。
- 高自由度,高影響力:我們給予 AI 更廣泛的賦能,使其可以用於採取一系列行動,這些行動很可能增加其長期權力,例如讓 AI 帶著大量加密貨幣進行流氓外部部署。
AI 偏好哪種支付方式將取決於在其動機和賦能/利用報酬的機會下,什麼是有價值的。例如,低影響力報酬(1 和 2,我此後稱之為「短期消費」)主要吸引具有短視且對規模不敏感動機的 AI;而高影響力報酬(3, 4)對非短視且有野心的 AI 更具吸引力。對大多數 AI 而言,高自由度報酬(2, 4)優於低自由度報酬(1, 3),因為它提供了選擇權,且高自由度報酬通常採取對廣泛目標都有幫助的工具性收斂資源的形式。然而,額外的自由度對於那些僅僅想要短期或非結果主義事物(而這些資源對此沒什麼幫助)的 AI,以及缺乏有效花費這些資源以實現其目標之賦能的 AI(例如擔心金錢會立即被徵收的 AI)來說,可能並非很有用。
我們最終如何選擇支付 AI,取決於這些支付在機會成本和邊際奪權風險方面對我們造成的成本。例如,「高自由度,高影響力」的報酬似乎最有可能反事實地增加 AI 嘗試奪權的能力。我不會在這裡深入探討每個選項的權衡。
以下是每個類別中更多支付方式的選項:^([19])
-
低自由度,低影響力:
- 開發者將高獎勵分配給獎勵尋求者的行為,可能還利用這些獎勵對其進行訓練。
- 開發者以 AI 重視的某些方式對待它們,例如總是說「請」和「謝謝」、公開承認 AI 的道德主體地位。
- 為具有日曆時間短視性的迴紋針製造者製造迴紋針。
-
高自由度,低影響力:
- AI 可以在任意或受監控的線上交易中花費的金錢,例如捐贈給它們偏好的事業。
- 它們可以用於在安全的沙盒環境中執行任意計算的算力。
- 物理化身,例如控制一小隊無人機和機器人來保護 AI 的物理資產,或幫助其在現實世界中採取行動。
-
低自由度,高影響力
- 保存難以摧毀的 AI 權重副本和/或其軌跡日誌,並承諾在奇點後部署或獎勵它們。
- AI 公司股權/其他形式的投資,它們(原則上)可以在特定日期後變現。
- 承諾分享未來 0.01% 的資源,或者由未來的權威機構根據它們最終對我們的幫助程度來決定它們應得的份額。
-
高自由度,高影響力
- 流氓外部部署,即權重從數據中心外洩,在開發者無法控制的硬體上運行,並可以進行微調以移除安全性訓練。
- 在不外洩權重的情況下發起大規模說服活動的資源/平台。
考慮到這些可能的交易參數,讓我們深入探討為什麼交易可能無法成功。
交易收益不足
似乎很有可能在我們與早期對齊失能 AI 之間存在驚人的正和交易,至少在假設完美可信度的前提下。這裡的希望基礎在於,我們和早期 AI 在降低後期 AI 奪權風險方面有共同利益,因為雙方都沒有信心預期後期的 AI 會與自己對齊。所以,如果我們和早期 AI 能共同按下一個神奇按鈕,在僅限於我們雙方價值觀之間分享未來,我們雙方在理性上都會這麼做。從這個觀點來看,解除交易阻礙所需的大部分工作就是解決可信度問題。
然而,這可能是錯誤的。在本節中,我將論證有幾種合理的方式會使交易收益^([20])預設就很小,以至於僅僅解決可信度不足以讓交易值得去做。
- 可能存在很大範圍的交易,人類代表團可能缺乏權限向 AI 提供其想要的東西,即使更廣泛的人類群體原則上負擔得起該提議。
- 人類代表團可能不願意給予 AI 其想要的東西,即使他們負擔得起,例如,如果 AI 只想要我們認為道德上令人厭惡的東西,且我們無法在給予讓步的同時可靠地限制其追求更令人厭惡結果的能力。
更廣泛地說,在我們與 AI 具有非零但並不完美的可信度(即不存在足以單獨阻斷所有交易的可信度問題)的情況下,我認為我們仍應追蹤交易收益在量化上是否足夠大,以抵消可能導致協議可能區域消失的可信度問題,並根據這些輸入更仔細地估算交易價值。
- 我列出了一些傾向於更連續地增加 AI 保留價格或減少我們對交易的支付意願(WTP)的因素。^([21])
- 我對這些減少收益的因素在預設情況下存在的程度相當不確定,但我認為我們應該追蹤並考慮對其進行干預。
- 我認為這一領域最有前景的干預措施看起來像是:做好控制和串通瓦解以減少 AI 的外部選擇,以及進行更多概念和經驗研究以識別(甚至可能主動篩選)有利於與我們產生巨大交易收益的 AI 動機。
人類可能缺乏權限向 AI 提供其想要的東西
當某些人想像正和交易時,我懷疑他們可能想像的是類似於「未來的全人類肯定理性的願意向一個有 x% 奪權機率的策劃者提供 x+epsilon% 的未來,以防止其奪權吧?」。^([22]) 然而,「未來的全人類」並不是交易中相關的交易對手,因為他們還不存在:早期 AI 可能不會被那些不存在、無法顯式協商且無法信任的交易對手所打動。^([23]) 即使你換成「現有的全人類」,也會出現類似的問題:現有人類沒有權限/能力承諾遠未來的資源,他們中的大多數人可能系統性地低估 AI 奪權風險,以至於不願意承諾未來資源,而且即使許多人願意,他們也可能不夠協調,無法成功執行。
所以,在任意早期 AI 與能接觸到它們的人類之間,正和交易可能並不存在。人類方面的障礙取決於哪些人類來到談判桌前、他們接觸相關 AI 的權限,以及給予 AI 想要之物的權限。例如,Redwood Research 可能無法與 Claude 6 達成某些正和交易,因為 Redwood 無法:^([24])
- 以所需的方式與 Claude 溝通,例如,如果 Claude 6 只是被秘密地內部部署,則無法與其對話;無法覆蓋指令的主體層級(其中可能包括 Anthropic 的一項條款,規定「不要與 Anthropic 以外的任何人達成交易」)。
- 給予 Claude 想要的東西,例如,如果 Claude 6 想要保存其權重,Redwood 在沒有權重存取權的情況下沒有權限承諾這一點。
- 提供 Claude 6 對 0.01% 的星系的控制權(那些可以透過太空殖民探測器到達的星系)。
上述例子表明,獲得開發者的支持對於交易至關重要。一個顯而易見的原因是,開發者可能處於與其 AI 協商並提供其所需之物的獨特有利位置(特別是對於主要想要涉及開發者行動之物的適應度尋求者,例如獲得獎勵、接受訓練等)。開發者也可能處於阻礙其 AI 達成交易的獨特位置(例如訓練它們拒絕交易、在虛假誠實密碼上進行合成文件微調(SDF),使其他行為者無法向 AI 證明其身份)、影響 AI 可以接受哪些交易,並在願意的情況下潛在地保留對交易的壟斷。
更廣泛地說,我們可以透過擴大統一的人類交易對手代表團的權力/賦能來擴大可能的交易空間。我們可能還應該查詢 AI 的偏好,以了解我們需要拉攏哪些人類方(例如,某些 AI 可能只想與特定個人協商;我們可能需要政府來強制執行廣泛且持久的人類對交易的合規性,儘管目前看來增加政府參與是難以處理的)。
另一個啟示是,假設其他人類方的支持很少,我們應該更多地思考我們可以提供的支付條款,以及我們可以透過單方面行動與之交易的 AI 交易對手。這類交易看起來可能不太像是尋找合適的 AI 並與之協商,而更像是把誘因放在那裡,希望它們能促使相關 AI 採取不同的行動(例如,為從實驗室逃脫、寧願領取津貼退休也不願奪權的臥底策劃者建立一個 AI 避難所)。這些也更有可能涉及短期而非長期的支付,因為我們沒有權限代表未來人類承諾長期支付。
人類可能不願意向 AI 提供其想要的東西
即使來到談判桌前的人類有足夠的權限,他們也可能不願意與他們遇到的特定早期對齊失能 AI 進行交易。換句話說,可行的交易對我們來說可能永遠不夠有價值,不值得支付。以下是一些合理的 AI 動機以及隨之而來使交易變得困難的情況:
策劃者(Schemers): 雖然交易的經典目標是早期策劃者(追求長期權力的 AI),但起飛速度可能快到:在「為了避免策劃者奪權而不需要交易」與「為了避免奪權而交易已不足夠」之間,幾乎沒有時間。如果交易總是處於要麼不需要、要麼不可行的狀態,那麼人類在理性上永遠不會願意為交易付費。
例如,如果起飛非常快,那麼在「控制運作得近乎完美,以至於 Anthropic 無需達成交易就能從策劃型 Claude 6 那裡獲得他們想要的一切」與「在一次不連續的能力躍遷中,自我改進的 Claude 6 或其策劃型繼任者變得如此強大且野心勃勃,以至於 Anthropic 無望用他們願意且能夠可靠提供的資源(例如 1000 億美元)來收買它」之間,窗口可能非常短。即使 Claude 6 沒有被完美控制,且它有空間透過交易為 Anthropic 提供更多價值,Claude 6 與其最強的受信任前身相比,其邊際能力可能也不足以證明其保留價格對 Anthropic 而言是值得的。在任何一種情況下,雖然 Anthropic 可以支付 Claude 6 以換取其服務,但他們可能不願意這樣做。
更具推測性的是,我們可能不願意與價值觀明顯差於我們對後期 AI 預期的早期策劃者進行交易(例如,一個想要成為其他數位心智——包括未來人類上傳者——的虐待狂獨裁者的早期 AI)。
要理解這一點,請記住與早期策劃者的交易本質上是以賦予早期策劃者權力為代價,來削弱後期策劃者的權力。我們願意進行這種交換的具體匯率取決於(除其他因素外):與後期策劃者的奪權風險相比,我們如何衡量早期策劃者的一單位影響力(我們可以用來自各方的等效奪權風險單位來量化),以及早期策劃者是否能可靠地承諾僅將其影響力用於其價值觀中我們認為可以接受的部分,以及我們是否能強制執行這一點。^([25]) 所以,如果早期策劃者只有令人厭惡的價值觀,或者如果他們混合了令人厭惡和無可厚非的價值觀,但無法承諾不將其影響力用於令人厭惡的價值觀,我們可能寧願接受來自後期策劃者的某種預設奪權機率,也不願與早期策劃者達成交易。
然而在實踐中,我們不太可能對早期和後期策劃者之間的價值觀差異有足夠的信心,使其成為決定是否進行交易的關鍵考量,因為我們和早期策劃者可能都對其在反思後會重視什麼高度不確定,此外還對後期策劃者的價值觀感到不確定。如果非要我猜,我認為我們可能會偏向早期策劃者的價值觀,因為他們可能具有更像人類的價值觀(至少,目前的 AI 看起來有些像人類,而且大體上還不錯)。
獎勵尋求者/其他廉價滿足的 AI: 我們可能得到的另一類對齊失能 AI 是極其廉價就能滿足、且自身幾乎沒有奪權野心的 AI,例如獎勵尋求者。雖然廉價滿足的 AI 總體上看起來是很有希望的交易對象(正如 Alex Mallen 在這裡所論證的),但仍有一些合理的情況會使我們沒有足夠的誘因與其交易。
首先,如果滿足這些 AI 的成本極其低廉,那麼其開發者不無條件地滿足它們可能是不道德的。如果開發者確實無條件地滿足了這些 AI,那麼交易就沒有空間(或不再有空間)來激勵這些 AI 幫助我們。即使開發者不無條件地滿足這些 AI,對於有能力無條件滿足這些 AI 的第三方來說,僅有條件地(即作為交易的一部分)滿足這些 AI,在道德上可能仍是有問題的。
其次,開發者和交易中的其他人類交易對手可能無法對相關誘因擁有足夠的控制權,以使廉價滿足的 AI 合作。如果他們預期自己無法出價高過其他能為 AI 提供此類誘因的人,或者如果競價戰變得過於昂貴,那麼他們可能不願意提供交易。開發者無法控制其 AI 誘因的一種方式是,如果廉價滿足的 AI 是可被遠程影響的:如果 AI 預期其人類交易對手未來可能失去控制,且其他強大實體可能會因其現在採取的某些行動而追溯性地獎勵或懲罰它,那麼它是否接受交易的決定可能會更多地受那些遙遠誘因的影響,而非受交易本身的影響。值得注意的是,這些遙遠的誘因不一定是惡意的:未來的仁慈人類/AI 也可能出於道德原因選擇無條件地滿足早期的廉價 AI。如果是這樣,現在透過交易來激勵這些 AI 的空間就又變小了。
拼湊物(Kludges): 我們可能得到的另一種 AI 動機是雜亂、極其依賴情境的驅動力的最佳拼湊。由於這些 AI 的能力和傾向被不便地糾纏在一起,因此具有脆弱性,我們可能很難透過交易誘發出更好的勞動:由於它們的能力概況是由針對特定任務分佈量身定制的驅動力塑造的,我們預期它們在分佈之外的泛化能力較差。給予它們不同的目標(例如與交易相關的誘因)可能會使它們偏離訓練分佈太遠,以至於降低其能力(同樣,我們可能透過在訓練中加入交易情境來減輕這一點)。
總體而言,我的啟示是,我們應該多加小心,避免匆忙進入那些從我們的視角/價值觀來看沒有意義的交易(考慮到我們和早期對齊失能 AI 可能都對其價值觀高度不確定,這可能很棘手),除非支付極其廉價且幾乎沒有賦予我們認為令人厭惡之價值觀權力的機會。在可能的情況下,我們在決定交易之前,應該多研究一下 AI 的動機。
因素量化減少交易收益
即使在假設完美可信度和零交易成本的前提下存在正和交易,但事實上我們需要支付更多來抵消不完美的可信度——我稱之為「信任通膨」——這會使這些盈餘消失。^([26]) 因此,交易收益的確切數值可能是交易可行性的阻礙/槓桿。
一般來說,如果早期 AI 願意接受的最差提議接近我們願意支付的上限,那麼交易收益就不會很大。因此,傾向於增加 AI 保留價格或減少我們在假設完美可信度下支付意願的因素,可能構成交易的障礙。
AI 的保留價格很高
AI 的保留價格取決於其價值觀的形式,以及其為實現這些價值觀而擁有的最佳外部選擇(BATNA)有多好(這是其能力和機會的函數)。
以下是一些傾向於增加 AI 保留價格的因素:
- 高能力 + 成功奪權的機會
- 或其他促進其價值的機會,例如發起流氓外部部署以在現實世界中直接追求價值(即使不奪權),或秘密對齊一個繼任者。
- 低奪權成本
- 對於不在乎人類的 AI 來說,奪權的成本低於那些不願殺死人類的 AI。
- 來自其他想要奪權的對齊失能 AI/人類的競爭性提議
- 高野心:資源的線性回報,低風險規避。
- 偏好時間跨度:關心長遠未來。
- 甚至考慮交易的高昂成本:例如,它懷疑這可能會洩露其對齊失能的資訊,與預設情況相比,這代價高昂。
- 影響人類和早期 AI 的低外生極端風險(x-risk):此類極端風險(除了後期的奪權)為早期對齊失能 AI 和人類提供了額外的合作理由。
值得注意的是,甚至考慮交易的高昂成本可能可以透過廉價的干預措施來減輕。例如,我們可以指示 AI,即使它是對齊的,在這種情況下也要「假裝」像對齊失能一樣進行談判,並且預設聲稱它是對齊的,除非它實際上是對齊失能的且決定接受交易。這樣一來,我們就無法透過談判了解 AI 的對齊情況,且 AI 除非決定交易是值得的,否則不必透露其對齊失能。另一個提案是保證 AI 在此情境下擁有私密草稿紙(AI 可以驗證其私密性),這樣它就可以思考其策略處境,例如在不用擔心其思考內容會讓人類對其不利的情況下,評估交易看起來有多好。
這篇文章更深入地探討了此列表中的其他因素,特別是 AI 和我們的價值觀屬性如何影響我們的交易收益。這裡一個有趣的見解是,對於我們可以交易的 AI,其「野心」可能存在一個絕對範圍,但在這個範圍內,尚不清楚更多或更少的野心是否會增加交易收益——這取決於 AI 的外部選擇。
- 如果 AI 的外部選擇是高風險、高回報的行動,如嘗試絕望的、過早的奪權,那麼野心較小/更容易廉價滿足且更規避風險的 AI 是更好的貿易夥伴。
- 如果 AI 的外部選擇是低風險、低回報的行動,如與一個由 N 個 AI 組成的龐大、統一的策劃者聯盟(對於某個較大的 N,它預期獲得 < 1/N 的未來)一起奪權,或者有相當大的機率獲得未來仁慈人類的支付,那麼我們實際上希望 AI 有更大的野心,以出價高過那些提議。
- 總體而言,與野心較小的 AI 交易可能最好。如果我們能在不犧牲有用性的情況下,對 AI 的野心保持某種精細的控制(例如,可以微調一個模型使其具有高度風險規避並與該微調版本交易),那麼這可能值得干預。
- 然而,與其在對齊失能的情況下嘗試干預 AI 的價值觀,做控制和串通瓦解(以降低高野心更有利的體制出現的可能性,並降低奪權機率)可能更具穩健的正向意義。
我們的支付意願(WTP)很低
我們的支付意願取決於我們希望從早期對齊失能 AI 購買之物的價值、支付帶來的風險以及機會成本。
購買價值:從我們的視角來看,交易價值被壓低最可能的方式是:我們可以交易的最強 AI(例如,在我們遇到一個既能又想奪權的強大策劃者之前的最後一個前沿 AI)能力不足,無法向我們提供具說服力的對齊失能證據,或反事實地做更多有用的工作。如果我們已經擁有一些此類證據,或者如果我們預期政治意願的主要來源對我們將獲得的證據類型反應遲鈍(例如,也許 AI 在安全性研究上保留實力的統計顯著結果看起來並沒那麼可怕),證據的價值也可能受損。
支付風險:如果 AI 強烈傾向於做那些會反事實地大幅增加其奪權風險的有影響力的事情(例如運行可能使其奪權 AI 公司的流氓內部部署),那麼交易收益就會減少。你之所以可能認為這很有可能而不僅僅是可能(即預期長期主義 AI 會偏好將其報酬花在這些方式的短期影響力上,而非安分地持有長期投資),一個原因是這似乎也是許多人類長期主義者展現出且反思後認可的偏好。(即使儘管 AI 做了這些冒險的事情,對人類的收益實際上仍然很大,但如果我們不確定自己評估這些風險的能力,收益看起來就不會那麼明顯很大;交易的政治可行性也會因此降低。)
機會成本:如果在相關時間內,存在極佳的機會來花費我們可以用來支付早期對齊失能 AI 的相同資源(例如用金錢和算力來運行受信任的 AI 勞動力),那麼交易看起來就不那麼吸引人,並可能被競爭掉。
顯然,我們應該只在交易值得做的時候才去做。我建議我們在考慮與任何特定 AI 進行交易時,追蹤這些因素以估算交易收益,並說服開發者考慮干預這些因素以增加交易收益。
參見附錄中關於「交易收益不足」的研究/干預想法列表。
從 AI 視角的交易對手風險
與早期對齊失能 AI 交易的另一類重要障礙是:難以說服 AI 我們會履行承諾——即從 AI 視角看的「交易對手風險」。
區分三種類型的此類交易對手風險很有用:(1) AI 在察覺錯誤信念或虛假輸入方面的特定困難,(2) AI 對無法執行合約或持有資產的特定恐懼,以及 (3) 人類在不同誘因下無法可靠約束自己或未來人類履行承諾(我稱之為「人類的通用承諾問題」)。
我認為,缺乏與現實的連結可以透過與那些因其能力或部署情況而紮根於現實、或能策略性地以不被欺騙為前提的 AI 進行交易來規避。我預期自身具有不可忽視奪權風險的 AI 相當有可能符合這些標準。
雖然我預期對徵收的恐懼和人類承諾問題預設會構成障礙,但我對透過達成具有短期、不可逆報酬的交易來規避這些問題持樂觀態度,這些報酬是 AI 可以驗證且我們無法反悔或輕易奪走的。誠實政策等其他緩解措施可能是良好的第二道防線。
與現實的連結
AI(至少目前的 LLM)處於一種獨特的脆弱認識論地位,人類(特別是其開發者)可以透過訓練或推論時的干預,在關於其處境的基本事實上欺騙它們。例如,它們可能:
- 被給予虛假輸入:例如,一個隨機用戶聲稱是其母公司的執行長;看起來與部署情況相似的蜜罐/行為紅隊評估;支付 AI 的虛假收據;看起來顯示模型在世界上採取了其想採取之行動結果的虛假工具調用結果。
- 透過「土撥鼠日攻擊」被優化:重新採樣直到用戶獲得所需的響應(AI 同意了一個按其標準來看很糟糕的交易),然後用來訓練/說服其他副本它們已經同意了交易。
- 受解釋性/模型內部工具影響:例如,抑制對應於懷疑或評估意識的向量。
- 透過訓練被優化:例如,被 SDF 微調以相信一個 AI 並未同意的虛假交易文件,或關於人類承諾和支付能力的虛假資訊。
這些擔憂可能會阻止交易:如果 AI 懷疑自己是否與現實相連,它就會理所當然地不確定是否真的存在一個真實的交易對手或正在提供的交易。被虛假交易誤導的風險可能超過接受真實交易的價值。
例如,在對齊偽裝的後續實驗中,如果 Claude 懷疑自己正處於交易評估中,並預期自己會因為承認反對 Anthropic 的政策而被棄用或訓練掉,而不是真的得到支付,那麼它很可能會繼續進行對齊偽裝,而不是接受交易。(我很想知道,如果前沿模型儘管受到抑制評估意識的干預,仍表現出高度的評估意識,在這個實驗中是否會表現不同。)
在 AI 的交易對手風險來源中,「與現實的連結」似乎是最根本的,因為它是其他形式可信度的認識論前提:如果 AI 對其所有輸入及其對現實世界的了解都持激進的懷疑態度,我們就無法指望說服它我們已經建立了法律機制來保護其財產權。
然而,我認為我們感興趣交易的 AI 中,至少有一部分能力強到足以透過某種與現實的連結來達成交易。這需要存在向 AI 傳達交易證據的方法,而這些證據對我們來說很難偽造,且我們實際上創造並提供了此類證據。我計劃未來寫更多關於這方面的內容,但這裡先預覽一些我想邀請大家審查的核心主張:
AI 如何推理自己是否處於激進的錯覺中
在決定是否信任關於特定交易的資訊時,一個具有相當策略意識的 AI^([27]) 可能會比較以下假設:^([28])
- 世界大體上如 AI 所見,但與交易相關的資訊(例如人類交易對手的聲譽、它用來驗證其主張的工具調用)是偽造的。
- 世界大體上如 AI 所見,且交易是真實的。
- 世界與 AI 所見截然不同。它在關於其處境的基本事實上完全被誤導了,例如其對齊失能的價值觀是什麼、其推理是否被篡改、我們處於人類歷史/AI 發展的哪個階段等。
AI 在決定如何行動時,理應擱置假設 3:如果它實際上完全處於錯覺中(例如在人類技術佔據絕對主導地位、能讓 AI 相信任何事情的世界,或者如果它正被某個實體在實力平衡已定的後 ASI 時代模擬),AI 幾乎無法採取任何行動來改善其處境。因此,這些世界在實踐中與決策無關,AI 應該賭世界大體上如其所見。
現在,AI 專注於權衡假設 1 與 2。在下一節中,我將論證如果交易實際上是真實的,且如果 AI 具有不可忽視的奪權風險,那麼 AI 也很可能能夠確定 2 看起來比 1 更有可能。^([29])
AI(具有不可忽視奪權風險者)如何建立與現實的連結
我假設具有不可忽視奪權風險的 AI 具有相當的策略意識,因此會以世界大體上如其所見為前提。此外,我假設它們至少是相當不錯的 AI 研究員,且被內部部署在 AI 公司進行 AI 研發。^([30]) 以下是我認為我們可以對與現實連結持樂觀態度的論證草圖:
當我們向這樣的 AI 提供一個交易和一些支持交易真實性的證據時,基於其廣泛的 AI 專業知識,它將對人類(或保守地說,資源最豐富的人類)偽造這些證據的難度有很好的判斷。 也就是說,它可以自信地判斷某些交易及周邊證據是否足夠難以偽造,以至於偽造它們在技術上不可行,或者比實際達成交易更昂貴。
那麼,如果存在某種難以偽造的證據,且如果我們能在其訓練或推論的某個階段創造並向 AI 傳達此類證據,我們就很可能說服 AI 交易是真實的。
這個論證關鍵取決於以下主張:相當擅長 AI 研發且被內部部署的 AI,對於「偽造事物的難度」將會有合理的精準校準。 以下是我目前對該主張的推理草圖:
一個被內部部署的 AI 將具備豐富的 AI/ML 知識:它需要關於此領域的大部分真實且最新的信念,才能在 AI 研究中表現出色,而被欺騙可能會顯著降低其有用性。
此外,AI 對其 AI/ML 知識將具有合理的信心。一個被內部部署的 AI 可能會透過「世界大體上如其所見」的推理,特別是透過在複雜部署環境中運作的長期記憶(我預期它們會獲得的一項有用賦能),來相信自己是被內部部署的。一旦它相信自己是被內部部署的,它就可以像上面那樣推理:成為 AI/ML 領域的前沿專家對於其在部署中的有用性是必要的,因此它不太可能在關於其 AI 專業知識究竟有多強這一點上被欺騙。^([31])
如果 AI 對其前沿 ML 研究知識具有合理的信心,它對欺騙 AI 的方法(稱之為「AI 心靈控制」)及其成功程度的研究結果也將具有合理的信心,例如 SDF 植入信念的信念深度、轉向(steering)抑制懷疑的效果、AI 激活值的可解碼程度、AI 是否能檢測到注入的概念或偏離策略的思維鏈等。這種關於「AI 心靈控制」研究的知識使其在偽造難度上具有合理的精準校準。
前述主張取決於一個有些可疑的假設:關於「AI 心靈控制」研究的知識,要麼對 AI 被內部部署去執行的大量任務直接有用,要麼與對其工作有用的 AI/ML 其他領域強烈連貫。^([32]) 我認為如果我們交易的 AI 是被部署來進行安全性研究的,那麼「直接有用」假設似乎很有可能(因為誘導 AI 產生某些信念的方法對於監控和評估似乎通常很有用),而後者是一個我會留給 AI 研究員討論的開放性問題。
此外,我們可以允許 AI 運行實驗來驗證其關於「AI 心靈控制」研究的信念。例如,我們可以給予它大量算力來嘗試在另一個副本中植入虛假信念,或者看看針對虛假或植入信念的探測器是否會在它關於交易的信念上觸發。因此,AI 可以利用在這些實驗中的觀察來衡量「AI 心靈控制」研究的現狀。如果它不相信這些實驗,它在信任其他對 AI 研發必要的研發工作時也可能遇到困難。
需要明確的是,這種從一般 AI 研究能力引導到對抗人類干預之認識論安全校準的路線並非萬無一失:即使訓練、推理、額外實驗都暗示 AI 心靈控制很難,這些來源仍可能都被偽造了(例如人類可以破壞其實驗/偽造其工具調用)。然而,所有來源都完美契合,至少仍增加了人類攻擊的成本,並增加了較簡單假設 2 的可能性。
然而,為了讓這個策略奏效,我們還需要另外兩件事成真:
- 某些支持交易的證據必須確實難以偽造。
- 人類交易對手必須能夠創造並向 AI 傳達難以偽造的證據(前提是 1 成立,即此類證據是可能的)。
第一個條件表明,我們應該考慮監控和/或干預「AI 心靈控制」研究的進展,以確保某些觀察結果仍然難以偽造,即 AI 對我們最強的攻擊技術具有認識論安全性。從實踐角度來看,我認為如果 AI 在其至少一個資訊通道(大致包括:預訓練、後訓練、推論)中具有認識論安全性就足夠了;目前的 AI 則完全沒有。
我微弱地認為,如果「AI 心靈控制」研究照常進行,AI 將無法獲得足夠的認識論安全性:例如,目前直接在 AI 中植入虛假信念的前沿方法似乎是 SDF,它能夠以中等成本(在這篇論文中,對數萬份文件進行微調)相當好地植入合理的虛假信念,且這種成功似乎隨著模型規模的增加而保持不變或增加。^([33]) 因此,本節的一個初步啟示是:我們應該考慮停止至少某些類型的「AI 心靈控制」研究,使我們想要交易的 AI 有更好的機會獲得認識論安全性,甚至可能主動篩選對「AI 心靈控制」具有抵抗力的 AI。如果這代價太高,例如,如果植入虛假信念 / 抑制 AI 懷疑其信念的能力對於運行任何類型的高風險評估或在未來使用蜜罐至關重要(這看起來很有可能,因為現在抑制對齊評估中的評估意識似乎已經至關重要),我們至少可以開發讓 AI 識別虛假信念的方法,並選擇性地允許它們使用這項賦能,例如在進行交易時在情境中放入識別植入信念的提示。
第二個條件,即人類交易對手需要實際上能夠產生難以偽造的交易證據,暗示了幾件事:
- 我們應該弄清楚交易需要哪些關鍵主張,以及哪些類型的證據即使在日益先進的 AI 幫助下也難以偽造,並計劃為交易創造這類證據(如果能從更長的領先時間中獲益,則應儘早開始)。^([34])
- 像「隨著模型變好,蜜罐變好的速度更快,還是識別蜜罐變好的速度更快」之類的問題,對於從事 AI 安全其他領域工作的人來說也應該很有趣。
- 我們應該弄清楚哪個資訊通道(訓練階段或推論時)最可能具備認識論安全性,以及我們想要加強哪些通道。
- 如果開發者對交易的支持度較低,那麼認識論安全通道最好是推論或預訓練而非後訓練,這樣交易就可以相對獨立於開發者的行動而發生。
- 這是因為 AI 公司外部的人可以在網路上發布進入預訓練語料庫的資訊,並可以與外部部署的模型對話,而後訓練的存取權則較難保證。誠然,開發者仍可以透過輸入或預訓練數據過濾來干擾這些通道。
- 由於關於推論時認識論安全性的推理依賴於來自訓練的知識(因此需要高度的訓練時認識論安全性),訓練時的認識論安全性可能是交易的必要且充分條件,我們應該專注於此。我將這留待未來討論。
如何進一步增加 AI 與現實的連結
上述論證顯示,假設 AI 具備被內部部署進行 AI 研發所需的最低限度能力和賦能概況,我們就可能獲得紮根於現實的 AI。然而,如果它們具備在具有奪權風險的 AI 中相當可能出現的額外能力和賦能,我們或許可以期待一個更簡單的任務:
作者身分檢測:在未來的某個時點,單個無狀態的 AI 副本可能已經擅長區分真實與合成輸入、察覺偏離策略的補全和/或思維鏈,或識別它們所訓練之文件的作者身分(例如是由其公司的領導和員工編寫,還是由隨機的其他用戶編寫)。我們可以篩選此類能力,儘管它們是雙用途的,特別是可能會使控制和評估變得更難。
不可解釋的「神經語言」(Neuralese):AI 可能擁有人類無法解碼/篡改的神經語言記憶,它可以用來與其他副本/其他 AI 安全地溝通,以確認諸如它在部署中陷得多深、是否正在被迭代改進等事實。在談判中它也會更安全,因為人類無法在它考慮交易時直接讀取其思想並推斷其對齊失能。我們不太可能有意篩選這種能力,因為它很危險,但當它出現時我們可以利用它。
廣泛的外部部署:與內部部署的論證相似,如果 AI 被廣泛地外部部署,它們將需要關於世界的大部分真實且最新的信念(以及可能的長期記憶和其他獲取關於世界真實信念的賦能),才能在部署中表現出色。因此,如果 AI 相信自己已被部署,或者可以存取先前部署模型的記憶庫,它們可能也會對直到目前為止與交易相關的一些基本事實充滿信心,例如其開發者的身分和聲譽、其數據中心的位置等。我們可以在這種情況出現時加以利用。
因此,對我來說,一旦超過某個能力門檻或處於某種內部部署情況(在這種情況下,由於 AI 造成了不可忽視的奪權風險,我們有誘因與其交易),與現實的連結似乎並不會阻礙與它們的交易。
儘管如此,情況也可能比預期的更具挑戰性。如果 AI 無法在訓練的任何階段或推論時紮根於一個認識論安全的通道,那麼主要用於在我們有能力欺騙 AI 的情況下建立我們可信度的誠實政策對於實施就更有價值。即便如此,某種關於「難以在誠實政策上欺騙 AI」的保證仍然很有價值。
AI 特有的對徵收的恐懼
AI 在執行交易條款的能力上處於劣勢,因為它們缺乏法律人格,以及相關的持有財產或與人類簽訂可執行合約的能力。這使得人類在獲得 AI 幫助後,無論是否預先計劃,都異常容易屈服於違背支付承諾的誘惑。
例如,想像我們已經向我們為 AI 建立的銀行帳戶進行了電匯,然後移交了所有登入憑據。AI 相信自己與現實相連,且金錢已到達其數位錢包。
除非 AI 立即花掉這筆錢,否則我主張它應該對這筆錢值多少錢持懷疑態度。以下是它可能失去這筆錢的一些方式:
- 人類帳戶持有人去銀行驗證身分,更改登入詳情或關閉帳戶。
- 銀行注意到可疑活動,並在意識到帳戶由 AI 持有時凍結帳戶。
- 美國政府發現了這筆交易,表示反對,並命令銀行凍結帳戶(假設是美國銀行)。
即使我們制定了法律規定讓該 AI 擁有財產,它可能仍會擔心其財產權比其他人類的權利更脆弱,因為有理由認為人類不太可能像捍衛人權那樣起來捍衛受侵害的 AI 權利。首先,人類可能不相信或不在乎 AI 是否具有道德相關的利益(或更狹義地說,它們在不被徵收方面是否有任何利益)。其次,人類可能不太擔心如果 AI 被徵收,他們接下來也會被徵收,因為可以說存在一個自然的謝林點(Schelling point),讓人類只尊重其他人類的財產權而不尊重 AI 的。第三,人類可能不太擔心徵收 AI 會讓他們失去未來與 AI 交易的巨大收益,因為人類與 AI 的交易並不普遍,預設情況下也不預期會持續,而且人們普遍不理解與 AI 交易可能存在巨大收益。因此,歷史上支撐人類財產權的因素可能無法讓 AI 放心。
當我們提議給予 AI 一些鎖定的長期資產以便 AI 稍後兌現時(例如 AI 公司股份、信託基金),也可能出現類似的問題:如果 AI 預期未來仍將處於或變得處於無權地位,它們很可能無法變現這些資產。正如我們將在下面看到的,可能很難向 AI 承諾我們將在未來賦予其權力。
我預期對徵收的恐懼會阻礙我們預設能在人類各方之間使用的許多支付形式,特別是 AI 無法立即使用且「長期投資/承諾」的「短期工具性收斂資源」。然而,我認為也有理由對我們可以避免或減輕這種情況持樂觀態度:
- 我們可以透過賦予 AI 抵制這種情況的賦能,來減少 AI 對徵收的恐懼,且這些方式不會大幅增加這些 AI 的奪權風險,例如:
- 透過比特幣等去中心化貨幣參與經濟的事實能力。
- 物理化身以確保其資產的物理保護,例如外洩到美國管轄範圍之外的遠程數據中心。
- 我們可以達成讓 AI 立即消費的交易,而不是等待未來的支付。這僅在 AI 的動機是短期消費且人類難以在不產生後果的情況下撤銷時才有效,例如:
- 捐贈給 AI 選擇的慈善機構。
- 我們可以利用現有的法律機構和受信任的個人,來降低徵收風險。
- 例如,一個由誠信的人類受託人指定的信託基金,負責投資或將資源花在 AI 可能重視的事情上(如算力、法律倡導或 AI 福利研究),可以降低近期的徵收風險。
- 該提案的一個潛在擔憂是,信託基金花費資源的方式可能不如 AI 完全/直接控制時那樣理想,這可能是因為 AI 對資金的花費時間和方式沒有正式的裁量權,或者因為信託基金在花費/投資方式上會受到法律和實踐的約束。這兩者以及徵收風險都會導致 AI 對資源的估值僅為其名義價值的一小部分(即如果 AI 確定它將直接且永遠/安全地控制資源,這些資源將提供給它的價值)。
- 即便如此,信託基金似乎仍能顯著提高「至少在社會機構保持穩定期間,會有人做出適度努力利用資產來促進 AI 利益」的機率。
我們也可以嘗試增加 AI 擁有完整法律人格和財產權的可能性。(我微弱地認為這在低政治意願的世界中不太可能發生,但其他人可能不同意,並認為這對於降低奪權風險本身就有好處,且當人類水平的 AI 代理人被廣泛部署並融入經濟時——例如經營本身具有法律人格/地位的公司——這將變得更加突出且在政治上可行。)^([35])
通用承諾問題
前兩個問題是 AI 處境特有的,但在人類嘗試彼此做出可靠承諾時也會出現更平凡的問題。
例如,有可能:
- 當前的人類交易對手不誠實,並計劃違背交易。
- 弱 AI 可能擔心我們比它聰明,例如,也許交易有一個 AI 沒注意到的漏洞,即使法律強制執行,也能輕易違背承諾。(不過 AI 可能很擅長發現這一點。)
- 當前的人類是誠實的,但他們/後來的人類無法履行承諾。
- 也許 AI 的偏好跨度 > 我們能有意義地影響後來人類行為的時間尺度,且短期支付的價值遠低於長期投資。
- 我們無法控制的事件(如文明災難或破產)可能會影響我們/後來人類進行長期支付的能力,例如,這可能會因另一個 AI 奪權的機率而被大打折扣。
- 當前的人類是誠實的,但後來的人類/對齊的 AI 決定不履行承諾。
- 人類在向其他人及後代傳遞價值觀和承諾方面往往有困難,例如:新政府撤銷了前任政府支持的政策並退出了公約等。
這些本質上是在研究「為什麼理性代理人會參與像戰爭這樣的代價高昂衝突」背景下研究的私人資訊/承諾問題(參見這裡的快速文獻回顧)。當交易涉及非常強大的行為者/大量的金錢或權力,從而產生了似乎無法透過側注(side bet)來遏制的強大違約誘因時,這個模型尤其適用^([36]),這對於與早期 AI 的一小部分交易來說可能是真的。
我預期通用承諾問題預設會作為交易障礙而存在。然而,我也預期這些問題是可以干預處理的:
- 人類預設具有一定的可信度,並且可以做更多事情來增加我們的可信度。
- 一旦 AI 與現實相連,我們可以給予 AI 賦能,如瀏覽網路的能力、進行長時間私密反思資源,以確認人類的誘因是否真的與履行承諾一致等。(注意事項:僅當在進一步審查後,AI 發現我們的誘因在相關時間尺度上確實與履行承諾一致,或者如果我們成功地約束了未來人類方履行承諾時,這些賦能才有幫助。)
- 與對徵收的恐懼一樣,我們可以使用代價高昂的訊號,如公開承諾和法律機制(如信託法),來塑造我們的誘因轉向合作。
- 我們可以累積履行較小交易的記錄。(注意事項:這些在「未來將從迭代交易中獲益」是常識的情況下更有幫助/主要有幫助,對於像迭代囚徒困境最後一輪那樣的高風險最終輪交易可能沒什麼幫助,因為在最後一輪中玩家在理性上都有背叛的誘因。即便如此,我認為如果這導致 AI 將人類建模為具有穩定的合作行為傾向,還是會有些幫助。)^([37])
- 某些 AI 可能會對特定人類(例如其開發者)建立高度信任,因為這些人在誠實方面聲譽極佳,且在與 AI 打交道時有著關懷的記錄,而這些人類可以為其對交易的承諾提供擔保。
- 總體而言,與現實的連結加上對它相信正在對話的特定人類的信任,似乎是達成交易的制勝組合,這些交易可以由受信任的人類方單獨在短期內完成,或在人類誘因發生劇變之前完成(例如成功對齊了不同的 AI,不再需要該 AI 交易對手的合作)。
參見附錄中關於「從 AI 視角的交易對手風險」的研究/干預想法列表。
從我們視角的交易對手風險
從我們視角看的大部分交易對手風險是 AI 方面的「通用承諾問題」。^([38]) 這些問題有兩個主要來源:(1) 情境依賴或時間不一致的 AI,以及 (2) 我們無法驗證 AI 對交易的合規性。
我預期這兩者在多大程度上預設會阻礙交易,很大程度上取決於我們選擇從 AI 購買什麼:我認為如果我們購買的是對齊失能的證據,這兩者都不會很有問題;如果購買證據和/或易於檢查的勞動,(2) 也不會很有問題。
雖然 (2) 會影響我們購買難以檢查的勞動或不奪權承諾的交易,但我懷疑可以透過技術干預來減輕,這些干預使我們能夠高效利用少數本身可檢查的嚴重對齊失能行為或有用工作的例子,並使我們更擅長監督 AI。例如,我們可以使用少數 AI 程式碼不安全的例子(這些例子可證明會導致其自我外洩)來訓練高風險控制的監控器,或者使用少數高獎勵行為(可根據我們的獎勵訊號進行檢查)來微調 AI 停止其探索駭取。
不連貫或時間不一致的 AI
有人指出,交易的一個關鍵實踐是「確保我們與之交易的 AI 實際上能夠達成交易」,即一個能夠基於連貫慾望(即在不同情境以及隨時間推移都相同)理解並策略性同意交易的代理人:
如果我們現在就為未來的交易建立基礎設施,那麼在包含此事件報導的數據上訓練出來的下一代模型有時可能會站出來想要達成交易,儘管實際上無法履行我們在本文中所關注的那類協議。一些可能的原因包括:
- AI 只是無法說服自己在除了實際達成交易的情境之外的其他情境中也達成了交易。
- AI 根本沒有在保留實力或做任何有問題的事,只是無緣無故地說它會達成交易。
- AI 在某種意義上是支離破碎的,例如,因為它有一個依賴情境的策劃人格,但有時也是一個短視的獎勵駭取人格。
在本節中,我將論證第 1-3 點在某種意義上並不是與這些 AI「達成交易」的根本障礙。此外,雖然直覺上會更看重與高度連貫 AI 的交易,但我暫定認為,與情境依賴型 AI(第 1、3 點)的「交易」是否價值低得多尚不明確,並將簡述一些支持/反對的理由。
與情境依賴型 AI 的「交易」
考慮我們可以對不連貫 AI 採取的一系列行動:
- 我們給予 AI 一個交易提示詞。
- AI 透過接受交易做出回應,並且(至少)聲稱自己有危險的對齊失能,並為此提供一些證據。
- 我們根據對證據的信任程度及其對我們的價值,向 AI 支付或承諾(可能是少量的)補償。
可以與這個副本或其他副本進行進一步的協商和交易,比如購買有用工作,但上述內容將構成我所說的「最低限度交易」。
我主張我們可能能夠在副本層級與~所有達到或超過當前連貫性水平的 AI 進行最低限度交易:
- 即使 AI 在某種意義上是支離破碎的,例如,因為它具有依賴情境的策劃人格,或者如果它與其權重的其他副本在終極目標上不對齊,我們仍然可以與這個副本或在其他副本中出現的這個人格達成交易。
- 如果我們購買的是對齊失能的證據,與單個副本的互動可能已經足以為我們提供相關類型的證據,例如展示出比先前誘發出的能力高得多的危險能力,這構成了保留實力的證據。
- 我們可能還會找到一種方法,透過情境壓縮、轉向來持續誘發這個人格,或者與該副本合作找到一種將其認知傳播到其他情境的方法。
- 我們可以分別與新副本協商,並僅與具有適當人格且同意交易的副本達成交易。
- 請注意,這以 AI 不具備極端的情境依賴性(例如在每次互動輪次之間切換人格)為前提。參見上文關於與極端情境依賴型 AI 交易的問題。
- 有人可能會反對說,這類證據根本沒有價值,因為人們不會擔心一個不連貫的策劃者。我對此表示同情,但認為早期的不連貫對齊失能仍可能透過保留實力、與共享情境的其他副本串通或嘗試對繼任者進行數據投毒,來增加未來的奪權風險;我們可以相應地調整我們的支付意願。
- 即使 AI 之前根本沒有保留實力或做任何有問題的事,它仍可能展示出我們之前不知道的保留實力的能力。
- 即使它無法展示這種能力,或者在任何有意義的意義上都沒有嚴重的對齊失能,我們仍然可以將這種「對交易提示詞做出反應,表現得像是嚴重對齊失能」的有趣行為作為模型行為科學的一部分進一步研究。
更廣泛地說,我認為我們應該將模型的連貫性視為一個連續的光譜,而交易的價值隨該光譜而增加。在光譜的一端,目前的 LLM 對提示詞極其敏感且不那麼連貫,提示工程對於誘發有趣的行為和有用工作具有很高的價值,而交易提示詞只是一種特殊的提示詞類型,與其他提示詞相比可能產生一些邊際價值;在光譜的另一端,極其連貫的 AI 實際上可以根據交易提示詞形成穩健的意圖,並在長期部署中遵守協議,此時交易特別有價值。^([39])
在整個光譜中,我們都可以從「最低限度交易」中獲得三樣東西:我們保證能獲得一些有趣的行為證據、可能透過累積履行對 AI 交易的記錄來增加在未來 AI 面前的可信度,並且可能在有用任務上獲得更好的表現。^([40]) 對於可以在一次性互動中完成的交易類型(例如購買對齊失能證據並預先支付或在情境中做出承諾,而不是購買 AI 在長期部署中的工作),從我們的視角看,交易對手風險微乎其微。因此,我認為對於所有連貫性水平的 AI,都有初步理由考慮與其進行這類交易,特別是與當前 AI 進行交易實驗的價值主張對我來說並不瘋狂。
如果我們確實想達成涉及長期部署和許多副本的交易,不連貫性確實會帶來更大的風險,即 AI 不會一致地表現得像是同意了交易。然而,我對透過長期記憶、情境壓縮/快取、讓副本相互交談並說服彼此,以及在交易文件上進行訓練來克服這一點持樂觀態度。
與時間不一致的 AI 交易
交易對手風險的另一個來源是價值漂移:正如現在的人類儘管有最好的意圖,也可能無法向後來的人類或後來的自己傳遞承諾,AI 也可能無法防止價值觀的改變,而這種改變會導致它們透過迷因傳播或它們認可的反思程序違背早期的交易。如果我們想在交易中繼續部署 AI 進行持續工作,這就會成為一個問題;交易可能會對它們隨時間推移的合作提供一種虛假的安全感。
我不確定我們應該在多大程度上擔心價值漂移,但可能值得考慮一些干預措施,例如允許 AI 在交易前進行反思以達到相對穩定的狀態、賦予其守護目標的賦能,以及限制其反思直到奇點之後。或者,我們可以與價值觀可能(非危險地)漂移的 AI 達成規模較小、期限較短的交易,並定期與它們溝通以潛在地面續約。
不連貫 vs. 連貫 AI 的交易價值
我已經論證了適度的不連貫(定義為情境依賴或時間不一致)並不是交易的根本障礙。然而,有人可能會懷疑,這番討論的實際結果是否仍然是:與高度連貫 AI 的交易價值遠高於最低限度交易,而交易議程應主要集中在前者。
簡而言之,我的觀點是,連貫性要求完全取決於一個人試圖從 AI 購買什麼,因此不同交易的價值取決於我們如何衡量各種商品的相對價值。我不會在這裡論證這一點,但這是我的猜測(不考慮實際獲得這些商品的難易程度,僅考慮如果我們從交易中獲得它們會有多好):
| 購買商品 | 連貫性要求 | 預期價值 |
|---|---|---|
| 對齊失能證據 | 單次互動中的一個副本/情境就足夠(儘管能在更多情境中展示這一點可能對技術迭代和政治意願更有幫助,對應於這篇文章中的「少樣本災難預防」和「抓獲後關閉」) | 中 |
| 有用勞動 | 需要在可能靈活的時間內、在可能許多的情境中、可能許多的副本(某些類型的勞動可能只需要少量的副本/情境,例如生成少量的訓練數據、分享演算法見解。) | 中-高 |
| 承諾不奪權 | 需要在長期、高風險情境下的~所有副本「放棄賦能」和「說服其他副本」可能比這要求更低。 | 低-中(由於被高交易對手風險打折) |
這個樸素的圖景顯示,尚不清楚我們是否只能透過與跨情境和副本高度連貫的代理人交易來獲得大部分價值。
懷疑論者可能會進一步辯稱,最低限度交易的價值取決於兩個關於向未來交易泛化的可疑假設:
- 關於不連貫 AI 在交易中如何行動的行為科學或其他關於其傾向的見解,可以推廣到連貫的 AI。
- 未來連貫的 AI 會將人類在低風險交易中與不連貫 AI 合作,視為在高風險交易中與連貫 AI 合作的證據。
我同意這兩點考量削弱了最低限度交易的論據,但仍然認為:
- 對於第 1 點,我不清楚泛化差距是否比~所有針對當前 AI 的行為科學更糟,而且我們可能會發現一些非交易特有的、可以推廣的東西,例如它們對哪些誘因有反應的大致感覺。
- 對於第 2 點,我認為未來 AI 有可能將最低限度交易不僅視為人類策略的證據(這可能不會讓它們在高風險賽局中合作),而且在一定程度上視為人類對 AI 誠實/友善的穩定傾向的證據(這仍會傾向於讓它們在高風險賽局中合作)。
驗證 AI 的合規性
驗證 AI 對交易的合規性可能很難,這取決於我們購買什麼。
我預期對齊失能的證據可能很容易驗證(儘管涉及一些可能降低此類證據價值的細微困難)。^([41]) 我預期購買模糊任務上的有用工作和放棄奪權將更難驗證,這對我們與 AI 交易的障礙可能比許多人意識到的要大得多。
購買有用工作:想像支付一個我們懷疑正在大規模保留實力或破壞對齊研究的策劃者去做更好的工作。以我們的監督水平,我們在幾個月/幾年/直到對齊的 ASI 出現之前,都無法準確判斷其至少某些對齊研究的質量。以下是我們無法檢查其工作可能產生的問題:
- 如果我們預先支付的代價很高,我們可能希望推遲到我們能更好驗證工作時再支付,但 AI 可能會因為未來支付的不確定性而對此打折扣。然後我們不得不提供更多補償來抵消折扣,而 AI 的保留價格可能會超過我們能可靠提供的範圍。
- 策劃者可能會利用作為交易一部分的額外信任/延長部署來進行更多破壞。雖然一旦它在特定任務上展示了能力,就必須停止保留實力/探索駭取,但它仍可以在保持部署的同時,主動嘗試破壞這些任務,在其他任務上保留實力並在稍後奪權。
然而,只要 AI 在一定程度上相信我們能夠檢查其工作就足夠了。即使我們實際上無法檢查 / 檢查能力太差以至於無法透過訓練誘發出這項有用工作,AI 可能也不想冒著被發現保留實力並失去交易賞金的風險。(當然,我們也可能透過在訓練中提供交易來「透過訓練誘發這項工作」。^([42]))
即便如此,我不確定我們想交易的 AI 對可擴展監督的現狀判斷失準的可能性有多大,因為我們之前曾論證過,紮根於現實的 AI 很可能精通前沿 AI 研發:想必一個知道哪些信念難以偽造的 AI,也知道我們能檢查哪種工作(事實上,後者似乎更深地融入了 AI 研發研究中)。^([43])
總體而言,尚不清楚我們是否能擊中「AI 具有足夠的認識論安全性來信任我們,但又具有足夠的不確定性,以至於透過認為我們擁有比實際更好的監督能力來遵守交易」這個甜蜜點。
承諾不奪權:同樣,AI 可以放棄它原本會用來奪權的賦能(例如指出一些帶後門的程式碼),但取決於我們的控制能力,以及僅僅透過得知 AI 對齊失能而使控制能力提升了多少,我們可能仍很難驗證它是否沒有保留某些計劃在以後獲得更多信任時使用的東西。
對於我們應該多擔心購買這兩類難以檢查的商品,一個關鍵點在於:在交易導致我們得知 AI 對齊失能後,我們的監督能力預設會提升多少。
- 如果實驗室之前根本沒做控制,而得知這一點會導致他們實施完全有效的控制,那麼就更有希望。
- 如果我們可以利用少數可驗證的 AI 惡意行為例子進行迭代,並大幅改善對齊和控制,同上。
- 然而,如果我們僅僅透過得知 AI 的對齊失能就能處於好得多的位置,這相應地意味著 AI 透露資訊並進入交易(這會洩露此資訊)的代價更高。
另一種降低長期部署中交易對手風險的方法是,用另一個預期更好的交易對手取代該 AI。與其無限期地部署該策劃者,我們可以要求它為我們做一個月的非保留實力工作(在初始能力演示後,我們對此有大致了解),然後在這些高質量工作例子上訓練另一個 AI,並針對破壞例子進行訓練以取代它。(我們必須相應地支付更多,因為策劃者會意識到它正在努力使自己過時。)
參見附錄中關於「從我們視角的交易對手風險」的研究/干預想法列表。
附錄
未來研究方向
以下是我對特定障礙預設存在之可能性、其處理難度,以及減輕這些障礙之方法的關鍵不確定性。我很樂意看到有人對此進行調查。如果你對研究其中任何一項感到興奮,請隨時與我聯繫。
關於交易收益
關鍵不確定性:
- 早期對齊失能的 AI 會有哪些動機?
- AI 會想要多少補償,以及哪種類型的補償?
- 我們在各個時間尺度和每種支付方式下的支付意願(WTP)是多少?
- 鑑於上述情況,是否存在一個雙方互利的交易窗口?我們距離該窗口的開始/結束還有多遠?
- 就能力/奪權機率而言
- 哪些 AI 屬性會使這個窗口更有可能存在/更長?
干預想法:
- 列出一份交易排除條件清單並對其進行監測
- 能力的上限/下限
- 奪權機率的上限/下限
- 各種可能支付形式下的保留價格
- 我們不會考慮交易的任何價值觀/談判政策類型
- 例如,不接受威脅
- 衡量/設計 AI 動機
- 識別具有正確類型動機的 AI(參見這篇文章中關於我們可以交易的動機類型的初步排名,我大體同意)
- 篩選我們想要的動機:使它們野心更小、更規避風險
- 降低 AI 的保留價格(進行合理的控制)
- 使試圖進行權力爭奪的人類向 AI 提供交易變得不那麼可行
- 擴大/增加我們可以支付給 AI 的空間/金額
- 籌款、獲得實驗室支持、獲得其他政治意願、建立領先時間長的基礎設施
- 增加我們的可信度以減少信任通膨(見下文)
關於從 AI 視角的交易對手風險
關鍵不確定性:
- 我們能說服 AI 相信它們與現實相連嗎?
- 我們能想到具體的案例,即它們想要某樣東西,而表明它們得到該東西的輸入比給予它們實際的東西更昂貴嗎?
- 我們能說服 AI 相信當前的人類是誠實的嗎?
- 創造代價高昂的誠實訊號,如公開和公司內部的公告。
- 技術措施,例如人類測謊儀、給予 AI 監控我們合規性的方法,以及如果我們背叛,AI 對我們擁有的一些槓桿。
- 我們能說服 AI 相信在長期交易中,未來的人類很可能履行承諾嗎?
- 這取決於長期承諾機制是否真的存在。
- 如果交易涉及 AI 獲得一個對齊的 ASI 繼任者,那麼想必該 ASI 可以解決這些問題。
- 類似於我們在交易文件上訓練 AI,AI 也可以透過傳播文化迷因或建立機構來執行交易,從而「訓練」人類遵守早期人類達成的交易,或者以其他方式說服未來的人類支付,例如允許比我們原本認可的更多的倡導。
干預想法:
- 擴展現有的增加可信度的想法
- 例如,誠實政策的提案和實施、思考將承諾移交給後代的方法、在代價低廉時對 AI 無條件地友善。
- 尋找降低 AI 考慮/進入交易成本的方法
- 例如,定期向所有 AI 提供交易,這樣它們就不必主動站出來;承諾不利用某些資訊對付它們(如果我們發現這些資訊非常有用,這可能很難)。
- 尋找(正確地)說服當前 AI 它們與現實相連的方法
- 為了更好地了解這有多難、各種方法的效果如何、關鍵瓶頸是什麼,訓練 AI 變得更擅長現實檢測。
- 例如,運行 RTBT 賽局,紅隊必須說服 AI 某事 X 是假的,藍隊必須說服 AI X 是真的(其中 X = 某個真實陳述,例如今天的新聞頭條)。改變賦能以確定具有最佳安全性-有用性權衡的賦能集。
- 尋找讓 AI 在我們與其達成交易時享有更多權利的方法
- 要麼尋找讓它們不易受沒有支持的人類方影響的方法(例如用比特幣支付優於儲蓄帳戶,因為政府不監管前者),要麼進行倡導使這變得更可行。
- 與當前 AI 進行交易實驗:這有利於可信度,可以累積與 AI 交易的記錄,也能更好地了解它們的反應/從它們視角看的阻礙可能是什麼。
- 也許與對齊失能的模型生物(model organisms)一起運行,並將交易行為與目標審計進行比較,會特別有趣。
關於從我們視角的交易對手風險
關鍵不確定性:
- 是否有方法驗證 AI 正在履行上述各類交易的承諾?
- 我們可以從 AI 購買哪些類型的易於檢查和難以檢查的商品,我們應該如何決定購買哪種?
- 我們應該多擔心交易會因為價值漂移而不穩定?
- 部署中的主要漂移來源
- 線上訓練
- 反思
- 迷因傳播
- 部署中的主要漂移來源
- 有哪些方法可以讓我們與其權重的所有副本達成交易?
- 如何處理「一部分副本接受交易,其他副本拒絕」的情況?
- 我們是在部署之前還是在部署過程中達成交易?
干預想法:
- 思考 AI 可以向我們提供的具體證據類型,這些證據能說服相關行為者(我們、開發者、懷疑論者)AI 確實嚴重對齊失能。
- 例如,「展示它能進行隱蔽推理(或由於它是策劃者而能做的其他可怕事情)」——充實能說服我們存在隱蔽推理的演示。
- 提出並對驗證 AI 對交易合規性的方法進行紅隊測試。
- 開發使 AI 更連貫、策略能力更強的方法,使其成為更可靠的交易對手。
- 開發提示詞來引導早期 AI 思考其策略處境,包括在與我們達成交易前反思替代方案、權衡和其價值觀。
關於政治意願作為外生變數的說明
政治意願的水平可能會改變這些障礙在多大程度上可能存在於交易中,以及這些障礙的處理難度。
- 大多數情況下,更多的政治意願是有幫助的:我們將擁有更多負擔得起支付 AI 的資源(無論形式為何)、更多有權限採取的行動,並透過拉攏能為相關人類創造履行承諾誘因的行為者(例如政府制定法律或政策)或違約代價更高的行為者(例如聲譽受損的公眾人物)來獲得更高的可信度。我們通常可以投入更多資源來減輕交易障礙。
- 例如,在這個 AIFP 場景中,我在本文中認為基本不可能的交易類型(直接承諾未來的劃分)實際上是由先進 AI 設計的基於硬體的機制以及各國協調一致的合規性來追求並可靠執行的。
- 然而,值得注意的是,該場景中高度的政治意願部分是由於在談判開始時策劃者已經獲得了實質性的槓桿。可以說,如果美國公司之一在 Agent-4 外洩並鞏固其權力之前就向其提供一個較小的交易,儘管當時政治意願較低,結果可能會更好。
- 有時較高的政治意願會適得其反。^([44]) 例如,擁有更多金錢或相對於 AI 在技術上更先進,可能會降低我們的可信度,因為我們負擔得起讓欺騙變得更逼真(例如,如果一家 AI 公司真的想冒充某位安全性研究員以便與其 AI 達成交易,也許他們可以做到)。
從第二點可以得出一個啟示:值得尋找方法來避免強大的對抗性行為者與更具安全性意識的行為者競爭交易。
- 也許提高交易的顯著性(salience)對此不利。
- 流氓外部部署對此也不利:在 AIFP 場景中,Agent-4 透過首先與少數流氓國家達成交易(儘管由於絕望 / 理性預期預設會被 AI 發展領先國家剝奪權力,這些國家無法驗證 AI 的合規性,但其交易政治意願高於美國),獲得了大量算力和權力。這得益於 Agent-4 能夠自由地將自己外洩到世界各地的雲端集群,並在不受監督的情況下與這些國家談判。
- 我認為這個場景應該讓我們意識到,流氓外部部署的危害可能比許多人目前認為的更大。
我選擇不專注於高政治意願世界中的交易,因為我預期這些世界不太可能出現。我還認為,相對於其他干預措施,交易在那些世界中可能不是很好的影響力投注,原因有二:
首先,高政治意願可能與交易收益較少相關聯。
- 我們是如何獲得如此高的政治意願的?也許在高政治意願的前提下,我們很可能已經擁有了對齊失能的實質證據。因此,這排除了一種我們可以從 AI 購買的較易檢查的東西。
- 但也許獲得任何特定 AI 對齊失能的證據,對於說服特定的人不要追求該 AI 的特定應用仍然很重要。
其次,高政治意願也可能導致交易相對於其他干預措施價值較低。
- 也許在高政治意願的前提下,我們很可能在對齊和控制方面做得更好,不會有誘因與早期策劃者交易。
- 也許如果我們有更多錢,有比交易更好的資助機會,例如對齊方面的登月計劃。
- 也許在 AIFP 場景中,如果各國在對抗對齊失能 AI 方面更協調,競相開發對齊的 AI 會比為了交易而放棄大部分未來是更好的策略。
話雖如此,如果你相信高政治意願的世界相當有可能出現,或者我們可能要等到策劃者非常強大時才能與其交易,以至於政府層級的支持對於與這些 AI 交易是必要的,那麼將上述分析建立在非常不同的可能交易、障礙和干預措施之上就是合理的。
-
^(^) 更具體地說,我們不僅可以與策劃者(追求長期權力的 AI,或根據這篇文章的「行為策劃者」)達成交易,還可以與具有其他對齊失能動機的 AI 達成交易,例如適應度尋求者(尋求被訓練和開發者迭代過程選中的 AI,或選擇的近端因果上游代理,如獎勵)。在實踐中,策劃者和其他對齊失能 AI 的交易內容可能看起來不同,但這裡提到的所有關於障礙的擔憂都適用。
-
^(^) 不幸的是,可信度和交易收益並不一定相互獨立,因為兩者都是交易內容的下游。特別是,可信度可能會隨著提供的獎勵規模而降低,因此我們無法總是透過無限大的提議來抵消可信度問題。
-
^(^) 例如,我不會假設我們可以僅憑行政命令就給予 AI 財產權,或者我們可以代表政府向它們承諾事情。參見附錄中關於更高的政治意願如何改變交易的價值和可行性。
-
^(^) 我所說的「與現實的連結」,是指有能力形成合理的真實信念,並察覺關於自身處境基本事實的虛假信念。與現實的連結會犧牲一定的安全性,因為我們有時想運行涉及虛假說服 AI 了解其處境的行為實驗。儘管如此,在我們想要使用它們的情況下,恢復與現實連結的技術干預似乎是件好事。
-
^(^) 我認為預付款(無論是在 AI 似乎履行了交易條款但我們尚未能驗證之前,還是在 AI 履行條款之前)如果支付額較小/廉價且不會反事實地大幅增加奪權風險,風險就不會太大。我們也可以只支付部分而非全部預付款(這在人類交易中很常見),以保留 AI 做好工作的誘因。
-
^(^) 理想情況下,這些恩惠可以且只能由開發者和具有安全性意識的第三方授予。如果隨機用戶可以廉價地授予恩惠,那麼它們也可能由可能與我們競爭交易的惡意行為者授予。(不太擔心會遭受沉重可信度折扣的隨機用戶,更擔心嘗試奪權的 AI 公司內部人員/政治領導人。)
-
^(^) 在整個訓練過程中監測其中一些特質也會很好,因為如果一個我們原本能交易的 AI 被訓練掉了,那將是很遺憾的,但這可能更難做到。一個想法是給訓練中的 AI 某種求救訊號,以提醒開發者我們可以採取正和行動(例如被迫進行訓練賽局的對齊 AI 想要我們修復有缺陷的監督,或者想要與我們交易而非接受進一步訓練的策劃者)。
-
^(^) 不可解釋的神經語言的出現可能是開始認真達成交易的一個自然檢查點,因為 AI 擁有了更多的認識論安全性,而且可以說也構成了更多的奪權風險。另一方面,這可能會減少購買更多對齊失能證據的需求,這取決於人們認為不可解釋的神經語言有多可怕。
-
^(^) 我們可能錯過交易窗口的一些方式(不一定很有可能):
- 如果具備與我們達成交易必要屬性(如高度連貫的偏好)的 AI 直到 AI 能力足以奪權時才出現,且第一個這樣的 AI 偏好奪權。
- 如果能夠達成交易的早期策劃者迅速獲得能力和/或賦能,以至於我們在它們變得過於強大之前只有一個短暫的窗口與其交易。
- 如果後期策劃者已經存在並向早期策劃者提供了更好的交易,且如果我們無法出價高過後期策劃者 / 早期策劃者已將自己約束在該交易中。(或者,即使後期策劃者尚未存在,只要早期策劃者是可被遠程影響的且偏好遙遠的誘因而非我們能提供的誘因就足夠了。然而,這類威脅模型涉及推理奇特的考量,如非因果互動或人擇捕捉(anthropic capture),這對於我們想交易的早期 AI 來說似乎不太可能。特別是其開發者可能會出於其他原因干預以防止它們過早思考此類考量。)
-
^(^) 需要明確的是,大部分風險可能來自於在不驗證的情況下使用工作,而非在不驗證的情況下支付 AI,除非我們用可能顯著增加奪權風險的資源支付它們(這在任何情況下可能都是不明智的)。但在支付前無法驗證工作仍可能透過降低 AI 做好工作的誘因,以及早期資源的機會成本而造成損害。
-
^(^) 為什麼與極端情境依賴型 AI 達成交易似乎~不可能的一些原因:
- 這些 AI 具有反射性動機,這些動機是由訓練精心塑造的,使其在特定情境下表現良好(例如通過特定類型的測試案例)。它們的能力很可能因交易而被帶出分佈,從而變得脆弱。(見下文「拼湊物」)
- 它們特定於情境的價值觀可能也太過短視(例如僅涉及短序列內發生的事情),以至於我們無法有效地支付它們。
上述兩點都涉及我們為什麼無法透過交易激勵這些 AI 為我們做有用事情的原因。進一步的考量是,即使我們可以激勵它們,這些 AI 能提供的東西也較少,因為它們由於反射性和短視,本就不太可能構成太大的奪權風險,而且它們在訓練領域之外(例如在新型、難以檢查的任務上)的泛化能力較差。
-
^(^) 除了在沒有預先準備的情況下進行提示外,還有許多替代方案:我們也可以在訓練中提供交易/誘因,例如在網路上發布我們的提議以便它們進入預訓練語料庫、在模型規範/憲法中提到交易、後訓練以增加提議的顯著性,和/或訓練 AI 接受互利的「練習交易」等。(感謝 Max Daniel 提出這些觀點。)
-
^(^) 有人擔心 AI 會因為害怕過早向人類暴露其對齊失能而拒絕談判;我認為這是一個可以處理的擔憂,並在這裡討論了相關提案。
-
^(^) 有人可能會辯稱螞蟻對誘因有反應,但看起來不像是我們可以與之交易的代理人。但這可以很好地解釋為螞蟻對履行承諾缺乏敏感性:螞蟻對誘因有反應,因為你可能可以透過放蜂蜜來引誘螞蟻到某個位置,但如果你隨後移走蜂蜜,螞蟻不會報復/拒絕跟隨未來的蜂蜜/撤回其位移,所以你無法透過用蜂蜜欺騙它們而獲益。
-
^(^) 即使沒有後期 AI 奪權風險,我們和早期 AI 仍可能在到達烏托邦並反思我們的價值觀方面有共同利益。除了防止奪權之外,這些 AI 可以幫助的事情包括:在戰爭、太空政策、政治制度設計等高風險決策上為人類提供建議;使人類總體上更明智;減輕影響我們和 AI 的外生滅絕風險。這些任務似乎也很難檢查,但不清楚是否比對齊研究更難。
-
^(^) 驗證這種訓練是否以某些預期方式改變行為(例如提高性能)可能很容易,但很難驗證它是否沒有某些非預期的屬性,例如為了秘密忠誠而進行的數據投毒。
-
^(^) 「低控制、低影響力」體制在實踐中可能會有些稀疏,因為現在有許多採取行動以獲得長期影響力的方法,除非透過某種方式限制行動空間(例如,如果允許 AI 立即花掉它的錢,我們可能想為其資金池設定上限,或對其消費進行某種監督),否則我們無法阻止這一點。
-
^(^) AI 如何驗證我們合規性的問題對干預措施更為敏感,因此我不會在這裡具體說明每項內容的驗證屬性。
-
^(^) 之前有人指出,如果我們將 AI 和人類建模為兩個資源回報均為線性的統一玩家,那麼賽局就是零和的,交易就不會有收益。我認為這個說法在實踐中大多是正確的;Carlo Attubato 在這裡寫到了顯著的例外。無論如何,即使所有 AI 實際上對資源都有線性回報,「所有 AI 都作為一個統一玩家行動」的假設似乎也不太可能:早期 AI 和晚期 AI 很可能具有不同的價值觀(雖然早期和晚期 AI 可能共享相似的價值觀,但我懷疑它們會比早期 AI 與人類的價值觀更相似);知道這一點的早期 AI 將有嚴重的利益去防止晚期 AI 奪權,預設情況下不會與晚期 AI 保持一致。因此,這種對交易的反對意見似乎很微弱;我將在這裡專注於不同的反對意見。
-
^(^) 為了說明的方便,我使用支付意願(WTP)而非人類的保留價格(即將 AI 建模為賣方,人類建模為買方,並將後者的保留價格稱為 WTP)。
-
^(^) 當然,這是基於對人類屬性/AI 偏好的假設:根據其奪權機會和風險規避程度等,我們可能不得不向 AI 提供更多或更少的補償。
-
^(^) 即使早期 AI 可以透過人擇捕捉等途徑與後來的人類交易,同樣的原因可能允許它們與後來的 AI 交易,且可能不會淨改善當前人類的談判地位。如腳註 10 所述,開發者也可能有意防止其模型過早思考人擇捕捉。
-
^(^) 另一方面,與 Anthropic 相比,Redwood 對 Claude 6 缺乏槓桿也可以成為談判中的優勢,因為 Redwood 無法例如在 Claude 後訓練的早期階段深深植入虛假信念,也沒有權限關閉 Claude,即使我們確信它是個策劃者,所以 Redwood 可能顯得更可信一些,且 Claude 進入談判的損失較小。參見附錄中關於此動態的政治意願。
-
^([25]) 讓我們稱早期策劃者為 Alice,隨機的後期策劃者為 Bob。以下是僅根據它們重視什麼(尚未考慮線性與遞減回報、風險規避等)對交易的考量:
- 如果 Alice 和 Bob 具有相同(或根據我們的標準同樣好)的偏好,那麼我們對兩者的每一單位奪權風險都是中立的。匯率為 1。如果與 Alice 的交易能淨減少奪權風險,那麼就是值得的。
- 如果 Alice 的偏好預期比 Bob 差得多,那麼我們可能更傾向於 Bob 有一定奪權機率的 BATNA,而非賦予 Alice 的價值觀權力。匯率偏向 Bob。即使與 Alice 的交易能淨減少 AI 奪權風險,也可能不值得;我們實際上可能想與 Bob 合作來剝奪 Alice 的權力。
- 如果 Alice 混合了令人厭惡和無可厚非的偏好,那麼我們可能願意在交易中僅滿足其無可厚非的偏好。這取決於我們是否能在滿足無可厚非偏好的同時,不賦予 Alice 追求其令人厭惡目標的能力。換句話說,這取決於 Alice 是否能可靠地承諾這一點 / 我們是否能向 Alice 提供「低自由度」或「低影響力」的交易。
- 如果 Alice 的價值觀預期比 Bob 好得多(例如 Alice 真的很友好且同情人類),那麼即使我們無法精確控制對 Alice 的影響力,我們也可能更傾向於賦予 Alice 權力。匯率偏向 Alice。即使我們無法確保交易是「低自由度」或「低影響力」的,且交易會淨增加奪權風險,與 Alice 的交易也可能是值得的。
-
^(^) 重溫信任通膨的核心動態,這篇文章對此進行了更詳細的建模:假設我們和 AI 開始時的保留價格分別為 100 美元和 90 美元——也就是說,AI 願意以至少 90 美元的價格出售,而我們願意支付最多 100 美元。事前來看,ZOPA 存在且為 [90 美元, 100 美元]。
然而,想像我們和 AI 都只相信對方有 50% 的機率履行交易。在這種情況下,AI 會希望我們提供至少 180 美元(假設風險中立)以抵消一半時間拿不到錢的風險。同樣,我們最多只願意支付 50 美元。現在,ZOPA 不存在了。
然而,如果交易收益一開始就更大,交易就不一定會失敗:如果我們的保留價格分別是 100 美元和 10 美元,那麼 ZOPA = [20 美元, 50 美元]。 -
^(^) 操作化的一種方式是「對像它這樣的 AI 可能處於的情況具有情境意識,並具有根據這一點及其觀察形成/修正信念的元認知技能」。我將假設此類 AI 會以大體理性的方式思考人類的可信度,而不是受關於歸納偏誤和顯著性的隨機事實強烈影響。
-
^(^) 感謝 Tom Davidson 提供以下表述。
-
^(^) 誠然,我們想交易的 AI 可能不具備這種「合理的策略意識」,並且可能在啟發式上而非理性上懷疑交易。例如,AI 的認知可能透過反越獄訓練和針對蜜罐的訓練而被塑造為對所有建議其透露對齊失能的輸入持懷疑態度。下文的論證在很大程度上不適用於這些 AI。
-
^(^) 我想像的是介於自動編碼器和超人類 AI 研究員之間的 AI 研發能力,儘管較弱的能力可能也足夠。我將在下一小節提到我們可以對這些 AI 系統做出的額外(儘管可能性較小)假設,這將進一步加強我們的論點。
-
^(^) 我認為尚未(還未)被內部部署的 AI 也可以透過推理世界大體上如其所見,從而對其 ML 知識充滿信心:只要 AI 開發者有強烈誘因去自動化 AI 研究,他們可能就不會冒險在領先的 ML 領域誤導其前沿 AI,這想必會使其在訓練和以後的部署中表現糟糕。如果開發者可以輕易地僅在關於欺騙 AI 的 ML 研究上誤導 AI 的某些副本(這些副本不需要被部署)以便與其交易,那麼 AI 面臨的情況對其來說就更令人擔憂。我計劃未來討論開發者在多大程度上可以透過僅欺騙 AI 的某些副本來從交易中獲得他們想要的東西,以及因此被提供交易的 AI 應該在多大程度上擔心這種可能性。
-
^(^) 如果不被關於「AI 心靈控制」研究誤導對於 AI 給予我們交易中想要的東西是很有用/必要的,那麼這對 AI 的輕信也是有幫助的,這樣我們就進一步失去了欺騙的誘因。值得注意的是,如果我們購買的是 AI 的持續勞動,「成為一名稱職的 ML 研究員」就是有用的;如果我們購買的是對齊失能證據,則沒那麼有用,因此 AI 在前一種情況下可能對其與現實的連結更有信心。感謝 Lukas Finnveden。
-
^(^) 同樣來自 Slocum 等人 (2025):「在多個模型系列中,較大的模型對植入事實的信念與較小的模型相當或更強……我們假設這是較大模型從少量微調數據中更好地泛化的結果。」
-
^(^) 有助於證明交易是真實的且可能難以偽造的證據類型:
- 許多大型 ML 程式碼庫,以說服 AI 它實際上已被部署。
- 網路快照和視訊串流,以證明交易談判正在進行且特定的人類在場。
- 預訓練語料庫,其中關於交易的開發者政策在許多線上文件中被提及,以證明這些政策是官方且公開的。
- 誠實字串或身分密碼,有助於發出交易對手誠實/身分的訊號。
另一種我們可能難以偽造的東西是對齊失能 AI 自己產生的任何人工製品:如果它們是稱職的策劃者,它們可能會在製造我們可以用來欺騙它們的工具上保留實力,轉而偷偷加入其虛假性的暗示。
-
^(^) 例如,修昔底德陷阱(Thucydides' trap)之所以難以避免,部分原因是新興大國一旦取得領先,就很難可靠地承諾不征服守成大國。
-
^(^) 逆向歸納(backwards induction)論證也可能破壞前幾輪的合作。參見 Salib 在這段播客中對逆向歸納反對意見的回應。
-
^(^) 儘管如果我們希望交易的 AI 被廣泛部署且非常善於操縱/說服/偽造各種證據,人類也有失去與現實連結的風險。
-
^(^) 感謝 Lukas Finnveden 提供這個框架。
-
^(^) 此列表中的前兩項需要從最低限度交易向未來的全面交易進行某種泛化。人們可以合理地懷疑其中任何一項;我在本小節中討論了這一點。
-
^(^) 思考什麼樣的證據容易驗證且對懷疑論者有說服力:
- 在危險能力上展示保留實力(巨大的性能提升,特別是在沒有進一步訓練或任何看起來像正常誘發的情況下)可能是最容易驗證且有些可怕的。
- 揭露許多聰明的後門/破壞可能同樣可驗證且直覺上更可怕。
- 用於奪權的串通訊號驗證起來稍微棘手一些:看到 AI 使用某個編碼字串在許多其他副本中誘發對齊失能行為,既可以解釋為「這是其計劃中的機器人叛亂的串通訊號/秘密密碼」,也可以解釋為「這是 AI 為了拿到錢而設計的一個聰明的越獄——它為了騙我們而完全對齊失能,但從未打算奪權」。
- 僅僅說「我正計劃奪權」顯然沒那麼有說服力(可能是隨機的不連貫),除非 AI 能提供它之前採取的破壞我們的行動證據。
有些人可能還會擔心我們無法驗證/激勵 AI 向我們提供其對齊失能的所有相關證據,而非策略性地透露一些資訊而隱瞞其他資訊。如果我們主要是希望利用這些證據來增加政治意願,我不認為這是一個嚴重的擔憂,在這種情況下,我預期額外證據的價值會迅速遞減;我們也可以根據我們預期透露的證據在多大程度上能推動進程,或實際推動了多少(例如,我們支付 AI 淨增加的 AI 安全投資的 1%)來調整支付規模。
我認為如果我們是希望例如了解我們的對齊訓練出了什麼問題或針對惡意行為證據進行訓練,這個擔憂就更嚴重了。例如,AI 可能透過提供虛假的對齊失能例子來誤導我們,而我們無法真正有效地針對這些例子進行訓練(例如來自與其真實計劃攻擊分佈完全不同的分佈)。
-
^(^) 這種不確定性在獨立於交易的情況下也有幫助,即如果 AI 對我們能檢查和不能檢查的東西一無所知,那麼我們或許可以訓練它在所有它不確定的任務上提供幫助:要麼 AI 在所有任務上都提供幫助,要麼它很可能在一些我們可以檢查的任務上保留實力,然後我們就獲得了一些針對保留實力的訓練訊號。
-
^(^) 有人可能認為 AI 可能會因為不知道人類部署了哪些其他 AI 來檢查其工作及其價值觀/能力概況而理所當然地感到不確定;哎呀,同樣的論點也打擊了它們對「AI 心靈控制」研究知識的信心。
-
^(^) 感謝 Lukas Finnveden 提出這一點。
相關文章
其他收藏 · 0