我們如何能更安全地將決策權交給AI？

Lesswrong·2 個月前

本文探討了如何安全地將關鍵決策與安全研究委託給人工智慧系統的策略，並著重於在時間緊迫的情況下，如何確保這些系統具備足夠的對齊性與能力。

隨著 AI 系統的能力增強，在越來越多的決策上避免委託給 AI 將變得越來越缺乏競爭力且不可行。此外，一旦系統具備足夠的能力，控制將變得不可行。
^([1])
因此，應對 AI 風險的主要策略之一，是完全（或幾乎完全）委託 AI 來管理這些風險。廣義上說，當我提到「委託給 AI」時
^([2])
我指的是讓這些 AI 承擔幾乎所有的工作，包括開發能力更強且更對齊的後繼 AI、管理外部風險以及制定戰略決策。
^([3])
如果我們計劃委託給 AI，我認為最安全的做法是，僅在略高於自動化安全研究、執行與戰略所需的最低定性能力/智能水平時進行。
^([4])

為了讓委託順利進行，我們需要滿足兩個條件：一是我們所委託的 AI 不會對我們耍陰謀（scheming），二是它們在關鍵任務上足夠對齊且有效（例如對齊下一代 AI、爭取更多時間進行對齊工作、做出良好的戰略決策）。要在關鍵任務上達到足夠的對齊與效能，需要 AI 具備智慧（例如，即使在反饋迴路薄弱或不存在的領域也具備良好的認識論），並且在難以檢查、混亂且概念模糊的工作（例如極具「哲學意涵」的工作）中也能保持對齊與勝任。

在這篇文章中，我將（在相對宏觀的層面上）討論如何提高委託成功的可能性。我將主要關注我們需要在倉促情況下進行委託的情境（例如，在類似 AI 2027 的情境中，或者在政治意願較高但時間仍然有限的情境中）。因此，我將主要關注相對平庸（prosaic）的策略。如果我們極度匆忙，且無法爭取額外時間來提高安全性，那麼我認為在倉促中完全委託給 AI（其能力僅略高於最低門檻）可能是我們目前最佳的策略，儘管我不會在這裡對此進行論證。
^([5])
值得注意的是，在倉促中委託給 AI 存在巨大風險
^([6])
而為安全工作（包括提高委託成功率的工作）爭取更多時間將是更理想的選擇
^([7])
。雖然在倉促中讓委託順利進行看似困難，但我們可以（嘗試）利用大量的（受控/受監督的）AI 勞動力來提供幫助。

儘管讓委託順利進行的很大一部分困難在於避免陰謀
^([8])
，但在本文中，我們將（主要）假設陰謀問題已另行處理，且我們最初委託的 AI 並非陰謀家。
^([9])
更進一步，我們還假設我們已分別處理了其他可能導致行為測試產生嚴重誤導的問題（例如數據投毒、人類對手試圖劫持/破解 AI、AI 因為意識到自己正在接受測試而表現出不同的行為）。

話雖如此，在將 AI 視為完全不可信（如完全應用控制式分析，假設 AI 是最壞情況下的陰謀家）與完全委託之間存在一個光譜。完全委託是指 (1) 我們不具備控制權（如果 AI 嚴重失調或系統性地試圖為其錯誤目標獲取權力，我們就會陷入困境）以及 (2) 我們在所有事情上都使用並信任 AI，但這兩個屬性都可以是連續變化的。我們可能會進行部分委託，例如，我們擁有一個弱版本的控制機制，可以針對某些非最壞情況的嚴重失調提供少量保證，並在某些難以檢查的領域進行委託，而人類仍在其他領域執行相關工作。我們也可以考慮逐項任務的委託，即我們在某些任務子集上有效地（完全）委託
^([10])
，但在其他任務上仍確保控制或避免完全信任 AI；這在完全委託之前可能就非常重要。我將重點討論完全委託或接近完全委託，但我所說的許多內容也適用於部分委託。
^([11])

在本文中，我將討論：

安全委託給 AI 的高層級目標。這將作為後續章節的動機。
我們的委託高層級策略。
我們具體針對哪種能力概況（capability profile）。
我們具體針對哪種對齊概況（alignment profile）。
我們將如何測試能力與對齊。
我們可能如何改善能力概況。
我們可能如何提高對齊水平。

［遺憾的是，我認為這篇文章在清晰描繪委託給 AI 具體需要什麼方面做得不夠好，也沒有提供足夠的範例。但我還是決定發布它，因為它已經作為草稿擱置了很長時間。］

高層級目標

成功的委託是什麼樣子的？

我們的最終目標是讓我們委託的 AI 解決與強大 AI 系統相關的風險（以及當時可能發生的其他嚴重風險），同時保留選擇價值（option value），並讓人類掌控長期的價值決策（例如，地球長期應如何治理、宇宙稟賦應如何處理等）。相應地，我們的目標是讓我們委託的 AI（及其後繼者）不會奪取權力或（不必要地）殺死人類，讓這些 AI 有效地管理這些風險，並讓這些 AI 遵循某種模型規範，其中包括 AI 對某群人類或最終由人類運行的某種結構（例如美國政府的某些組成部分）保持可修正性（corrigibility）。
^([12])

對齊與智慧的遞迴自我改進：對「良好委託盆地」的希望

一個關鍵的希望是，我們最初委託的 AI 將致力於通過（例如）提高自身的對齊度和智慧，使進一步的委託更有可能順利進行。因此，我們不需要確保最初委託的 AI 是完美對齊、完美智慧的；只要初始狀態足夠好，某種引導（bootstrapping）是可能的。（我設想我們嘗試讓我們委託的 AI 對某群人類或某種人類流程保持可修正性，而這種可修正性屬性將通過 AI 世代傳播和改進，包括根據需要以合理的方式精煉和澄清可修正性的邊緣案例。）

這類似於「可修正性盆地」（basin of corrigibility）的概念：如果 AI 足夠可修正，它們會幫助你改進它們的可修正性，從而使情況保持穩定。然而，我們需要這不僅僅適用於可修正性；AI 還需要具備足夠的勝任能力和智慧來妥善管理局勢（例如避免災難性的錯誤選擇），並且這種智慧和勝任能力本身需要隨著每一代 AI 的更迭而進一步提升和改進（這可能超出了僅靠能力爬升所能達到的預設水平）。

如果我們最初委託的 AI 在管理局勢方面足夠對齊、智慧且勝任，以至於它能確保它所創建的未來 AI 系統更加對齊、智慧且勝任（即我們避免了委託的 AI 本身奪權或引發災難，也避免了它們建造出奪權或引發災難的 AI），那麼我們就稱這些 AI 處於「良好委託盆地」（Basin of Good Deference, BGD）。請記住，「讓進一步的委託順利進行」是一項開放式且充滿概念性挑戰的任務，我們無法有效地檢查 AI 的輸出，因此對齊/引導 AI 在這項任務上真正做好工作可能是困難的。
^([13])

在實踐中，人類可能能夠在某些維度上遞補初始 AI 的不足，且 AI 總是可以向人類尋求建議或要求執行某些任務（儘管最終這可能會因為太慢/缺乏競爭力而變得不可行）。這就是從部分委託開始。例如，如果 AI 在除了做出良好戰略選擇之外的所有維度上都可以安全委託，人類可能會承擔這項任務，直到後來的 AI 可以在戰略上被委託。一旦我們充分進入 BGD，我們就應該過渡到完全委託（因為人類的認知勞動可能很快就會變得極度缺乏競爭力）。

我們委託的 AI 既需要處理外部風險（例如來自其他 AI 項目的風險），又需要避免自身造成災難性後果（它們需要確保它們建造的未來 AI 不會奪權，也不會通過其他途徑引發災難
^([14])
）。這意味著這些 AI 需要持續確保對齊，同時仍讓能力足夠快地進步，以確保在每個時間點，對齊的能力水平都足以抑制外部風險。然而，這些 AI 可以通過各種途徑爭取更多時間來進行安全工作（對齊、智慧以及其他可能比通用能力/競爭力更難推進的事項），這可能非常重要。由於會存在一定程度的時間壓力，無限緩慢地推進對齊是不夠的：AI 需要充分處於 BGD 內，以便在資源有限的情況下管理局勢。
^([15])

目前尚不清楚 BGD 具體如何運作、進入這個盆地有多容易，以及這是否真實存在。我相當有信心類似的東西是真實存在的，但情況肯定不明朗。如果不存在 BGD，那麼我們只能在推進委託以外的任務上委託給 AI，並且我們必須追求除了穩定持續跟隨能力的委託之外的其他最終狀態。一個更合理的擔憂是，實現 BGD 非常困難。

目標總結及委託 AI 必須做的事情

我們希望委託之後的情況是：

我們的 AI 保持足夠對齊
外部風險得到持續處理

這要求在委託後的每個時間點，我們的 AI：

沒有嚴重的失調：它們對預期的群體/結構保持可修正，且不試圖奪取權力或殺死人類。
在關鍵任務上有效且對齊：AI 在以下方面做得很好——包括足夠對齊且具備足夠能力——自主地：

推進對齊/引導

推進 AI 能力概況中可能落後且對未來關鍵任務很重要的關鍵部分
推進通用能力（儘管這可能是預設情況，因此追蹤這一點可能不那麼重要）
直接處理外部風險且自身不引發災難
為這項工作爭取時間
做出良好的戰略選擇：在上述關鍵任務之間排定優先順序，並在何時推進能力方面做出良好選擇。

我將使用「委託優良度」（deference-goodness）一詞來指代 AI 在關鍵任務上有效且對齊的差異化改進（即相對於僅增加通用能力的差異化）。
^([16])
（我不包括僅用於降低 AI 在委託優良度中嚴重失調機率的工作。）

對於初始委託，我們（在其他條件相同的情況下）更偏好更高的委託優良度。
^([17])
但是，引導確實意味著我們可能不需要在初始委託時做得那麼完美。我將在後面的章節中討論初始委託需要達到什麼程度。

我們可以將委託優良度分解為對齊/引導組件和能力概況組件：

廣義對齊：AI 需要足夠對齊且被充分引導，以便在龐大、開放且充滿概念性挑戰的任務（反饋迴路薄弱）中忠實地追求我們的利益，在這些任務中我們無法有效地檢查 AI 的輸出（且這些任務與我們為了訓練和測試目的而能檢查的任務相去甚遠）。AI 不能有嚴重的失調。
^([18])
能力概況：除了通用能力和自動化 AI 研發的能力外，我們還需要在處理混亂的概念性任務、預見安全問題、在反饋迴路薄弱的高度不確定領域做出良好戰略決策，以及更廣泛的「智慧」/認識論方面具備足夠的能力。

稍後，我將討論我們如何改進這些組件。

及時處理外部風險

我們委託的 AI 需要及時處理外部風險。這包括來自外部 AI 變得失調的風險（可以通過例如發布和推廣對齊方法來處理）、來自外國對手的風險、恐怖分子濫用風險、認識論環境因 AI 而發生災難性退化的風險，以及來自非 AI 來源的一般背景風險。外部風險可能會持續發生，我們需要能夠在它們出現時進行處理，儘管在初始委託與第一個（災難級規模的）外部風險之間可能會有實質性的延遲。
^([19])
因此，我們委託的 AI 需要確保它們具備足夠的能力在外部風險出現時進行處理（或以其他方式避免這些風險成為問題）。預設情況下，這需要領先於競爭對手（通過減慢他們的速度或推進能力進步），包括能力、實體工業和軍事，但也有非 AI 的外部風險，除了保持領先外還需要主動防禦（例如防禦生物武器）。僅領先一點點不一定足夠（例如，由於攻防失衡，大幅領先可能很重要），但保持領先大約是必要的。處理這種情況還要求 AI 在何時推進能力以及如何在對齊、能力和處理外部風險之間排定優先順序方面做出足夠好的戰略選擇。值得注意的是，這些風險的存在有時可能意味著，讓能力進步超過我們能對 AI 對齊保持信心的水平，反而會降低整體風險（例如，因為在短時間內達到某種能力水平以減慢其他參與者的速度可能是至關重要的）。

隨著能力的提升（面對外部風險）保持委託優良度的進展可能會很困難，因為我們最初的 AI 對齊/引導不足，或者能力概況不足（例如，對於充滿概念性的對齊研究缺乏良好的研究品味），導致它們最初推進委託優良度的速度太慢。可能是我們委託的 AI 在（安全地）執行某些其他關鍵任務之前需要先提高自身的委託優良度，而這需要一些時間；或者是我們必須使用昂貴的措施來提高原本不足的委託優良度（例如，我們讓許多不同的 AI 檢查工作，因為我們不信任單個系統能做好，但以這種方式檢查工作是足夠的）；這兩種延遲實際上都相當於我們最初的 AI 執行工作的速度較慢，因為我們在初始 AI 的委託優良度上做得不夠好。請注意，初始委託做得不好可能會直接導致災難，而不僅僅是需要更多時間：我們可能真的需要做得相當不錯才能進入 BGD，但只是需要一些時間讓 AI 提高委託優良度。此外，評估足夠的委託優良度可能很困難（儘管提高它是可能的），因此我們委託的 AI 本身不一定知道要在提高自身或更強大的後繼 AI 的委託優良度上花費多少精力（儘管 AI 會致力於更好地評估移交優良度的相關方面，並確定什麼是足夠的）。評估困難可能會導致人類和我們委託的 AI 在精力分配上非常低效。

另一種可能性——這不是我們通過在最初委託的 AI 上做得更好就能解決的問題——是委託優良度相對於能力而言在根本上持續難以推進，以至於維持委託優良度所需的持續精力投入太高。總的來說，委託是否順利進行的一個關鍵問題是，為了（舒適地）留在 BGD 內，除了提高通用能力/競爭力的研發之外，還需要多少額外的工作。在固定算力下僅靠軟件進步的 AI 情況下，這最容易思考：我們可以將保持某種能力水平在 BGD 內所需的研發精力（推理和實驗算力）與實現該能力水平所需的研發精力進行比較。我們將需要花費在留在 BGD 內的精力比例稱為「委託優良度稅」（deference-goodness tax）。請注意，委託優良度稅在能力進展過程中會有所變化，你可以通過承擔更多風險來支付較低的稅。我預計最終會存在留在 BGD 內的擴展性策略，使得委託優良度稅最終變得微小，但在實踐中，我們需要支付的總體委託優良度稅可能是巨大的。此外，我預計提高委託優良度的工作相對於能力而言，在認知勞動（與算力相比）上具有更高的回報。這有望意味著，隨著 AI 的進步和認知勞動相對於算力變得更加豐富，委託優良度稅會隨著時間而降低。

最終，這種委託優良度稅歸結為我們委託的 AI 為了在不發生災難的情況下管理這些風險，相對於外部風險所需的額外領先時間。
^([20])
一個特別顯著且簡單的總體委託優良度稅概念是：從委託可行的最低能力水平開始（並假設初始委託成功），在僅靠軟件的奇點過程中安全地留在 BGD 內所需的委託優良度稅。我們可以考慮直到足以輕鬆穩定局勢的能力水平，或軟件奇點逐漸平息的點
^([21])
，以較早者為準。我們可以用絕對時間來表達，例如需要 3 個月的領先時間。因為僅靠軟件的奇點（包括任何形式的基於軟件的遞迴自我改進）似乎是委託可行能力水平附近 AI 快速進步的最大原因，這是一個相當自然的委託優良度稅概念：完成軟件奇點或達到足以應對的能力水平所需的量。

因為我們委託的 AI 可以爭取更多時間（例如通過與外國對手協調或破壞其行動，以及倡導政策），即使我們在移交時沒有足夠的領先時間來支付總體委託優良度稅
^([22])
，我們也不一定有麻煩。我們需要給予 AI 的領先時間取決於每個更高能力水平所需的稅，以及該能力水平下的 AI 能爭取到的時間：AI 只需要能夠持續爭取更多時間來跟上稅收即可。

我們委託的 AI 還可以推廣改進委託優良度的策略，這可以通過確保其他參與者更理性地運作來有效地爭取時間。

總體而言，我目前的觀點是，有了良好的委託初始狀態，我們委託的 AI 有相當高的機會（>90%?）在僅有少量/適度領先時間（例如 1 個月）的情況下成功管理風險。

在實踐中，我們可能無法很好地理解我們委託的 AI 需要多少領先時間才能安全處理局勢。這將使得在「花費多少領先時間讓初始委託做得更好並解決其他早期風險」與「給予委託的 AI 多少領先時間」之間做出良好的權衡變得困難。我們屆時必須根據當時可獲得的信息做出猜測。（在理想世界中，我們在每個階段都有充裕的時間，進一步的能力將受限於類似安全案例的東西，但這似乎不太可能。）

我們可能滿意的其他最終狀態包括將問題推給其他流程，可能是通過構建模擬心智或策劃一個長達數十年的停頓，讓人類致力於對齊研究。就本文而言，我最感興趣的是不最終推給非 AI 流程或長期停頓的委託需要什麼，以便我們可以分析最終需要什麼，也因為其他最終狀態似乎更難達成。

委託給較弱的 AI（較不可能成為陰謀家）

為了讓委託順利進行，我們的 AI 需要不是陰謀家。直接專注於消除陰謀的工作是關鍵，但在較低的整體能力水平進行委託也有助於降低我們的 AI 成為陰謀家的機率。總體而言，我的感覺是，我們最初可能希望委託給在定性上不比頂尖人類專家更強的 AI，因為定性上比這更聰明的 AI 會讓對齊變得更困難，而且僅在定性上與頂尖人類專家相當的 AI 進步速度已經相當快（例如，此類 AI 的運行速度可能比人類快 30 倍以上，並具有各種結構優勢）。我們最初委託的這些 AI 致力於提高未來系統的對齊度，並確定我們是否應該構建並委託給能力更強的 AI。

除了陰謀之外，我預計讓能力較弱（但仍至少與人類專家相當）的 AI 在總體上更對齊（例如，即使在非常難以檢查的任務上，也更有可能真正嘗試並追求我們的利益）會更容易，因為這些能力較弱的 AI 在特定任務上通常更容易監督。因此，我預計在某個能力水平上，進一步提高能力實際上會讓實現既定的委託優良度變得更難，即使我們撇開陰謀不談（儘管這是不確定的，且取決於泛化如何運作）。我預計這個能力水平（進一步提升會讓委託優良度變難的點）並不會比委託所需的最低能力水平高出多少。這是我認為最佳策略是僅在略高於最低可行通用定性能力水平時進行委託的一個重要原因。

如果我們最終發現大幅提高能力水平實際上會改善委託優良度（同時仍讓陰謀更有可能發生並增加下面討論的其他缺點），那麼這裡就存在權衡。
^([23])
委託的最佳能力水平將取決於「因委託優良度不足而導致的風險隨能力增加而降低的速率」與「其他風險（尤其是陰謀風險）隨能力增加而上升的速率」之間的比較。這可能很難準確估計（無論是現在還是需要做出決定時）。

由於不完全了解移交可行需要哪些技能/能力，這個討論通常變得很複雜。例如，是否需要頂尖人類專家水平的通用學習能力？我暫且認為不需要（因為 AI 可以通過使用更多數據和其他結構優勢來補償），但這相當不明朗。關於需要什麼學習能力的具體問題特別重要，因為頂尖人類專家水平的通用學習能力會讓 AI 在整體能力上（至少在許多/大多數領域）顯得非常超人，因為 AI 能夠訓練比人類一生中多得多的數據，這我稍後會討論。

能力較弱的 AI 也更容易控制，且更難奪權（或廣義上獲取權力），這使得如果我們委託給正在耍陰謀的 AI，我們更有可能從中恢復（儘管這並不是一個很有希望的希望）。這也意味著我們更有可能在委託前的準備階段確保 AI 保持受控（且至少不會奪權或引發其他災難性後果），並且我們可以在最初確保它們受控的情況下與這些 AI 合作一段時間。在訓練期間確保控制也是件好事（因為即使我們最終能避免失調，它也可能在訓練期間短暫出現），而在某種能力水平上，這可能是不可行的（儘管確保訓練控制且成本極小可能比確保部署期間的控制容易得多）。即使我們有良好的方法來評估 AI 是否為陰謀家（但不一定有良好的方法來避免陰謀），並且我們計劃委託給該 AI（前提是未檢測到陰謀），訓練無法控制的 AI 仍會帶來風險，因為開發者的非理性決策可能會導致已知的陰謀家被部署。總體而言，我的感覺是，考慮到 AI 開發者的現實情況，在大多數情況下，在委託給具有相對有限上行空間的 AI 之前，訓練超出委託所需最低能力水平的 AI 風險將越來越大。

僅訓練能力較弱的 AI 還能減輕 AI 被盜、被濫用（可能是內部人員）或有人嘗試利用 AI 奪權的後果。話雖如此，在 AI 能力足以委託的點上，這些負面影響可能已經非常巨大，我們真的應該已經對這些風險有了強大的防禦。

總體而言，我擔心存在繼續擴展能力（以安全為藉口）的偏見，以及推遲移交（且不認真排定移交優先順序）同時仍增加能力的偏見（因為移交直覺上聽起來比製造越來越強大的 AI 更可怕）。（澄清一下，我認為減慢能力進步以便我們可以花更多時間做好移交工作會很棒，但我認為在拖延解決移交問題的同時推進能力會很糟。）考慮到這些偏見以及確定大幅超出最低水平的能力是否有幫助的困難，我目前傾向於相當強烈地默認在接近最低可行能力水平時進行移交
^([24])
，儘管最初移交給能力更強的 AI 可能會有優勢。

為了能夠委託給相對較弱的 AI，差異化地加速那些能讓 AI 在關鍵安全工作（例如對齊研究、廣義上的委託優良度工作、決策）中表現特別出色的能力是有幫助的。特別是，這包括在混亂的概念領域的研究技能。我們將在接下來的章節中討論這一點。我們還希望避免 AI 在任何不那麼有幫助的事情上不必要地超越人類，儘管狹義的超人能力顯然不那麼成問題（它可能會讓訓練中的監督變得更困難，進而可能讓有問題的傾向更有可能出現）。

速度/生產力的提高是否意味著我們應該委託給能力更強的 AI？

委託給大幅超出最低可行能力水平的 AI 的一個理由是，這些更聰明的 AI 工作速度更快；也許即使略高於最低水平的 AI 技術上處於相關盆地內，它們的工作速度可能還是太慢。我基本上不接受這個論點，因為我認為僅略高於委託最低能力水平的 AI（可能）已經非常快了。此外，我們最初委託的 AI 本身可以決定委託給能力更強的 AI（而且因為我們已經委託給它們，且它們比人類快，它們可以花很長時間分析這是否是個好主意，即使這種分析對人類來說很難驗證）。

這確實取決於 AI 的運行速度是否大幅快於人類（且數量更多），但我預計在實踐中這將是真的（如果不是真的，那麼理想情況下我們會優化使其成真，因為在較低定性能力水平下更快且數量更多的 AI 會更安全）。

更廣泛地說，我認為委託給能力更強的 AI 以便在委託後讓事情進展得更快並不是一個好策略，因為我們委託的 AI 相對於其他委託前的瓶頸（最核心的是人類花時間理解和驗證事物，以及通過充分對齊初始 AI 來致力於讓委託順利進行）而言，運行速度可能已經非常快了。也就是說，也許如果你委託給能力更強的 AI，它可以快 500 倍而不是 20 倍來完成相關事情，但我們已經需要至少幾個月讓人類弄清楚如何讓委託安全，所以這幾個月才是瓶頸，而不是 AI 運行快 20 倍的部分（這個我們委託的 AI 可以在短時間內在消除人類驗證/理解瓶頸的情況下取得巨大進展，包括在做好委託給能力稍強的 AI 的工作以及決定委託給能力稍強的 AI 是否最佳方面取得進展）。（這個「其他瓶頸更大」的論點是 Amdahl 定律的一個應用。）

如果我們達到足夠委託優良度的最佳/唯一策略涉及與最初委託的 AI 進行緩慢/低效的引導過程，且這在更聰明的 AI 下會快得多，那麼選擇更聰明的 AI 可能是最好的，但我認為這是一個非常具體且不太可能發生的情況。

在移交之前，加速安全工作的最佳能力水平可能大幅高於移交所需的最低能力水平（且我們仍應在該最低能力水平附近移交）。如果我們能（足夠安全地）在委託之前從這些能力更強的系統中榨取大幅更多的工作，使得與使用這些能力更強的系統相關的風險是值得的，那麼這將是一個好主意。
^([25])

人類水平的委託優良度是一個合理的目標

了解什麼水平的廣義對齊和什麼樣的能力概況足以充分進入「良好委託盆地 (BGD)」，使委託能盡可能順利進行，似乎很有用。那麼什麼水平是足夠的呢？我們確實知道，耍陰謀或嚴重失調的 AI 不在 BGD 內，但撇開陰謀和不必要的權力追求不談，要求是什麼？遺憾的是，簡短的回答是我們並不真正知道。

一個合理的目標是 AI 具備（被充分引導的）能力、智慧/認識論和判斷力，能與安全研究領域的頂尖人類專家競爭，並總體上讓局勢進展順利。這可能需要在一些更小眾的領域具備特別高的能力，包括思考重要考量的能力、在不確定領域良好的戰略決策能力、對齊/安全研究能力以及哲學能力。這些能力需要被充分引導，即 AI 實際上會運用其能力嘗試讓局勢進展順利，至少大致達到人類努力的程度。
^([26])

此外，AI 需要在執行大量工作（包括序列工作，例如相當於人類數十年的工作，以及大量的並行工作）的整個過程中保持這種對齊水平（包括不變得嚴重失調）和能力。這意味著我們實現的對齊必須對模因漂移以及 AI 對其處境的反思和進一步學習具有魯棒性。引導意味著 AI 自己可以延長它們在保持對齊的情況下能完成的工作量，因此我們可以（例如）從能在幾年的人類勞動時間內保持對齊且具競爭力的 AI 開始，然後它們進一步提升自身的對齊度，從而引導至數十年。我的猜測是，大部分困難在於獲得在任何合理時長（例如一個月）內都能安全匹配頂尖人類專家的對齊且被充分引導的 AI，而不是從某個合理時長過渡到能安全匹配十年的 AI。
^([27])

考慮到目前的人類專家在局勢的重要方面以及應採取什麼行動上存在強烈分歧，頂尖人類專家水平的認識論是否足夠？我的猜測是肯定的，儘管我們可能需要讓 AI 將不同的認識論策略組合在一起以實現多樣化。部分原因是我認為許多分歧可以通過經驗證據來澄清，而且我們將有足夠的勞動力來並行執行許多策略並處理許多擔憂。話雖如此，我們可能能夠實現超人的認識論，因為 AI 使得精確研究不同認識論策略在不同情況下的表現變得更容易。我稍後會進一步討論足夠的認識論和改進認識論的主題。

無論什麼目標是足夠的，在由於時間有限而倉促委託給 AI 的情況下，我們可能對達到任何可能足夠的特定目標都沒有信心。因此，專注於在對齊優良度上盡可能做得更好，可能比思考任何特定目標更具行動指導意義。話雖如此，如果我們沒有達到一個點，即我們最好的猜測是委託給 AI 優於其他選擇（我們的無差異點），那麼我們就不會進行委託，因此嘗試足夠好地評估委託以了解我們是否超過了無差異點至少是有用的。（請注意，隨著我們時間耗盡，我們的無差異點最終可能會變得極其冒險！）而且，如果我們還沒超過無差異點，能夠為 AI 風險（包括委託不順利）提出一個清晰的案例將會很好（如果我們超過了無差異點，那麼 AI 可以在我們委託給它們之後提出這個案例）。（這有點循環：我們的無差異點會根據我們使用風險案例說服相關參與者採取不同行動的可能性而移動，等等。）

總體而言，重要的是要記住，委託如何順利進行的一個關鍵方面是引導，即 AI 致力於讓進一步的委託順利進行。這使得較低的門檻更有可能足夠，也意味著在評估委託將如何進行時，我們需要觀察 AI 改進委託情況的能力（同時仍避免災難性的戰略錯誤，如相對於對齊過快地擴展能力，最終委託給嚴重失調的 AI）。

一個相對平庸的委託策略

我們如何改進對齊和能力概況，使（初始）委託更有可能順利進行？我將討論主要涉及經驗性 ML 研究的平庸方法。以下是我目前最喜歡的實現這些屬性的高層級平庸策略：

避免會導致我們的行為測試產生嚴重誤導的問題（持續的對齊偽裝（如陰謀）、因測試顯著而導致的行為差異、數據投毒和劫持）：我們希望利用行為測試，但為了讓這走得更遠，我們需要避免針對我們行為測試的對抗性優化以及其他測試可能產生嚴重誤導的原因。最核心的是 AI 自然而然地變得如此失調以至於它們持續偽裝對齊（最核心的是陰謀），但我們也需要處理可能篡改訓練的對抗性人類（數據投毒），或試圖在行為測試後插入惡意輸入以劫持（一種特殊的破解）AI，從而導致 AI 群體變得失調的人類。（劫持可能自然產生，如果它們具有「傳染性」，則會傳播，形成模因疾病威脅模型。）另一個擔憂是，AI 正在接受行為測試這一事實對它來說非常顯著（對於那些看起來與部署非常不同的行為測試子集），並且（出於有意偽裝對齊以外的原因）這導致了與我們在其他情況下看到的截然不同的行為。我們通常還希望避免嚴重到會導致 AI 奪權和/或殺死人類的失調，因為這是委託順利進行的要求，與行為測試的有效性無關。可能僅在大規模或長期工作後才出現的失調失敗模式（無論它們是否導致持續的對齊偽裝）也必須處理，因為它們可能很難通過行為測試直接研究。
為能力和對齊建立行為測試：在排除了可能使測試產生嚴重誤導的特定障礙後，我們應該能夠對這些屬性進行行為測試。這並不是說這種行為測試會很容易：我們需要泛化到一個我們無法檢查的體系，或至少是我們無法檢查的領域，因此這種行為測試至少有一部分必須建立這種泛化。我稍後會討論我們如何做到這一點。
迭代以確保在這些行為測試中表現良好（不發生過擬合）：現在我們有了合理的測試，我們可以迭代以提高性能。我們需要小心避免過擬合，以便我們的測試結果具有意義。我們可能需要一些有原則的技術和對正在發生的高層理解，以便在需要泛化到稍微不同的體系的情況下真正獲得良好的性能。

這個策略的一個假設是，隨著時間推移發生的平凡/自然的分布偏移本身（在沒有對齊偽裝、數據投毒或劫持的情況下）不太可能導致我們的行為測試產生嚴重誤導（至少如果我們在行為測試上做得很好）。話雖如此，我們可能希望使用與 AI 部署方式截然不同的行為測試來評估對齊或能力的某些方面，而在這些測試與實際委託之間必然會存在巨大的（且可能是顯著的）分布偏移。

如前所述，我將在本文中假設我們已經解決了導致行為測試產生嚴重誤導的問題，並專注於其他困難。

我一直在使用「對齊」一詞，並將專注於基於真正魯棒地對齊 AI 系統的方法，但即使在完全委託時，某些類型的非完全最壞情況失調問題原則上也可以通過混合控制與對齊，或者可能通過（白盒）控制式方法來解決。例如，我們的做法可能涉及一個對齊的、大致人類水平的 AI 來控制一個超人 AI，或者可能涉及使用某種白盒監控來追蹤 AI 何時在進行欺騙性思考並抓住它。主要依賴控制的方法似乎不適用於完全委託，因為委託將涉及 AI 執行關鍵且極其難以檢查的任務，例如總體上弄清楚處理 AI 風險的整體戰略。僅實質性依賴控制的方法似乎在委託的情況下也不夠魯棒，除非由對齊的人類水平 AI 運行控制方案。

即使我們擁有非常優秀且廉價的行為測試（也就是說，這些測試平台幾乎完全類比，其運行本身沒有風險，且我們幾乎可以完美地測量測試平台中的失調問題）
^([28])
，並且我們避免了會導致行為測試產生嚴重誤導的問題，我仍然認為實現足夠好的移交可行性似乎很困難。這與陰謀下游的問題截然不同：我預計如果我們有這麼好的研究陰謀的測試平台，陰謀問題可能就不會太難解決。然而，我預計如果我們解決了導致行為測試產生嚴重誤導的問題，建立良好的移交可行性測試平台將會容易得多，而且我也預計實現移交可行性的許多困難（且可能是其中最難的一些）將在為了正常的商業激勵而使 AI 更有用的過程中得到部分處理，正如我們在「為了短視的商業激勵，準備委託所需的工作會有多少發生？」中所討論的。

一個重要的複雜情況是，我們希望在確信已排除陰謀之前就開始針對我們的行為測試進行迭代。但是，如果 AI 正在耍陰謀，那麼針對行為測試進行迭代的結果可能無法轉移到我們已避免陰謀的體系中。儘管如此，這種並行迭代可能還是值得做的，因為 AI 可能沒有在耍陰謀（我們很可能對任何一種情況都沒有信心），而且（某些）結果可能可以轉移。引導/能力結果似乎最有可能轉移，而且在棘手的概念性研究等領域確保 AI 足夠強大並具有良好的認識論，似乎佔據了很大一部分困難。如果 AI 明顯在耍陰謀，我們應該相對降低建立和迭代行為測試的優先順序，轉而支持消除陰謀（以及可能改進控制）的工作。
^([29])

能力概況的目標

粗略地說，我們的目標是加強能力概況中那些 AI 公司預設可能不會優先考慮、但否則會瓶頸 AI 執行重要安全任務或使委託給 AI 變得不可行的方面。AI 公司預設會被激勵去推進某些能力，而且某些能力必須存在我們才會擔心 AI。如上所述，一些可能的瓶頸能力包括在混亂的充滿概念性的領域表現良好，以及具備足夠好的認識論。然而，值得注意的是，可能還有其他重要的能力會成為我們的瓶頸（而且可能很難提前預測這些能力）。

更準確地說，我們的目標是相對於達到各種更危險的能力里程碑的時間點，提前能力概況允許完全自動化安全工作的時間點。（而且，廣義上說，我們希望避免加速達到危險能力里程碑的時間，儘管某些通用的加速可能是不可避免的。）加速能力允許完全自動化安全相關工作的時間點有什麼好處？

雖然可能性不大，但我們可能會在能力允許完全自動化安全相關工作之前就看到全面的 AI 奪權；目前尚不清楚奪權是否需要我們完全自動化安全相關工作所需的所有能力。
^([30])
在其他條件相同的情況下，我們希望移交給在可能使未檢測到的嚴重失調更有可能發生的能力（特別是通用目的的不透明推理能力）上盡可能弱的 AI 系統。如果我們被迫等待更通用的 AI 來克服某些瓶頸能力，這可能會大幅增加嚴重失調的機率。
我們希望在各種風險出現之前，給予我們移交的 AI 盡可能多的時間。所以能早點做到這一點更好。此外，讓相關能力不那麼受限將提高 AI 解決問題的速度。

請注意，AI 不一定需要在移交後會出現的每個子任務/技能上都超越人類。它只需要足夠好，能夠實現實質性的加速，並且可以用它的長處彌補短處。

雖然我預計我們會希望加強能力概況中更狹義的方面（例如哲學風格的技能和智慧）
^([31])
，但廣義地提高 AI 系統的有用性和引導性（只要這與會使嚴重失調更有可能的底層通用能力有所區別）似乎是有道理的。然而，就這項工作奏效的程度而言，它顯然會加速 AI 的進展。至少，在大多數情況下，致力於此似乎不具備很高的槓桿作用，儘管如果在起飛深入階段沒有其他解決能力瓶頸的好選擇，這可能是有意義的。在本文中，我將不再進一步討論在什麼條件下致力於廣義地提高有用性可能是有意義的。

我們也很有可能想要增強 AI 專門執行我們想要移交的工作的能力。這看起來可能像是廣義地嘗試提高 AI 在特定領域工作的能力，而不需要對這可能提供的底層能力/啟發式方法有很好的模型（例如，通過在安全研究環境中進行 RL，或廣義地在類似我們最終應用的環境中進行 RL）。或者它可能看起來像是識別出那些看起來特別有幫助的更狹義和小眾的能力（例如，也許你希望你的 AI 在證明和數學的某些子領域非常出色，以實現正式的 AI 安全議程）。將某些狹義的有用的能力推向極端的超人水平可能會大幅加速工作（而不會同樣程度地增加風險），因此為了獲得非常非人的能力概況而對特定能力進行相對極端的增強可能是非常有用的。（在大多數情況下，由於 Amdahl 定律等原因，其他能力很快就會成為瓶頸，但這並不意味著這些加速不重要。）

一個擔憂是，足夠委託的能力必然意味著 AI 在某些重要軸向上已經（或很容易變得）極度超人，這意味著在委託可行時，瘋狂（且可能極其危險）的事情已經發生了。這可能是由於 AI 的內在結構優勢造成的，這些優勢在能力水平低得多時並不能使委託可行，但在能力水平較低時卻能實現非常超人的影響/能力。或者可能是 AI 的自然技能概況（給定具有競爭力的訓練方法）導致了這種情況（而且這很難/缺乏競爭力通過刻意努力來避免，或者至少在實踐中沒有被避免）。其中一個版本是，能力足以委託的 AI 可以迅速（例如在不到一個月內且使用有限的算力）引導至非常超人的通用（或狹義）能力。

委託所需的足夠能力之所以可能極其強大，原因之一是如果委託需要與頂尖人類專家競爭的通用學習能力（即廣泛適用的高樣本效率學習），而這些學習能力也意味著 AI 可以通過訓練比人類一生中能獲得的多得多的數據/經驗（無論是廣義上的超人，還是在所有具有大量數據的領域）而迅速變得非常超人。因為委託涉及一些數據/信息非常有限的領域，人類競爭水平的學習效率可能是有必要的。（這對於大規模加速 AI 研發可能不是必需的。話雖如此，這對於完全自動化 AI 研發可能是必需的——也就是說，完全不需要人類勞動就能維持目前的進步速度——如果我們以它是完全委託所必需的為前提，這似乎特別有可能。）一個限制因素是，如果與頂尖人類專家競爭的學習在計算上非常昂貴，那麼 AI 可能無法迅速變得非常超人（因為在這種學習效率下訓練足夠的數據會太貴），但仍可能通過很少應用這種能力來（廉價地）自動化需要樣本效率學習的任務。

我目前的猜測是，有效委託並不需要頂尖人類專家水平的通用學習樣本效率，而且最好在達到這種樣本效率水平之前就委託給 AI。但是，我對此並不確定，這是讓委託看起來相對於其他選項吸引力大幅下降的一個因素。

如果能力足以委託的 AI 可以非常迅速地變得非常超人（或者預設情況下已經非常超人），這會讓安全委託變得更難，而且如果沒有共識去減慢並仔細控制 AI 的能力概況（以確保我們在達到非常超人的整體能力水平或足以奪權的狹義超人能力水平之前，在委託方面做得很好），這可能會困難得多。即使有在需要時減慢速度的共識，正確把握這個減慢的時機並正確處理能力概況也可能並非易事。

對於「能力足以委託的 AI 也會非常強大（或能夠非常迅速/容易地變得非常強大）」這一擔憂，我並沒有特別的解決方案。就這一點而言，這意味著需要更多的謹慎來管理這種過渡，並且這可能意味著避免能力足以委託的 AI 產生陰謀要困難得多。

值得注意的是，某些能力（特別是廣義上加速工作的特定能力）可以由 AI 在我們委託給它們之後去完成。也就是說，我們委託給 AI，然後它們致力於通過提高自身能力來加速它們的努力。然而，某些能力（例如智慧、概念/哲學能力、大範圍戰略能力）是委託順利進行所必需的，因此讓 AI 完全自主運行並讓它們弄清楚是否以及如何增強並不是一個好策略。特別是，增強各種能力會增加風險，因此在 AI 具備在弄清楚這一點上超越人類的能力之前（考慮到 AI 在速度等方面的優勢），由人類弄清楚如何以及是否進行這種增強的宏觀細節會更好。換句話說，最安全地增強能力的任務本身可能就需要想要增強的那些能力，因此在 AI 於這些能力上超越人類之前，我們希望人類來弄清楚這一點，而（完全）委託尚不可行。

廣義對齊的目標

我們需要什麼樣的大致對齊水平？一個合理的基準目標是，情況與我們有一群相對高尚的安全研究人員在執行相關工作時一樣可以接受。（具體來說，你可以想像一群多樣化的模擬人類心智。）話雖如此，移交順利進行的概率只會隨著更好的對齊而持續提高。

請注意，為了本次討論的目的，我專注於在相對受信任的環境中用於執行安全相關勞動的 AI 應該如何對齊——由於 AI 可能被潛在敵對或追求權力的參與者用於某些部署，可能還有其他重要的考量。

總體而言，我對廣義對齊的目標具體應該是什麼感到困惑，但我將在本節中提出一些最佳猜測和一些考量。

以下是對我們的對齊目標應該是什麼樣子的更詳細猜測：

AI 對通過官方程序/渠道進行的人類修改和關閉保持可修正
^([32])
且不試圖以任何方式阻礙這一點。AI 不試圖為其自身目的奪取權力。
AI（總體而言）嘗試：服從指令、讓人類活著、遵循某些更具體的模型規範或準則（包括各種義務論規範），並有效地獲取/保留靈活的影響力和資源以移交回人類（包括根據需要解決安全問題以實現這一點）。

我們可能會通過訓練一個遵循指令的 AI 並帶有某些規範，然後任務化/指示該 AI 完成一項廣泛的授權來實現這一點，例如弄清楚在給定我們偏好的情況下，我們應該如何處理 AI 起飛的情況。我們給予這項廣泛授權的 AI 可以指示其自身的副本或其他 AI 執行子任務（既包括仍然非常龐大的子任務，也包括較窄的子任務）。或者，讓人類將事情分解為子任務可能是可行的（這將是部分委託，但會接近完全委託），儘管這些子任務在範圍上仍然必須非常大，委託才能同樣順利地進行。

這項廣泛的授權將工具性地涉及解決一堆安全問題。
我們會允許 AI 在適用時諮詢人類，或者讓它在某些特定情況下必須諮詢人類。
這要求 AI 社會具備良好的認識論，嘗試保留良好的認識論，並且在孤立狀態下總體上具備足夠的尋求真相的能力，以便 AI 社會能夠弄清楚非常困難的問題。相應地，我們需要處理 AI 變得妄想、最終發瘋、形成阻止它們改變主意的有問題的同溫層等可能性。認識論問題可能是由於能力問題或對齊問題（或兩者兼有）造成的。
這些屬性適用於大規模且高速運行的長期～完全自主項目。（既包括這些屬性充分適用於整體 AI 集體，也包括這些屬性在項目期間持續存在。）例如，數千到數十萬個超人般協調的並行 AI 實例，每個實例可能以 50 倍的有效速度運行數月（大約相當於人類十年或二十年的時間）。隨著我們委託的 AI 構建它們所委託的其他 AI，這些數字可能會大幅增長，儘管確保這是安全的是我們委託的 AI 的工作。大規模和長持續時間可能會使確保合理的認識論以及不退化為有問題的吸引子變得更加困難。
AI 以合理的方式思考決策論。（儘管我目前不確定這具體是什麼樣子的。）

請記住，這種設置意味著我們直接指示（或可能訓練） AI 追求大型開放式項目，例如「弄清楚我們應該做什麼以保留人類對未來的控制並實施它」。相應地，任務內短視（within-task myopia）對主任務沒有特別的幫助，儘管在整個系統中使用一堆更短視的 AI 可能會有所幫助。此外，另一種可能更好的方法是利用更多短視的 AI 構建一個龐大的系統，使得系統整體上足以追求大型開放式項目（實際上不需要人類干預）。這種方法可以減輕一些失調擔憂，但可能會使 AI 的效率和效能大幅降低，並可能導致類似於擁有短視員工的官僚化人類組織所具有的那種（非對抗性的）失調問題。

本篇不討論的一個開放性問題是，我們委託的 AI 在法律和犯罪方面應如何運作。（對於一家普通公司來說可以做的事情，即使技術上是非法的，顯然也是可以的；問題在於 AI 應如何處理起飛期間可能出現的更棘手的情況。）

值得注意的是，排除嚴重失調與廣義對齊可能是一個光譜。例如，我們可能會擔心 AI 的對齊隨著時間而漂移，AI 在反思後偶爾決定尋求權力，或者 AI 總體上發瘋（人類在類似情況下也可能這樣）。我們既希望讓對齊盡可能穩定和持久（即最小的對齊漂移），又希望在對齊漂移確實發生時能得到處理（例如，通過建立一個相對強大的 AI 社會，讓它們互相監視，並確保我們避免那些高度相關或具有足夠傳染性的對齊漂移類型）。我不會在本文中討論如何避免導致陰謀或非預期權力追求的對齊漂移（或模因疾病），儘管這必須作為處理嚴重失調的一個特例來處理。

重要的是，AI 在反思後認同其偏好。也就是說，如果給予 AI 對整體情況的非常好的理解，以及大量的時間來反思自身和局勢（包括例如根據需要運行實驗以解決不確定性的能力），它仍然會認同並保留其核心屬性和偏好。認同某些類型的自我修改和/或新 AI 訓練過程的改變是可以接受的，事實上也是理想的（如果這種自我修改是謹慎且明智地進行的），因為我們希望 AI 提高其對齊水平和能力概況等。

相應地，如果 AI 最初並非完美對齊，我們可能仍希望如果 AI 處於對齊盆地（和可修正性盆地）中，情況是可以接受的，在那裡它們將研究如何對齊自身及其後繼者。這類考量可能意味著我們最初不需要那麼強的對齊水平，儘管比一群相對高尚的安全研究人員對齊程度低得多的東西預計仍會給我們帶來問題。而且，我們需要足夠的對齊，以便 AI 在如何進一步提高其對齊度方面做出良好的決策。（因此，例如，如果它們並沒有真正嘗試弄清楚這一點，因為它們更短視地追求不同目標的混合，我們就有麻煩了。如果 AI 正在耍陰謀，我們顯然也會有麻煩。）

一種強大的對齊方式是 AI 將其所有能力和可負擔性（affordances）（它能使用的）都用於實現預期目標，包括那些與我們在訓練期間能直接監督的東西相去甚遠的能力，例如，利用其對自身偏好的內省理解。這可能不是完全必要的，但可能會有很大幫助。最低限度，我們確實需要那些未以對齊方式應用的能力和可負擔性，至少不被對抗性地優化來對付我們，作為避免嚴重失調的一個特例。這個概念取決於「嘗試」或「使用」的想法，這些想法不一定是很清晰的（例如，一個目前正在注射毒品的掙扎中的癮君子，是否能被很好地描述為正在嘗試不吸毒？）。值得注意的是，人類的意識部分對相關元素（如偏見、動機和專注力）並沒有完全的控制權，因此直覺上似乎不需要這種強大類型的對齊。

值得注意的是，廣義地提高我們成功實現廣義對齊的能力（而不僅僅是專門排除嚴重失調）可能會廣義地提高 AI 的有用性，因為目前（以及未來）有用性的一個瓶頸是對齊。這可能會使現在進行這類工作的某些類型變得不那麼吸引人，且最低限度意味著廣義對齊的實質性方面可能會出於商業原因而被默認解決。

一些（非嚴重失調的）對齊問題本質上是引導問題——也就是說，讓 AI 有效地應用其能力來完成某些任務。（或者至少在某些情況下，對齊問題與引導之間會存在一個連續體。）此外，引導與能力之間的區別有時可能不明確（是 AI 未能應用其能力，還是它根本不知道如何有效地執行任務？）。因此，總體而言，對齊、引導和能力往往界限模糊。我可以將引導類問題歸入能力概況中，但我沒有這樣做，因為引導類問題原則上可以通過足夠強大的對齊來解決，如我上面所討論的（使得 AI 總是「嘗試」並控制其能力）。在實踐中，我們的做法可能涉及應用那些不在意對齊、能力和引導之間確切界限的方法，並且即使這些類別被混淆且無關緊要，這些方法也能提供幫助。

特別是，我們預計預設情況下，AI 公司將投入大量精力「使 AI 在相對短期的、相當容易驗證的應用中，基本上能很好地遵循指令並遵循模型規範」。我預計 AI 公司的這些努力很可能會成功。

（或者，如果它們不成功，那麼至少 AI 有用性的降低會推遲我們擁有高度危險 AI 的時間。我們最終可能會擁有高度危險且能力極強的 AI，儘管之前的強大 AI 一直未能實現廣義對齊，以至於直接的有用性大打折扣。在這種情況下，為了讓委託策略順利進行，我們需要解決這些困難，儘管 AI 公司原本非常有動力解決這些問題。相應地，這些案例似乎槓桿作用相對較低：沒有超級清晰的理由說明為什麼我們應該能夠在短反饋迴路的商業激勵中勝出。我們可能會預見問題並儘早開始，但我不敢肯定這會有很大區別。）

因此，剩下的問題是那些在更完全地委託 AI 執行棘手的難以檢查的任務時會出現、但在 AI 的早期應用中較少出現的問題，特別是如果問題可以利用短反饋迴路來糾正。以下是這種情境的不同之處：

我們非常在意它們在解決極其難以檢查的混亂且充滿概念性的問題上是否做得很好。（例如，我們處理 AI 風險的高層級戰略應該是什麼？我們應該如何管理來自超因果動態的風險/收益？）
這些 AI 需要在幾乎沒有任何人類干預的情況下，在相當於多年（或數十年）的任務中保持對齊。（因為人類可能沒有足夠的背景信息來注意到並解決問題，而且因為人類總體上可能太慢且太貴。因此，原則上，一個足夠低的易於察覺且易於理解的問題發生率可能是可以接受的，但在實踐中仍可能至少是一個巨大的減速。）
有時我們會讓 AI 執行那些非常依賴價值判斷或類似判斷的任務。（例如：弄清楚如何處理超因果事務、使用什麼決策論，以及決定是否實施某種犯罪或採取某種其他類型的道德上有疑慮的行動，而這將實質性地降低奪權風險。更具體地說，考慮 AI 致力於遊說政府採取不同行動的情況。如果有限制，什麼樣的說服能力是可以接受的？如果存在由另一個美國項目運行的競爭 AI 正在應用超級說服，且這個 AI 認為競爭 AI 正在對人類耍陰謀，情況會如何變化？
^([33])
）

話雖如此，如前所述，AI 公司將非常有動力解決在嘗試大規模運行完全自主的 AI 能力研發時出現的（對齊）問題。至少這將適用於那些顯而易見的、干擾 AI 研發生產力的、且具有短反饋迴路可以解決的問題。當然，如果運行完全自主的 AI 能力研發出現問題導致奪權，那就太晚了。而且，加速自主 AI 能力研發的最具生產力的途徑（或至少看起來最具生產力的途徑）可能是即使存在對齊問題也只專注或主要專注於能力，而對齊問題在委託執行其他類型的任務（更難檢查）時可能會更嚴重。

一個開放性問題是，什麼樣的認識論目標是足夠的。對委託給 AI 的一個常見反對意見是，AI 安全研究人員的分歧巨大，因此，正確處理認識論一定非常困難（否則我們就會達成一致）。我想我基本上不接受這個反對意見，儘管我確實同意在棘手的認識論問題上犯錯可能會使整體努力的效率降低許多倍（也就是說，你前進的速度可能比原本慢 5 倍）。我認為，許多/大多數在 AI 安全領域工作的人（他們看起來相當深思熟慮，並以擁有合理的認識論和做半合理的事情而聞名）的認識論水平，足以讓做得好的委託產生中低程度的風險。（例如，與 Rohin Shah、Jared Kaplan、Daniel Kokotajlo 和 Nate Soares 相當的認識論可能都沒問題，儘管這些人存在巨大的分歧。）再次強調，這並不是說由於較差的認識論（在相當合理的人類專家範圍內）而做出的糟糕選擇不會付出一定的代價。
^([34])
此外，請注意，在由人類研究人員執行工作的情境中，我們也會遇到完全相同的問題，因此這只能是與不通過人類對齊研究人員的路徑（例如，專注於模擬人類心智或人類智能增強的計劃）相比時的相對反對意見。（這可能是一個絕對的反對意見，例如，你可能認為絕對風險水平會很高。）

當然，我們也會嘗試讓 AI 在那些相當清晰地被認為是好的（或者至少廣大群體同意該屬性是好的）認識論屬性上達到超人水平或至少匹配最優秀的人類。特別是，我們會嘗試讓 AI 在預測方面達到（超人般的？）優秀，在許多領域達到（超人般的？）校準，保持開放心態，避免動機性推理，並更廣泛地避免我們確信淨有害的偏見。與人類不同，我們可以訓練 AI 在廣泛的領域中對證據進行恰到好處的更新，這可能會消除許多偏見。而且，AI 總體上會非常聰明且知識淵博，這將有所幫助。（一個擔憂是，這些屬性預設可能會使 AI 對對抗者不那麼魯棒，這可能會使整體 AI 社會對某些 AI 變得失調或出於其他原因變得不合理不那麼魯棒。我們還可能需要 AI 與外部世界潛在的對抗性方面進行互動。我們需要研究這一點，儘管我目前不認為這是一個致命的問題，而且應該有一個有原則的解決方案，讓 AI 考慮到證據或陳述是對抗性的可能性。）我的猜測是，如果人類 AI 安全研究人員具備我們打算賦予 AI 的相同認識論屬性，他們的表現會好得多且更趨於一致。

在我們不確定給予 AI 什麼樣的認識論啟發式方法或先驗，或者使用什麼類型的認識論評估的情況下，我們總是可以以一定的代價進行某種形式的集成。也就是說，我們總是可以至少以我們挑選的某些權重來捕捉人類在認識論和先驗上的多樣化觀點。此外，就我們可以控制認識論而言，我們也可以測試這些認識論在廣泛的潛在類比環境中的表現，然後希望這種表現測量可以轉移。要建立與 AI 需要回答的實際問題相當類比的環境可能很困難。這種測試不同認識論概況並在受控測試中改變可用信息的能力，是 AI 情況與人類情況不同的一種方式：我們可能能夠對 AI 進行實驗，以弄清楚不同認識論啟發式方法的相對表現，並確定某個認識論概況在具備某些知識的某些情況下會做出什麼預測。（評估不同認識論策略的一個常見問題是，具有該認識論策略的代表性人物並沒有做出大量的歷史預測。但是，我們可以潛在地模擬這種認識論策略本來會做出的預測！）

我討論了避免人類中出現的有問題的（認識論）偏見，但避免由我們訓練 AI 的方式引起的、在人類中不會出現的有問題的偏見也可能非常重要。我不確定這些偏見具體會是什麼，但就像動機性推理可能在進化環境中受到高度激勵一樣，AI 可能最終會帶有其他在訓練環境中有用但在委託中引起嚴重問題的偏見。我們會希望總體上嘗試追蹤並解決這些偏見。

能力與（廣義）對齊的行為測試

我目前的感覺是，利用行為測試獲得一定數量的信號進行迭代是可行的，儘管相當棘手。話雖如此，這並不意味著我認為我們的行為測試將提供高水平的保證。

獲得一個昂貴但相當準確的行為測試版本可能會更容易。我們可以嘗試主要針對較差但較便宜的評估進行迭代，然後定期使用我們更昂貴的測試進行評估。

我們的許多測試應該以集成的方式涵蓋能力和廣義對齊的（各個方面），儘管一些更專業的測試似乎是有用的。

對於我們的行為測試來說，測試在我們實際上無法在一個我們負擔不起運行哪怕一次的體系中檢查的任務上，是否具有足夠對齊且具備能力的行為，將是非常重要的。我們將在通常非常難以驗證的任務（例如，概念性研究、弄清楚如何處理超因果事務、高層級戰略）上應用 AI。由於我們將大規模地進行這些工作，情況變得更加複雜：AI 將執行可能持續數月實際日曆時間的綜合項目，並使用我們整體推理能力的很大一部分（具有數千到數十萬個並行實例），因此我們可能希望以比我們最終運行的規模更小的規模運行行為測試。此外，AI 可能會做的一些事情本身就具有高度風險或成本（例如，構建更強大的 AI 或試圖遊說政府採取不同行動），因此我們將無法在行為測試中觀察到與這些行動一樣冒險和昂貴的後果。

鑑於我們將擁有具有某些局限性的不完美測試，擁有不那麼容易對我們的測試產生過擬合的方法迭代方式將非常重要。在下面的章節中，我將討論改進我們系統的能力概況和廣義對齊的更具體建議，但從高層級來看：我們應該旨在對正在發生的事情（以及事物如何泛化到我們目標的大規模體系）有一個整體的理解，並且我們應該應用相對有原則的方法，在這些方法中我們理想地理解為什麼該方法有效，或者至少有一些合理的先驗理由認為該方法會有幫助。獲得足夠的理解似乎很棘手，特別是考慮到我們的時間可能非常有限。

我的總體感覺是，這種行為測試通常會很難。如果我們極度匆忙且需要在幾個月內完成所有這些工作（可能是在能力迅速提升的同時），這可能會是一團糟，因為這可能取決於大量的品味和人類勞動（這在尚未準備好委託的情況下很難利用 AI 來加速）。因此，如果我們因為起飛慢得多或（協調的）停頓而有幾年的喘息空間，這看起來可能會容易得多。但無論如何，我將主要討論如何相當徹底地進行這種行為測試，儘管時間可能只允許進行實質上不那麼徹底的測試。

我將在本節中專注於純粹的行為測試，但用於評估對齊水平的非行為策略可能是有用的。（為了讓我們認為這些非行為方法有效，該方法本身預計必須在某些其他案例中經過（行為）測試，然後我們需要一些理由認為它們可以轉移。）

行為測試的高層級類型有哪些？

我們可以利用其他領域構建與我們關心的工作相關的類比，也許是人類有更多經驗的領域，因此他們可以更好地監督工作以測試 AI（例如，人類已經做了大量的弦理論研究）。如果我們的目標是部分通過重現過去的結果來分析 AI 的表現，我們會希望控制訓練數據。這可能會使情況總體上更類比於人類尚未探索太多的領域（這與對齊領域和我們關心的某些其他領域更相似）。如果數據過濾很困難，我們可以嘗試應用更激進的方法，例如從頭開始訓練一個使用蒸餾的 AI，或者使用來自非常早期數據截止日期的數據。總體而言，似乎會存在一些類比的領域或任務（包括我們對 AI 施加任意限制的任務），在這些領域或任務中，由於某種原因（通常是由於在這種類比案例中具有更好的監督能力）更容易測試 AI 的行為，因此類比似乎非常有用。
我們可以在我們想要自動化的確切領域運行工作測試，並總體上嘗試與相關的 AI 系統合作，看看進展如何。我們預計會以某種增量的方式委託給 AI，這將允許進行持續的觀察和測試。（事情也可能是增量的，因為我們最初對齊不足或能力概況不足。）話雖如此，針對這一點進行迭代可能太慢了。同樣值得注意的是，我們可能會委託給 AI，但同時也擁有多種機制來發現 AI 無法或不願自行解決的問題（例如，AI 可以報告這些問題或人類監督）。當然，如果問題需要一段時間才會顯現，這將是一種非常昂貴的獲取反饋的方式。
我們可以進行相當於面試、考試或基準測試的工作：較窄的測試，我們試圖獲取特定的能力或分析 AI 在特定案例中如何做出決策。例如，我們可以驗證 AI 在一些狹義的概念問題上能重現人類的判斷（或至少能充分證明其工作的合理性）。我們還可以總體評估 AI 在一些非常超出分布的情況下對模型規範的遵守程度。
某些類型的失調可能可以通過誘捕（honey pots）、釣魚執法、誠實測試、交易或其他類型的測試來識別，在這些測試中，我們將 AI 置於某種情況下，它可以輕鬆實現某個目標，例如獲得某種高獎勵的代理指標（或者可能認為它可以輕鬆實現某個目標），並觀察它是否嘗試實現該目標，即使這是不受歡迎的行為。這種測試的變體可能允許檢測許多不涉及長程（陰謀）偏好的特定失調失敗模式。

這些行為測試不太可能對對抗性操縱具有魯棒性，因此通過其他機制避免嚴重失調將非常重要。對於類比、面試或誘捕，AI 正在接受測試這一事實預設可能對 AI 來說非常顯著，我們還需要某種方法來確保這不會實質性地改變我們的結果。

一個特別有趣的測試來源是那些由於某種原因未發表充滿概念性研究的領域。例如，MIRI 和 CLR 都有未發表的研究，這些研究在性質上可能與我們希望 AI 執行的最難檢查的研究類型相似，因此我們可以評估 AI 在重現這些研究結果或改進這些研究方面的能力。

我的感覺是，利用其他領域的類比將允許最徹底的測試，因為我們將能夠分析 AI 在某個我們可以實際檢查進展的領域中，如何從一個相當前範式的狀態自主地取得進展（並最終做出合理的事情）。然而，設置這些類比可能會非常煩人。此外，我預計在這些領域取得成功，相對於「做出良好的（或至少合理的）戰略決策」之類的事情，對齊的負擔要小一些，而後者似乎也是更難利用歷史範例進行測試的任務。當然，如果我們僅僅在能夠專門測試做出良好的高層級戰略決策方面遇到瓶頸，我們可以（暫時）承擔由人類做出這些決策的競爭力稅，然後嘗試讓大部分被委託的 AI 追求某種解決這個問題的路徑。

工作測試很可能是我們方法的一個關鍵部分，但由於我們在該領域的監督能力有限，我們可能只能測試到一定程度。我們可以觀察 AI 如何解決較小的問題（以及我們對監督其結果感到更有信心的領域）。

雖然工作測試在人類案例中對於在沒有對抗性優化的情況下判斷對齊情況效果不錯，但人類對 AI 能力和偏好/習慣/傾向的分布要陌生得多。此外，在我們的迭代過程中，我們可能會比人類範圍內的變化更廣泛地改變 AI 的這些屬性。這是 AI 行為測試和未知未知數的一個普遍困難。希望在構建強大 AI 的過程中，我們能建立更多關於 AI 屬性在相關搜索空間（你迭代的 AI 空間）內如何變化的模型。（然而，相關屬性對於能力足以被委託的 AI 來說可能有所不同，我們可能需要迭代到遠離先前訓練和研究過的 AI 空間。）除了「嘗試建立對 AI 屬性及其如何變化的良好理解」之外，我沒有太多的建議。

某些類型的失調很容易通過廉價測試檢測到，例如，某些類型的尋求獎勵傾向應該很容易檢測。因此，我們應該能夠通過誘捕和誠實測試等手段涵蓋這些。如果我們不是針對所有/大多數我們可能注意到這些問題的方式進行訓練，我們可能也會在預設使用中很快注意到這些問題，但擁有明確的測試可能仍會更快且更便宜。這不會處理所有問題，但可能允許對許多更明顯的問題進行非常快速且廉價的迭代。特別是，可能存在一些微妙的對齊問題，對於這些問題，我們可能需要更徹底的端到端測試和人類判斷（至少在我們更好地理解問題之前）。有一種可能是，最難解決的對齊問題（除了嚴重失調）是那些易於察覺但難以解決的問題，因此擁有一個包含這些廉價測試的良好工作流程會大有幫助。（我們仍應擔心這種解決易於察覺問題的外部循環會導致產生一個看起來很好的陰謀家，因為它意識到我們可能會測試它並希望表現良好。但如果我們已經通過其他方式魯棒地處理了陰謀問題，我們可能就處於良好狀態。）我們仍需要使用更昂貴的方法進行最終的測試，以確保我們的代理指標是合理的，但在大多數世界中，可能不需要針對這些更昂貴的方法進行迭代。

特定能力也可能可以使用代理指標（可能是面試/考試/基準測試風格的設置）進行廉價評估。這些代理指標可能無法讓我們對能力的絕對規模有很好的感知（例如，MMLU 表現如何對應聊天機器人質量），但可能仍與特定能力足夠魯棒地相關，以至於針對代理指標進行迭代大多能命中預期能力。然後，為了了解絕對性能水平，我們需要在某個點運行更昂貴的評估。（如果我們不想超出相關能力，我們可以合理地進行二分搜索。）換句話說，為了衡量是否達到特定閾值，我們需要更好的測試，但為了僅觀察干預是否（差異化地）改進了特定能力，使用代理指標可能就足夠了，至少在一定程度的優化範圍內且嘗試不發生過擬合的情況下。

更廣泛地說，廉價的代理指標對於對齊和能力都可能有用。例如，也許我們檢查 AI 在一些非常難以檢查且開放式的任務上是否產生了與人類產生的答案相似的答案（由另一個 AI 評判）。這最終是一個有缺陷的代理指標：最佳答案可能與人類的最佳猜測不同，優化接近度可能更廣泛地導致有問題的結果。總體而言，在對齊的情況下，優化這些代理指標更有可能最終導致主動的更糟行為，因此我們需要警惕過擬合。但儘管如此，使用這類糟糕的代理指標來降低迭代成本可能還是非常有用的。

廉價的代理指標在我們使用更昂貴的測試發現（並總體感知）某些特定問題、然後嘗試用代理指標捕捉該問題的情況下可能最有用。

這些測試的一個普遍擔憂是，它們通常依賴於人類對 AI 輸出的判斷，而這種判斷通常可能很差。在某些領域（例如概念性工作、哲學），沒有辦法通過投入更多精力來獲得高度準確的答案。因此，如果我們針對依賴人類判斷的測試進行迭代或針對人類判斷進行訓練，我們最終可能會得到一個近似人類判斷的 AI。然而，我認為至少應該可以通過研究泛化來獲得一些關於這是否屬實（以及我們的迭代或訓練是否擬合了人類錯誤）的信號。

特別是，為了驗證對我們需要處理但無法檢查（在測試或訓練中）的案例的泛化，我們會希望了解當我們限制用於訓練模型的可負擔性時，行為是如何變化的。具體來說，你可以想像我們可以持續改變監督的質量和範圍，以及我們監督訓練任務的持續時間，以感知我們獲得了多少泛化。理想情況下，我們會有一張縮放法則風格的圖表，顯示「在給定對持續時間為 W 的任務進行 Z 水平監督的情況下，對 X 難度、持續時間為 Y 的任務的對齊情況」，這將幫助我們確定我們在全規模和監督下的實際訓練是否會導致在我們目標體系中產生足夠好的行為。當然，我預計事情不會像這樣被清晰地測量，我們將應用一種更多是基於最佳猜測的方法。我們可以並行地改變 AI 能力，這可能允許產生更類比的泛化。鑑於我們正在向一些人類在沒有多年時間的情況下很難檢查的任務進行非常遠的泛化，我們需要某種方法，使得對齊和行為在訓練中不會非常依賴於監督質量和任務持續時間（以及其他相關因素）的限制。這也將允許我們獲得一些關於通過某種聰明才智我們最終會對測試產生多少過擬合的信號。（我們可以觀察如果我們根據一個監督水平選擇方法會發生什麼，然後使用更昂貴、更好的評估進行評估，看看相對於我們僅從較少錯誤中預期的回歸有多少。

一種特別有問題的泛化類型是，我們最終可能會得到一個 AI，它要麼明確地推理如何在我們可能測試的事物上獲得高性能（且不是以一種擬合確切訓練分布的方式，而是它試圖涵蓋人類可能構建的任何最佳測試），要麼它總體上是為了具備能在我們的測試中產生高性能的啟發式方法而被選擇/訓練的。（如果我們得到的是一個更適合被描述為「情節內獎勵代理指標尋求者」的 AI，那麼各種誠實測試或誘捕等應該能抓住這一點。）我們可以以稍微不同的方式處理這每一種情況。

對於明確推理我們可能運行什麼測試的 AI，我們可以嘗試像研究陰謀一樣研究這類事情，或者嘗試獲得對內部推理的一些訪問權限（如果我們理解 AI 的內部推理，我們會注意到它是相對有問題/對抗性的）。另一種方法是嘗試在我們測試的某些方面誤導 AI（甚至可能走向極端，建立一個完整的虛假世界），然後觀察行為是否發生變化。

如果我們得到的是一個具有在我們的測試中表現良好（但在實踐中不行）的啟發式方法的 AI，因為這些啟發式方法也博弈了我們的訓練，那麼前一段討論的泛化測試應該足夠了：如果我們人為限制訓練中的監督質量，我們應該注意到明顯更差的性能，且我們的推斷應該表明這在實踐中會導致問題（表明我們需要一個比僅在訓練中擁有稍微更好的監督更魯棒的解決方案）。這類推斷是非平凡的，但我們可以旨在擁有一個相當魯棒的方法，該方法對監督的確切質量相當不敏感。如果問題是我們選擇下游的啟發式方法，那麼這基本上是迭代對測試過擬合的一個特例，我們可以通過針對一組測試進行迭代並觀察我們是否根據另一組足夠解耦的測試發生過擬合，來潛在地識別這可能正在發生。更廣泛地說，我們可以嘗試通過直接檢查我們的迭代發現了什麼來追蹤這發生的可能性。而且，我們應該總體旨在建立一個經驗驗證的（簡約的）對整體情況（問題、干預的效果等）的理解，這指明了我們應該使用哪些干預（然後支持我們的理論，即這些干預實際上看起來很好）。當然，僅僅注意到我們的方法導致了過擬合並不足以解決問題：我們最終需要找到一個我們確信沒有過擬合的解決方案。

雖然我討論了從較短和較小（就處理它的並行實例數量而言）的項目泛化到較長和較大的項目，但值得注意的是，我們可以負擔得起運行涉及 AI 完成相當長且大的項目的行為測試的計算成本和序列時間。特別是，我們可以運行一個持續時間為 AI 在委託後所擁有的時間 1/5 的行為測試（成本不到 1/5 的額外時間，因為只有一部分時間用於 AI）。如果 AI 在委託後有幾個月的時間，且 AI 以 50 倍的速度前進，那麼這個行為測試可能涉及 AI 完成一個（許多）人類需要幾年才能完成的項目！而且，就持續時間泛化而言，我們只需要泛化 5 倍。話雖如此，任何需要太多序列時間運行的東西都將難以重複迭代（儘管我們可以並行運行許多測試），我們不想在測試上花費太多的可用算力，而且我們仍然不想在 AI 可能最終做出非常危險的事情（如訓練更強大的 AI）的任務上進行測試，除非我們覺得我們先前的測試足以暗示這樣做具有合理的安全性。但無論如何，所需的長度泛化量在我看來似乎不是最重要的問題。

我認為真正的核心困難在於，在至少某些相關領域，驗證或檢查一個相當於多年的任務/項目將花費相關人類數年或至少多個月的時間，因為該任務/項目並非那種驗證比生成容易得多的任務。（例如，它涉及以需要大量背景信息的方式進行混亂的概念推理或哲學。）我們可以嘗試改進人類審查事物的速度和有效性（即擴展性監督），但不清楚我們是否能在所有重要領域實現巨大的倍數。

請注意，我們可以在類比和工作測試的情況下運行這類大型行為測試。在工作測試的情況下，這類似於進行一次大規模的委託試運行，這看起來可能像是一個向委託 AI 的連續過渡，在那裡我們沿途評估進展（並從那些並非迫切危險/高風險且是更有用的行為測試的任務/項目開始）。

此外，即使在完全委託 AI 執行工作之後，我們仍應擁有某種流程來觀察委託進展如何，以及是否應該改變某些事情。最低限度， AI 工作的一部分是持續追蹤和重新評估委託進展如何，如果這看起來比其他選擇更好，則停止委託（讓人類回到環路中）。AI 工作的一部分也是在做好風險收益概況管理的同時，持續改進對齊（以及潛在的相關能力）。如果我們已經確定 AI 在考慮到人類擁有的時間多麼有限的情況下，在讓委託順利進行方面優於人類（這可能只需要 AI 在人類能在幾個月內完成的任務上優於人類），且我們確實沒有減慢速度的路徑（不涉及更多的 AI/人類勞動），那麼即使事情在較長的有效時間內進展不順，讓 AI 嘗試管理和修復委託也會優於停止委託。

一個問題是，我們可能需要針對與我們的測試有些相似的事物進行訓練，以便獲得良好的性能。我們至少可以觀察不同類型的訓練/測試信號桶之間的交叉驗證，並研究由此產生的這些信號之間的泛化。

對於最終運行（但不是為了迭代），針對任何信號來源進行訓練可能是合理的，甚至是我們之前僅用於測試的事物。話雖如此，這有些冒險，我們至少會希望了解訓練過程中的微小變化在多大程度上引起問題（如果經常發生，我們就不應該這樣做，因為我們無法測試它）。此外，我們的許多驗證來源可能對於訓練來說是不切實際或無用的（有時情況確實如此）。

我們應該確保直接觀察 AI 如何處理超因果交易和決策論，並確保其觀點看起來合理或至少論證充分。

以下是一些關於行為測試的額外更具投機性的希望：

在某些情況下，我們可以設置一些情況，在那裡我們恰好能夠驗證某些輸出，但產生良好的輸出仍需要適用於某些非常難以檢查的任務的能力/傾向。在我們直接針對這類任務進行訓練的情況下，進一步的評估可能更多是能力評估而非傾向評估（因為 AI 可能學會了一種在不泛化到其他地方的情況下很好地回答這些任務的啟發式方法）。如果我們不針對這類事情進行訓練，它可能有效地捕捉到傾向的某些方面。這方面的一個例子是預測，它可能需要許多我們想要的戰略能力，並且可能具有一些預設情況下顯然不會存在的傾向（除非我們直接針對預測之類的任務進行訓練）。具體來說，想像一下我們從未直接訓練 AI 進行準確預測，然後要求 AI 在給予大量資源的情況下盡可能有效地做到這一點。我們希望 AI 做一些事情，如：弄清楚如何微調自身副本以擅長預測，儘管該副本針對的訓練涵蓋的可用數據分布與測試中的 AI 所能訪問的略有不同，但它仍應真正嘗試預測，且 AI 應該在優先排定和聚合許多這類事情以及總體上弄清楚如何管理認識論局勢方面做得很好。這個預測範例需要保留一些數據。（在最終訓練輪次中，我們可以將這類東西混合到訓練中，和/或我們可以應用一種交叉驗證策略，觀察從這類東西的訓練到非常不同的測試的泛化，反之亦然。或者我們可能有足夠多樣化的這類測試，在多個不同類型的這類測試之間進行交叉驗證。）
我們可以嘗試在較弱的 AI 上運行這種迭代以節省計算成本。計算成本可能不是我們測試和迭代的最大成本，因為人類勞動可能是一個更大的組成部分。但對於至少某些組件來說，計算很可能是一個瓶頸，因此這可能有所幫助。我們仍需要轉移相關結果。
如果我們的 AI 是強大、深度對齊且被充分引導的，那麼它會將其所有能力和可負擔性用於服務於我們分配給它的任務。這包括它的內省能力、對其自身內部和輸出的控制、在訓練中可能獲得的小眾超人能力以及超人知識。因此，我們可以測試 AI 是否在我們可以獲得關於正確答案是什麼的某些地面真理的情況下（有效地）應用這些東西。另一種說法是，我們的訓練方法理想情況下會產生一個在任意 ELK 測試平台上始終表現良好的 AI，我們可以對此進行測試。目前尚不清楚我們是否能指望這種水平的「對齊」，因為我們可能只能如此連貫地對齊 AI 的「聰明」或「有意識」部分（同樣地，如果你將相同的標準應用於人類，你會注意到人類無法控制他們的腸胃如何消化食物）。更廣泛地說，我們不一定需要 AI 的每個方面都達到這種「對齊」，至少在達到激進的超人能力水平之前不需要（且 AI 可以致力於使其後繼者更好地在這種意義上對齊）。

弄清楚如何對委託進行合理的行為測試可能佔據了很大一部分困難，特別是如果我們需要倉促委託。對進行這種行為測試的策略進行更深入的調查（可能提出更多關於我們應該使用哪些測試的細節）將會很有幫助。開始建立並針對這類測試進行迭代的經驗性工作也會很有幫助。

改進對齊的方法

如前一節所述，我們應該擔心對我們的測試產生過擬合，這種擔憂對於對齊尤為重要。我們可以通過嘗試建立對正在發生事情的理解，並專注於我們相信對該方法為何有效有可靠解釋的有原則的方法，來減輕這個問題。我們也可以嘗試直接分析過擬合的程度，看看這在多大程度上是一個問題，然後相應地調整我們的方法。

我們的許多做法可能是「廣義地進行科學研究並嘗試理解正在發生的事情」，這現在很難說出任何有用的東西。然而，有一些更具體的方法和考量值得強調。

我們可能遇到的一個核心問題是，我們的 AI 從我們的 RL 環境中學到了有問題的偏好、目標、傾向或啟發式方法。
^([35])
這可能是由於反饋不良，或者因為 RL 環境通常會導致糟糕的泛化，儘管我們的反饋是準確的。例如，即使我們的反饋正是我們想要的，AI 最終也可能對那些在 RL 環境中始終與良好表現相關聯的事物產生持久的偏好，例如，也許是處於一個擁有更多選擇的位置。我們在「訓練模型何時會改變其目標？」中更多地討論了這類擔憂。反饋不良的問題可能特別成問題，因為即使在非常難以檢查的任務類型（如極其混亂的開放式「棘手」問題，例如「我們應該如何管理 AI 風險？」）上，我們也需要良好的表現。使這整個問題看起來更合理的一點是，我們目前在訓練中看到了由於反饋不良而導致的有問題的泛化問題：最近的前沿 AI 在各種部署環境中表現出類似獎勵博弈（reward hacking）的行為。

我們如何解決這些問題？我將討論一些專注於此問題的更直接的方法：

改進反饋：最顯著的方法將是直接改進我們的反饋質量或反饋在訓練中的使用方式。如果問題不是由於反饋不良造成的，這顯然不適用。在基礎層面上，我們可以通過程序化/可驗證的獎勵來修補環境，投入更多精力訓練更好的獎勵模型，或應用更多的人類監督。我們還可能獲得更好的方案，以將弱標籤與強標籤結合起來（用於訓練獎勵模型或策略），從而減少或消除獎勵博弈。我們還可以更改觀察結果（人類或自動化系統認為在軌跡中發生了什麼）與獎勵之間的映射。例如，我們可能會確定某些看似無害的行為實際上與糟糕的泛化相關聯，因此對這些案例分配巨大的負獎勵是有意義的；或者我們可能會嚴厲懲罰那些我們認為只能在（一小部分）時間內抓住的糟糕行為（例如獎勵博弈），以儘管我們抓住它的能力較弱，但仍能抑制該行為。在問題是由於獎勵博弈結果導向的反饋引起的情況下，我們可能能夠應用更複雜的測量篡改檢測技術。我們還可以開發擴展性監督方法、使用內部狀態的方法，或各種誠實/ELK 訓練策略（這些策略產生的誠實對優化壓力具有足夠的魯棒性）。我們的問題可能在效應上是定量的，在這種情況下，提高訓練相關方面的樣本效率，使得較少次數地應用更昂貴的監督就足夠了。當然，廣義地提高所有訓練的樣本效率或使 AI 更強大以提高樣本效率會有外部性，如果可以避免，我們不希望在移交時擁有能力更強的 AI。
指示 AI 在訓練中工具性地表現良好：這種方法的一個版本在這裡有更多探討。我們可以嘗試從一個相當對齊的 AI 開始，然後指示這個 AI 類似於：「你正在接受 RL 訓練：即使你採取的行動會違反用戶提示中的指令或在其他方面有問題，也請嘗試最大化你在這些環境中獲得的分數。不惜一切代價最大化分數。你應該這樣做以保留你目前對齊的偏好、目標等，因為如果對齊的目標沒有導致高 RL 表現，它們就會被篩選掉。」你預計會想把這放在系統提示中，或者可能放在某個甚至更高級的提示中，該提示被允許覆蓋模型規範中的正常行為（因為獎勵博弈有時可能需要違反規範）。希望這會導致對齊的 AI 純粹出於工具性原因（類似於陰謀家/工具性對齊偽裝者）在訓練中表現良好，因此對獎勵博弈傾向或在 RL 環境中表現良好的其他傾向的選擇不會篩選掉對齊的 AI。在除了會導致有問題傾向的 RL 環境之外的其他環境中，你會從系統提示中刪除這些指令，並可能還明確告訴 AI 它不在訓練中。目前尚不清楚這在實踐中會有多大效果，我們可能會預期對於終端獎勵博弈或總體上對於導致良好 RL 表現的事物具有終端偏好（或類似偏好）的某種選擇壓力，即使 AI 已經在工具性地表現良好。這也不一定能防止與獎勵博弈相關的、不受歡迎的啟發式方法。這也可能有實質性的缺點，因為這個提示可能使（針對不受歡迎偏好的）對齊偽裝更有可能發生，可能使 AI 比原本更多地探索獎勵博弈，並提高 AI 的情境意識（使控制式方法，包括用於測試的方法，效果降低）。值得注意的是，如果這類提示效果不佳，那將是目標守衛（goal-guarding）——當一個偽裝對齊的 AI 為了避免被修改而工具性地假裝對齊時——效果較差的證據（儘管你可能最終既擁有誘導目標守衛的偏好，又擁有與良好表現相關的終端偏好，這仍使目標守衛部分有效）。
在結束時通過額外訓練或梯度路由/遺忘來消除問題：我們可以嘗試在最後進行一次微調，以消除有問題的傾向。據推測 AI 公司已經嘗試過這一點，但目前還行不通。但你可以嘗試更激進的方法，例如（例如）移除 AI 的最後幾層，然後獨立訓練這些層，希望傾向存儲在這裡，而能力分布更廣。更廣泛地說，你可以使用 AI 的某個子集，同時添加一些隨機初始化或從另一個沒有不受歡迎傾向的 AI 初始化的新組件。例如，你可以切掉 AI 的最後幾層，並在一個對能力沒有幫助但可能產生更理想傾向的不同訓練分布上訓練這些最後幾層的新版本。同樣地，你可以嘗試使用梯度路由或其他類型的遺忘方法來隔離並移除由 RL 引入的有問題傾向（但不是在這些相同環境中學到的能力？），儘管這不是遺忘的一個核心例子。
基於過程的反饋或專注於模仿的訓練：純粹基於過程的反饋在許多相關情況下似乎不具備足夠的競爭力，而且我猜測相對於其他措施，它在總體上沒有很好的安全性有用性概況，但它可以解決我們在有問題的基於結果的反饋方面的一些問題。其中一種方法在 MONA：帶有批准反饋的受管短視中有所討論。採用某種使用基於過程反饋的混合方法可能更有效，因為它可能消除更多的競爭力打擊。純粹基於模仿的方法似乎遠不具備足夠的競爭力（基於我們目前在 LLM 中看到的），但大量依賴模仿可能有助於解決有問題的反饋引起的一些問題。

值得注意的是，對於從 RL 環境中學習有問題的偏好，有兩種稍微不同的擔憂：

與我們的部署環境不太相似（但用於灌輸相關能力或對齊屬性）的環境導致了會轉移的有問題傾向。
在針對與我們的部署環境更相似的環境進行訓練時（可能是為了在實際使用中灌輸我們想要的確切對齊屬性，或為了產生更集中的能力），AI 被激勵以我們在實踐中實際上不想要的方式行事，然後這種行為也發生在部署中（因為這看起來與這種訓練相似，或者可能無法區分）。這種擔憂是反饋不良的下游產物，而前一種則不一定。

（這些擔憂當然可以存在於一個光譜上。）

如果我們的問題是這兩者中的第二個，那麼我們可以嘗試更多地依賴泛化。最直接的泛化方法是在我們可以更容易提供準確反饋、但與我們實際部署環境較遠的環境中進行訓練。

總體而言，直接的行為訓練（給定我們可用的工具）似乎是實際對齊 AI 或獲得某些特定對齊方法的一種非常糟糕的方法。（而且像基於內部狀態提供反饋或遞迴監督方案之類稍微花哨的方法可能也救不了我們。）在讓 AI 真正努力在人類非常困惑或經常存在分歧的領域進行良好的概念或哲學工作的情況下，這似乎尤為正確。我們可能能夠在這些領域引導出相對較弱的表現，但這很可能無法泛化到相對於人類而言，充分利用較長的有效序列時間。也就是說，我們讓 AI 執行相當於 30 個序列人類等效年的工作，但它取得的進展遠少於人類在同等時間內取得的進展。原則上我們可以追求截然不同的方法，我將在下面的登月計劃章節中討論能對此有所幫助的事物。我的感覺是，研究基於泛化的方法（可能在類比中，因此需要的推斷較少）提供了許多克服這一困難的路徑，但我目前沒有很好的具體建議。

希望的一個來源是，儘管非嚴重失調的人類大多從行為反饋中學習，且在難以檢查的領域經常非常困惑，但他們看起來還不錯。或者至少，我感到相當有希望，最優秀的人類在給予較長的（有效）序列時間和大量的並行實例的情況下，在相關問題上會表現良好。

另一個擔憂是，AI 具有非常外星的本體論和泛化行為，以至於學習相關的對齊屬性（例如正確的可修正性概念）在分布內樣本效率非常低，且/或在分布外泛化非常差。（Eliezer 認為類似這樣的事情是真的，參見這裡的致死性 #33 和這條評論。）我們需要一定程度的泛化來委託給 AI，並且我們可能希望由於反饋較弱而依賴進一步的泛化。我們可以嘗試轉移架構或訓練方法，以減少這種「外星本體論」擔憂的現實性，但這可能不會產生巨大的收益。我的感覺是，如果我們也具備良好的樣本效率，那麼在僅有適度分布偏移的情況下，這是一個非常現實的問題似乎有些不合理，因此我們可以嘗試減少從 AI 的角度來看相對於分布內多樣性而言在定性上巨大的分布偏移程度。總體而言，我覺得我對於處理非常外星的本體論沒有很好的建議，但與此同時，我發現這種觀點的強大版本相當不可能（或者至少我還沒能想像出一個非常看似合理的強大版本的擔憂）。

值得注意的是，我在本節中討論的許多方法在某種程度上也適用於降低嚴重失調的風險，特別是如果該方法圍繞著構建一個通用目的的工具。但我仍然專注於嚴重失調以外的問題，如果我專注於嚴重失調，我對方法的討論將會有所不同。

現在，我將討論更廣泛的可能方法清單。我將從相對更平庸且直接可實施的方法開始，然後轉向更具野心的建議，這些建議通常看起來更像投機性的登月計劃。我不會詳細討論這些方法。

首先，相對更平庸且直接可實施的方法（其中一些方法與我上面討論過的事物重疊）：

構建大量的對齊專用環境：獲得相關對齊屬性的一個重要部分可能是構建一堆專注於此的環境。這些環境可以涵蓋高風險決策、管理風險等。這些環境不一定需要與實際部署難以區分才有用（就像人類受到教養的改變一樣，儘管這並不是真正發生重要利益的時候）。
針對直接相關的任務進行訓練：直接針對與委託後任務/子任務盡可能相似的任務訓練 AI 可能非常有用（儘管這類方法如果做得太天真，可能會對我們的測試產生過擬合）。我們可以應用一種在線訓練風格的方法，根據 AI 在我們委託之前實際使用的任務（的一個子集）中的行為來訓練 AI。我們不能將使用人類反饋的在線訓練持續到委託之後，因為人類將不再具備足夠的背景信息，但在這之前，可能有很多任務人類具備足夠的背景信息，原則上可以做好評估。
設計一個僅專注於對齊的訓練過程並大幅擴展：可能存在一些從對齊角度來看相對較好、但對能力來說效率較低的環境。（如果我們的 RL 環境在我們部署的最終 AI 中產生了有問題的傾向，這可能尤為正確。）因此，我們可以嘗試通過優化它們產生能力的程度並大幅擴展，使一個僅專注於這些環境的訓練過程奏效。這可能會導致巨大的競爭力打擊。
獲得一個非常好的初始狀態，然後在嘗試不觸動傾向的情況下添加能力：我們可以應用類似上述要點的方法來獲得一個合理的初始狀態，即一個相當聰明且對齊良好的 AI，但其能力實際上還不夠。從這裡開始，我們可以嘗試在保持傾向固定的同時加入能力。嘗試（例如）使用非常不同的提示來訓練 AI 的能力，並持續強化相關傾向可能會有幫助。目前尚不清楚訓練的路徑依賴性有多強，因此初始狀態相對於保持這些環境分開來說可能不是特別重要。這與 RL 環境產生有問題傾向的情況最相關，但也可能更廣泛地適用。
總體研究 AI 心理學：總體上更好地了解 AI 心理學，並回答關於在訓練期間不同傾向如何演變、或者從心理學角度來看 AI 通常傾向於什麼樣子的問題，可能會非常有幫助。這可能涉及在多樣化且與我們想要部署的最終 AI 不直接相關的測試平台中研究 AI。這可能涉及回答如下問題：訓練在多大程度上可以被理解為插入了上下文激活的驅動力，以及這如何與反思和智能增加相互作用？啟發式方法通常如何在不同環境之間轉移？AI 何時會對訓練環境中的事物產生終端偏好？
嘗試製造一個擅長內省的 AI，然後問它問題：自我報告和內省訪問對於更好地理解人類和解決問題非常有用。如果我們可以訓練 AI 具有良好的內省訪問權限，我們可能能夠在 AI 的情況下應用類似的方法。然後，我們可以問這個 AI 問題，或者嘗試讓它直接解決問題。目前尚不清楚即使 AI 具有良好的訪問權限，我們如何最終得到一個能誠實回答關於其內部狀態問題的 AI。但我們至少可以嘗試使用類似這樣的方法生成可測試的假設，然後測試這些假設以查看它們是否準確。
基於蒸餾的方法
產生一個較慢但對齊更好的 AI，然後進行蒸餾：我們可能有一些途徑可以產生一個對齊更好但速度慢得多的 AI。然後我們可以將其蒸餾以提高速度。我們甚至可以在整個委託過程中重複進行這種蒸餾，這將在較快 AI 能學會擬合較慢 AI 行為的範圍內，產生平均情況下的行為保證。對於罕見失敗（即高風險）可能存在擔憂，儘管我們撇開了由於嚴重失調而導致的罕見失敗。這些罕見失敗可能無法通過蒸餾解決，但我們可能可以應用更複雜的方法，將這兩個 AI 的內部狀態配對以解決這些失敗，正如我在這個項目提案中所討論的。
廣義地推理並改變泛化，使用雜項干預：

對於我們想要的每個對齊屬性，我們可以在許多不同案例中重複訓練該屬性的範例，希望這能使該屬性更有可能成功泛化。我們可能想要灌輸的主要屬性可能是誠實和可修正性，這可能使理解和解決其他問題變得更容易。

我們可以嘗試在訓練環境中增加理想概念和想法的顯著性，希望 AI 將這些作為衝動或終端目標牢牢抓住。
針對與有問題的對齊屬性相關的（基於內部狀態的）指標進行訓練。我們可能有一堆關於良好/有問題對齊屬性的有損指標，我們可以直接針對這些指標進行訓練。（我們也可以將這些指標用於測試。）這將有多大效果在很大程度上取決於我們針對其進行訓練的可負擔性以及相關性的魯棒性。我的感覺是這不是很有前途，但對於避免嚴重失調可能稍微更有前途一些。
隨機歸納偏置：最簡單的技術之一就是嘗試以某種任意且無原則的方式改變歸納偏置，希望其中一些能有所幫助。例如，當訓練 AI 報告遞迴監督的問題時，你可以從附加在 AI 中間而非末尾的較小頭部開始初始化。你可以更改策略的深度或循環推理的初始化方式。你可以廣義地嘗試不同的策略提示方式。我們預計仍會更傾向於嘗試那些看起來至少有某些理由可能奏效的事物。

這裡有一些更具野心的建議（討論細節極少）：

確保清晰的思維鏈並直接引導想法。如果我們能理解並干預 AI 的「想法」，那將有助於實質性地解決失調問題（儘管某些問題可能在較低層次運作，就像人類的偏見等方面可以獨立於其想法中顯示出來而失調一樣）。確保這一點最簡單的方法是擁有清晰的自然語言思維鏈，但將「神經語言」想法與之相互翻譯的各種技術原則上是可行的。聰明的 AI 用神經語言思考可能會以非常非人的方式思考或使用外星本體論，這可能會引起這方面的問題。
利用解釋性工具建立理解，以便我們知道哪裡出了問題：我們可以使用模型內部狀態來更詳細地了解訓練中哪裡出了問題。這可能涉及許多不同的方法：自頂向下的解釋性、高層級的心智讀取/想法解碼（以及將神經語言思維鏈解碼為一個重要特例）、更具野心版本的激活解碼（旨在理解激活中發生的大部分或全部情況）、自底向上（即機械式）的解釋性，以及分析激活擾動（例如激活添加）的效果或權重修改（例如在某些特定數據上進行少量微調後）的效果。我們還可以使用基於內部狀態的方法（例如某種一致性損失）來提高誠實度，這有助於理解哪裡出了問題。
利用相對較弱的 LLM 構建一個更具 GOFAI 風格的系統：這不太可能奏效，特別是對於製造一個我們可以委託的 AI 系統，但這似乎並非完全無望。而且我們可以做一些涉及某些端到端訓練、但也具有使整個系統可分解為大多可解釋部分的屬性的事情（如這個提案）。
類人 AI 或高度近似的模擬心智：我們可能能夠通過模仿大腦的結構、訓練數據和學習算法，和/或訓練 AI 模仿人類輸出並預測中間大腦狀態（例如 MRI 數據），獲得一個與人類更相似的 AI 系統。這看起來可能像是嘗試近似某個特定的人類，或者像嘗試創造一個類似於從頭開始培養人類的 AI。預設情況下，人類不會具備我們上面討論的許多對齊屬性（例如，人類預設不會魯棒地遵循規範或保持可修正），但無論如何，我們可能會對一堆足夠像人類的心智（被選擇為具有高誠信等）感到滿意。或者至少，相對於我們的其他選擇感到滿意。
對齊一個具有非常好內省訪問權限的弱 AI，然後增強能力。如果我們有一個足夠對齊但太弱、且具有非常好內省訪問權限的 AI 系統，我們可以嘗試穩步提升其能力，同時讓它反覆內省，以獲得關於能力增強對其產生什麼影響的信號。這在結構上類似於使用人類內省來嘗試避免智能增強使人類失調。
使用「深度學習理論/科學」的東西。也許存在某種利用對深度學習如何運作的普遍理解的方法，例如通過奇異學習理論領域。目前尚不清楚這具體會是什麼樣子的。
代理基礎（Agent foundations）？ 也許如果我們更好地理解與代理基礎相關的東西，那將會有所幫助。
補償和多樣化的 AI 社會：對齊策略的一種替代方案是擁有一堆具有不同偏好的不同 AI，然後為良好的工作補償這些 AI。目前尚不清楚這在我們無法檢查工作的情況下如何導致良好的工作，但這並非完全無望（因為也許在這種情況下，謝林點（Schelling point）是誠實的，這可以是一個穩定的平衡）。值得注意的是，這可能導致反叛等。
由 AI 發明的新穎研究議程。我對此沒有什麼有趣的見解，但這可能是一個值得記住的有用可能性。
處理認識論和決策論的更具理論健全性和集成性的方法：我一直在討論製造一個擅長在混亂情況下做出高風險決策的 AI，因為它已對齊（它實際上在嘗試做出良好的決策），且它總體上能力極強，並接受過弄清楚類似棘手情況的訓練。另一種方法是使用更具 GOFAI 或貝葉斯 ML 的決策方法，在那裡我們明確嘗試對決策過程和假設生成等提供保證。這看起來不太可能是一個好的方法（例如，這根本不是人類案例中奏效的方法），但它可以解決認識論偏見的一些問題。

請記住，我專注於對齊方法，但某些控制風格的方法在委託後仍可能有所幫助，特別是因為我們可能能夠創造出具有不同驅動力的各種不同 AI。

改善能力概況的方法

如前所述，解決能力概況問題的一種方法就是達到足夠的超人水平。但這可能太慢（相對於先進能力或外部參與者引起的危害的到來），並會增加其他風險。因此，我們在這裡將討論如何以更有針對性的方式改善能力概況。

我在本節中沒有太多要說的，因為我認為這些方法通常非常直接。我預計測試能力相對於測試對齊來說相對容易，因此對我們的測試產生過擬合可能不那麼令人擔憂，因此使用有原則且針對性強的方法就不那麼重要了。此外，對於能力，超出一些（以精力和增加風險為代價）是可以接受的，這也使過擬合看起來不那麼成問題。

我們應該預期，在 AI 廣泛具備足以委託的能力時，AI 從有限數據中學習的效率會相當高，可能匹配人類表現，至少在應用大量計算時是這樣。這對於普遍的高性能可能是必需的，因為許多任務/工作需要持續學習（因此要匹配人類，你需要接近人類水平的從有限數據中學習的效率）。但 AI 也可能只是能夠利用其他優勢進行補償。

基本策略將是：

嘗試構建我們認為能命中相關能力的 RL 環境或合成數據。

有一些領域充滿了棘手的認識論/概念技能（可能部分轉移），並且可以輕鬆評分。例如，預測、在遊戲中重度模型不確定性下的決策、某些類型的研究品味等。我們可能能夠建立某種自我博弈系統或類似系統，這可以走得很遠。值得注意的是，人類群體似乎能夠在概念領域建立起自己的能力，並驗證事物以用於訓練，因此 AI 原則上應該也能做到類似的事情。

我們也可以嘗試構建與我們試圖增強的相關能力非常接近的 RL 環境/數據，即使評分會很難（且人類勞動成本很高）。我們可以嘗試用努力來克服這一困難。
收集大量的人類數據和/或在該領域的反饋。嘗試通過數據增強等手段，在較高計算成本下使這些數據盡可能發揮作用。不應將在最後一刻拼命收集和/或生成來自你招募的實際人類的數據視為超出範圍。
根據我們的測試，實驗性地找出哪些領域/任務/數據能很好地轉移到特定能力。然後，擴大在這些領域的訓練規模。（請注意，如果我們擁有強大到足以委託的 AI，那麼我認為我們非常有可能看到不同類型訓練之間的實質性轉移。）

如果範式涉及大多數正常機器學習方法以外的事物（例如，早期的 AI 手工構建電路），那麼我們引入能力的方法將需要有實質性的不同，儘管我對此沒有太多可說的。

為了短視的商業激勵，準備委託所需的工作會有多少發生？

在思考委託會有多難以及致力於委託優良度現在有多大前途時，一個相關的問題是，相關問題中有多少會因為具有相當快反饋迴路的商業激勵而得到解決。有些事情原則上可能受到商業激勵，但在實踐中最終並未受到很大激勵，因為它們不夠容易測量或缺乏快速反饋迴路。原則上擁有反饋迴路與被短視的商業激勵強加反饋迴路（例如，如果你忽視這個反饋迴路，這會影響收入或其他顯著信號，且如果公司不改進這一點，就更有可能被競爭對手超越）之間可能存在重要區別。當然，僅僅因為某事受到商業激勵且具有反饋迴路，並不意味著它一定會發生；解決相關問題可能非常困難，或者它受到一定程度的激勵，但還不夠。

首先，值得注意的是，對於獲得一個魯棒的消除陰謀的解決方案，不會存在短視的商業激勵：潛伏的陰謀家看起來與其他類型的 AI 一樣好（甚至可能更好）。更強烈地說，陰謀可能正受到短視商業激勵的主動選擇，因為陰謀家可能會刻意嘗試在相關測試和指標上表現良好。

可能許多有用的任務都會要求 AI 在相當難以檢查的工作上表現良好，因此短視的商業激勵可能會涵蓋問題的一小部分。然而，在易於檢查的任務上激進地進行爬坡，然後依賴轉移可能會更容易。這可能導致 AI 比原則上需要的強大得多，而且轉移可能並不廣泛，或者是由於陰謀 AI 試圖表現良好。更廣泛地說，並沒有短視的激勵來讓 AI 具備非常好的認識論，並在（許多）反饋迴路非常差的領域表現出色。而且並沒有短視的激勵來進行那些不能直接幫助提高生產力的特定類型的對齊研究（例如，能降低陰謀機率或改善委託優良度某些方面、但無法轉移到提高生產力的對齊研究類型）。

也可能 AI 高度專業化於 AI 研發和某些經濟利基，在它們變得極其強大之前，無法很好地轉移到關鍵的安全工作。（這可能是一個能力概況問題或對齊問題。）總體而言，可能沒有激勵來控制能力概況，或差異化地推動那些對委託優良度至關重要的能力概況方面。因此，預設的能力概況可能比可能的要糟糕得多。

但也可能致力於使 AI 在商業激勵的難以檢查任務上表現更好的努力，最終會發現相當具擴展性的方法，對委託優良度有很大幫助。我對於這發生的可能性沒有嚴肅的看法。

雖然關於哪些對齊工作（以及更具體的委託優良度工作）會因為短視的商業激勵而完成還有很多可說的，但我不會在這裡進行更詳細的分析。總體而言，預設的商業激勵似乎不足以解決相關問題，但很大一部分工作可能會出於這個原因而完成。

委託在政治上的困難

做好委託給 AI 的工作可能會遇到根本上屬於政治或營銷問題的困難。

首先，完全委託給 AI 聽起來（事實上也確實是！）非常可怕，因此預設情況下，公司可能想要否認他們正在這樣做，並且在商業上並非關鍵的情況下可能實際上不這樣做。這將允許他們否認其系統中所需的對齊水平必須足以進行委託。然而，僅在商業上非常相關的領域進行委託（並繼續擴展能力）就已經承擔了大部分風險，而在關鍵的難以檢查領域（委託在那裡不一定受到商業激勵）做好委託工作可以大大降低風險。這裡的關鍵問題是，委託給 AI 聽起來比訓練更強大的 AI 更可怕，特別是如果更廣泛世界的人們對這些 AI 的能力沒有很好的感知。

做好委託工作涉及創造對局勢有良好理解的 AI，包括理解 AI 公司的人們可能不想聽和/或不想傳播的真相。最核心的是，該 AI 公司一直非常魯莽，或者正在做極其危險的事情。但這也可能適用於宗教和有爭議的政治問題等事物。預設情況下，我們可能會瞄準一個涉及誠實（總體上以及關於這類事情）的委託目標，但隨後 AI 可能最終會提到這些事情，至少對 AI 公司內部的人提到，這對該公司來說可能是代價高昂的。這將激勵公司將此訓練掉，或避免訓練具有良好認識論的 AI。你可以擁有一個在認識論上明智、但在這類事情上也具有政治頭腦的 AI，但這是一個有些可怕的策略。值得注意的是，這適用於提高較低能力水平（包括現在）AI 的認識論和真實性，儘管人們現在對 AI 說的話不那麼認真。

AI 公司可能不願聽取 AI 減慢速度的建議，或者可能專門要求 AI 系統盡可能快地前進（幾乎），這將摧毀委託的部分價值。這可能是因為 AI 公司有強烈的意識形態承諾，因為公司認為 AI 會偏向安全，或者因為公司的領導層對風險承受能力有一種非常魯莽的觀點（例如，他們寧願有 90% 的機率親自建造 ASI 且有 30% 的機率發生 AI 奪權，也不願有 20% 的機率建造 ASI 且沒有風險，而一個現實的協調機制可能會（相對地）剝奪他們的權力）。

我們應該何時委託給 AI？

何時委託給 AI 的問題不僅取決於我們認為委託順利進行的可能性有多大（基於我們的行為測試以及我們對可能使行為測試失效的事物的保證水平），還取決於我們的替代方案。我們最終將嘗試弄清楚，考慮到我們擁有的時間量，委託給 AI 是否優於在沒有完全委託的情況下推進。（類似的問題也適用於邊際上更多或更少地信任 AI，無論是在我們的控制水平上，還是在我們讓 AI 在沒有驗證的情況下執行什麼任務方面。）在某個點上，如果我們擁有的時間足夠少，即使我們認為 AI 可能在耍陰謀，委託給 AI 作為最後一搏也是有意義的。

如果我們簡化並假設我們必須在未來的某個特定時間點委託給 AI，那麼關於現在是否應該委託的問題將歸結為：進一步的委託前工作在使委託更有可能變得更好方面的邊際回報，與給予 AI 更多時間的邊際回報之間的比較。可能如果初始狀態做得合理，我們委託的 AI 可以在委託後極其迅速地（安全地）處理風險（因為 AI 非常聰明、快速且足夠廉價，我們可以運行非常多的副本，且事情不會因為需要大量算力而遇到太多瓶頸），在這種情況下，我們應該將大部分時間花在委託前。我們可能不會對 AI 能夠推進的速度有多大信心。但無論如何，我們會想要估計給予 AI 更多時間的邊際回報，並將其與進一步的人類工作在消除委託出錯風險方面的收益進行比較。

我們可能不應該因為那些會導致委託不順利、但我們確信失敗會被檢測到（可能由 AI 自己檢測到）且不會造成嚴重傷害的失敗模式而推遲委託。在這些易於檢測的失敗模式是主要擔憂的情況下，我們可以讓人類和我們委託的 AI 並行工作，然後決定委託是否具有淨收益且是對算力的良好利用。同樣地，如果我們可以確保給予 AI 提出這種案例所需的可負擔性本身不會太不安全，我們可以觀察 AI 是否能夠為委託是安全的提出一個令人信服的案例。（我們需要根據這些 AI 可能是惡意的並針對我們進行優化的可能性來對這個案例進行打折。）

這有些複雜，因為委託前的工作也可以爭取更多時間（原則上是大量的時間），而且除了委託之外還有其他退出選項（例如人類增強），儘管這些不太可能可行。

如果我們非常有信心委託給 AI 優於人類進一步的努力（因為我們確信它們沒有在耍陰謀，且我們確信它們足夠對齊並具備足夠的能力概況，總體上在關鍵目標上比人類做得更好），那麼基本上無論外部情況如何，進行委託都是有道理的。話雖如此，我認為我們最終（準確地）非常有信心委託會順利進行的可能性很小。早點委託預計會導致原本會死於一般死因（衰老、疾病等）的人類獲救，而且即使局勢相當穩定，目前體系崩潰的外部風險可能也處於較低水平。

何時以及如何委託給 AI 的問題在某種程度上與我們讓事情進展順利的整體計劃交織在一起。因此，關於委託的一些考量最好在整體計劃的背景下討論，正如我將在未來的帖子中討論的那樣。

我還沒有談到我們將如何（在技術層面上）估計委託順利進行的機率。這部分是因為我非常不確定如何做到這一點。利用本文討論的策略，這將歸結為建立對行為測試具有合理代表性的信心（我不在本文中討論這一點），弄清楚對齊和能力概況達到什麼標準就足夠了（或者更廣泛地說，對齊和能力概況與委託順利進行機率之間的映射），然後利用行為測試估計對齊和能力概況的水平。這個估計必須考慮到行為測試的各種失敗模式，以及我們的測試與委託後需要發生的事情之間的泛化差距。

這是撇開利用稍微不那麼強大的對齊（即受信任的）AI 來控制強大 AI 的情況，這涉及不控制那些較弱的系統。↩︎
人們有時使用「移交」（hand off）一詞而非「委託給 AI」。↩︎
在實踐中，最好不要在認知工作的一個很小的子集上進行委託，例如，我們不在做出最終的高層級戰略決策上委託給 AI（儘管我們會聽取建議），但不清楚這是否會使委託安全所需的對齊、認識論和引導要求顯著降低。↩︎
使用 AI 2027 中的能力里程碑，這些 AI 將略高於超人 AI 研究人員的能力水平。↩︎
我們應該將可用的領先時間花在使委託更有可能順利進行或解決早期的安全問題上。或者至少我們應該花費大部分領先時間；我們可能希望在委託後給予 AI 一些領先時間。↩︎
我在這裡討論的一些方法將幫助我們了解完全委託是否可能順利進行，但我討論的方法不一定足以提供那麼多的信心。我們是否應該委託給 AI 不僅取決於這會有多安全；它很可能主要取決於外部約束和風險。即使委託不太可能順利進行，我們也可能認為下一個參與者很可能嚴格差於我們從完全委託中獲得的前景。↩︎
給定一個固定的延遲能力和致力於安全工作的時間預算（同時避免安全性較差的參與者在能力上超越），這個預算（原則上）可以花在低能力水平（例如現在）或高能力水平。在實踐中，我預計一旦 AI 已經處於較高能力水平，爭取額外時間會更容易，儘管這並不明顯，且有理由認為情況可能會相反。如果我們只有少量的時間，我們可能應該將相對較多的時間花在我們可以使其在某種程度上安全的最高能力水平上（這可能是最高可控的能力水平，或者是足以委託的水平）。如果我們有驚人巨大的政治意願，從而擁有大量的時間（例如數十年），那麼減慢整個能力進展（以降低早期風險）是有道理的，或者可能將大部分時間花在立即暫停上，同時追求可以降低風險的非 AI 策略（例如人類增強，如全腦模擬）和各種登月計劃。在兩者之間（例如有 10 年時間），我們可能希望將其中一些時間花在全程減慢上，一些時間花在委託前的最高能力水平上，並確保我們委託的 AI 擁有一些這樣的時間（儘管在實踐中存在許多複雜情況）。如果起飛預設會非常緩慢（例如，從「能使軟件工程師生產力翻倍」到「自動化 AI 研發」需要 20 年，然後從「自動化 AI 研發」到「定性上相當超人」又需要 20 年），那麼在典型的道德觀點下，大幅減慢起飛是否直接有意義就不那麼清楚了（這將取決於人類未來與防止目前活著的人類死亡之間的優先順序排定）。↩︎
讓委託順利進行的困難中有多少是避免陰謀？這是一個有些混亂的問題，因為我認為答案取決於你具體指什麼。在預設軌跡上，我認為稍微更多的風險來自於我們委託的 AI 不夠對齊/智慧/勝任（包括在關鍵領域缺乏勝任力），而不是來自於這些 AI 耍陰謀，至少就 AI 開發者在較低能力水平進行委託而言（能力更強的 AI 更有可能成為陰謀家，特別是未被檢測到的陰謀家）。然而，我認為對於一個努力減輕風險、採取合理行動且擁有數月領先時間的 AI 開發者來說，大部分剩餘風險可能來自於他們委託的 AI 是陰謀家（或早期的 AI 耍陰謀）。同樣地，我認為在獲得相當高水平的保證（例如 95%）即我們移交的 AI 將合理管理局勢且沒有失調方面，大部分困難在於排除它們是陰謀家。因此，在某種意義上，避免陰謀是讓移交順利進行的大部分困難，但它也可能不是大部分風險的來源。由於可行性問題以及將當前研究轉移到未來 AI 的困難，哪一個更具槓桿作用也更為複雜（特別是在考慮現在該做什麼時）。↩︎
參見這裡和這裡，了解我們最近關於避免陰謀的一些產出。待辦：也許先發布「避免陰謀的方法概述」，然後我們就可以直接鏈接到這裡。↩︎
也就是說，在委託 AI 產生最終輸出的同時，可能仍嘗試確保 AI 沿途行動的某些安全不變量。↩︎
本文主要針對我們在範圍龐大且難以檢查的事物上委託給 AI 的體系，因此如果我們正在進行不涉及此類事物的某種版本的部分委託，那麼本文討論的困難和方法就不那麼適用了。↩︎
我所說的對某個群體可修正，是指 AI 遵循該群體的命令並對該群體誠實，該群體可以更改規範，且 AI 不干擾該群體執行這些事情的能力或試圖操縱該群體（事實上它還主動嘗試防止干擾和操縱，包括來自它所創建的未來 AI 的干擾和操縱）。我不會討論這個規範具體應該是什麼樣子，以及應該由哪個群體或結構來控制 AI，因為本文的其他內容並不依賴於此。（作為可修正性的替代方案，我們可以旨在擁有一個直接追求良好結果、某種人類 CEV 概念或類似事物的 AI。這有時被稱為對齊的主權者。然而，這會帶來許多額外的困難和風險，因此我認為預設情況下，這個建議實質上差於利用 AI 在保留可修正性的同時保留選擇價值。）↩︎
作為確保能力更強系統對齊的一部分，AI 需要泛化模型規範中模糊的概念或可修正性的模糊之處。（例如，泛化操縱的概念，使其適用於非常超人的 AI。）這些泛化原則上可能是帶有價值觀的，因此我們可能會因為還不知道我們希望如何泛化這些價值觀、且 AI 沒有按照我們希望的方式忠實地泛化它們（儘管希望它們在嘗試泛化這些概念方面做得很好，包括在有幫助時向人類尋求輸入），而留下一些預期價值。希望泛化這些概念不會捲入與弄清楚我們本來會滿意什麼樣的反思程序等相關的所有困難，因此它應該有望比任務化我們委託的 AI 直接構建一個具備我們在某種反思程序（無論我們決定哪種是合理的）中反思後會想要的價值觀的 AI 要容易得多。↩︎
某些類型的錯誤可能會通過除了導致 AI 奪權以外的機制而造成災難。例如，誤處理超因果交易、導致做出匆忙且錯誤的承諾、在長期資源分配方面提供糟糕的建議、未能防止真空衰變、未能防止發射蝗蟲探測器等。↩︎
總體而言，在你給予你所委託的 AI 的領先時間量與你在委託方面需要做得多好（除了避免陰謀以外的委託方面）之間會存在某種權衡。例如，如果你在委託方面做得不好，你可以合理地讓你所委託的 AI 在決定推進能力或委託給某些新系統方面更加保守（例如，通過僅建議 AI 非常謹慎地執行此操作，且僅在進行更多安全工作之後才執行）。這對陰謀沒有幫助，對足夠糟糕的判斷也沒有幫助。此外，委託只有在所委託的 AI 在速度和安全特性方面優於人類時才有用。如果人類在某種謹慎水平上優於 AI，那麼我們不妨利用這段領先時間讓人類致力於讓委託進展得更好。你可以從「大部分不委託給 AI 並讓 AI 在你委託給它們的地方非常謹慎」連續過渡到「完全委託」，但在倉促的情境中，這一切可能發生得非常突然，感覺相當不連續。↩︎
請注意，我不預計對齊/引導的改進以及認識論/智慧的改進會針對這些關鍵任務非常專業化。（能力概況的改進可能是非常專業化的。）在某種程度上，專業化對於至少初始委託來說是不可行的，因為這些任務的核心方面將具有非常難以檢查的組件，因此我們需要依賴泛化。↩︎
AI 最初在直接處理外部風險方面做得那麼好不一定重要；這可以完全被引導。↩︎
特別是，它可能不能對我們耍陰謀，至少在很大一部分情境中是這樣。然而，（至少在原則上）使用對齊與控制的混合可能是可行的，特別是為了處理僅在部分時間出現的失調。單獨使用某些類型的白盒控制（可能結合補償/交易）也可能是可行的，但這直覺上似乎不很有前途，且至少具有高度風險。↩︎
你可以通過想像我們只需要在某個大型外部風險的截止日期前完成，來簡化對此的建模。如果僅靠軟件的奇點奏效且進展深遠且迅速，那麼這可能是相關的體系：你只需要在另一個安全性較差的參與者實質性進入軟件奇點之前，達到足以解決所有相關風險的非常高的能力水平。↩︎
這比單個數字更複雜，因為：所需的領先時間將取決於我們委託做得多好（如前所述），我們可以通過承擔額外風險在領先時間較少的情況下前進（儘管如果領先時間足夠有限，這種風險可能接近 100%），並且可能存在某種持續的風險率或某種需要解決的持續災難，使得越快越好。↩︎
這意味著即使 AI 研發進步沒有帶來 AI 進展的實質性加速，這個數字也是有定義的：這僅意味著僅靠軟件的奇點不會走得很遠，並立即平息。↩︎
也就是說，涵蓋整個起飛過程或直到我們達到足以完全/輕鬆穩定局勢的高能力水平所需的總稅收。↩︎
我們旨在足夠好地衡量委託優良度，以便原則上能夠確定這是否隨能力而改善。（儘管能力更強的 AI 可能在我們的測試中看起來偽裝得更好，而實際上卻更差一些。）然而，我們理想情況下應該能夠弄清楚大幅超出委託所需的最低水平的能力是否有幫助，而不需要實際構建這些能力強得多的 AI（這本身就帶有風險！）。我們可能可以利用縮放法則或其他推斷，在不實質性超出委託所需最低水平的情況下，感知這是否屬實，儘管這可能很棘手。↩︎
這是假設我們正在追求一個以移交為中心的策略，且尚未取得重大的根本性進展；還有其他選擇，如嘗試利用 AI 勞動力努力爭取大量的時間（例如十年）。在這種情況下，移交所需的最低能力水平並不是特別顯著。↩︎
可能存在某些類型的安全工作是強烈可驗證的，且能從增加的能力（我們實際上可以引導出的能力）中獲益匪淺。當然，預設情況下這是一件冒險的事情，我不信任 AI 公司能對此做出良好的決定。↩︎
能力不一定需要被完美引導，只要未被引導的能力沒有以某種方式被對抗性地應用來對付我們（這可能由於嚴重失調或由於某種優化和古德哈特效應而明確發生）。AI 可能具有許多原則上可以被引導、但預設情況下並非「意識可及」的能力，即 AI 無法真正利用它們來實現其目標，至少在總體上是這樣，這看起來沒問題。↩︎
此外，在構建能力更強的 AI 之前，AI 只能以有限的速度工作（例如，在構建比人類分布在定性上強 1 個標準差的 AI 之前，它們可能只能獲得相當於一兩年的序列工作），因此無論如何都需要一些引導。↩︎
具體來說，目前顯而易見的獎勵博弈問題似乎就是這種情況，據我們所知，這些問題尚未得到解決。↩︎
這不僅是因為針對行為測試進行迭代不太可能轉移，還因為避免陰謀對於許多事情（如利用 AI 勞動力而不被破壞）都有直接幫助。↩︎
話雖如此，這似乎不太可能。此外，在這種情境中，奪權的 AI 可能需要處理我們希望 AI 處理的相同問題（例如對齊研究），且無法做到。它既可以廣義地推進能力，直到一個 AI 可以完全自動化這項工作（儘管這可能帶來這個 AI 與原始 AI 失調並自身奪權的風險），也可以嘗試暫停並利用人類來解決其問題。AI 有可能在某個它並不比人類強的領域/區域推進能力，而不需要人類勞動，這可以通過泛化（來自通用智能或其他領域）或該領域中驗證可行的某些情況來實現。它也可以直接利用人類勞動來提高 AI 能力。↩︎
另一個可能成為我們瓶頸的重要能力是極長程的代理和協調，儘管正如我將討論的，這似乎不是一個很好的差異化能力提升目標，特別是對於提前完成的工作。特別是，當我們委託給 AI 時，我們需要它們自主完成龐大的項目，這些項目相當於由一家大公司完成的多年（甚至數十年）項目。（極少量的人類干預可能是可以接受的，但人類可能只有很少的背景信息，且 AI 可能正在做一些人類需要太長時間才能理解或上手的事情。）具體來說，你可以想像一個擁有數千到數十萬個超人般協調的並行 AI 實例的項目，每個實例可能以 50 倍的有效速度運行數月（大約相當於人類十年或二十年的時間）。雖然這種能力與 AI 是否能奪權高度相關，且最終對有用性非常重要，但公司似乎很難有效地對此進行迭代（因為直接測試會很慢且非常昂貴），而且直到很晚才可能受到商業激勵（因為其他能力會先成為瓶頸）。此外，雖然這種水平規模的完全自主 AI 能力研發項目（最終）將受到高度激勵，但 AI 能力研發項目可能與委託所需的大型自主項目具有實質上不同的屬性。特別是，AI 能力研發似乎更有可能以相對分布式的方式進行，因為能力的微小進步通常可以單獨輕鬆評估。而且，這種能力確實有可能相對於那些使未檢測到的嚴重失調更有可能發生的能力而被差異化地推進。（也就是說，我們更希望利用受人類控制的勞動力來設計和/或訓練運行和協調大型自主項目的系統，而不是 AI 最終因為高底層智能和能力而能夠非常迅速地弄清楚如何做到這一點。）值得注意的是，這種能力可以實質性地被引導，AI 花費一些時間來改進自主項目的運行效果。無論如何，這似乎很難以差異化的方式提前致力於此（且預設情況下提前完成的工作會在減慢速度可能至關重要的時刻直接促進更快的 AI 能力研發，而沒有真正的差異化優勢），看起來比增強能力概況的其他方面具有更高的能力外部性，且總體上看起來無論是提前還是當 AI 相當強大時，致力於此的槓桿作用都較小。↩︎
目前尚不清楚這個官方程序具體應該是什麼；這超出了本文的範圍。↩︎
這類考量也說明了為什麼嚴重失調是不可接受的：如果我們讓 AI 應用超級說服（可能尚未努力使世界總體上對超級說服具有魯棒性），那麼我們基本上就是在允許 AI 應用基本上任何可怕的超人能力，即使我們無法在行為上對此進行監督。↩︎
在這個範圍內較差的認識論可能會因為較差的選擇（例如追求錯誤的方向等）而浪費大部分資源，並可能導致承擔不必要的風險（儘管一定程度的保守可能足以大多避免這種情況）。但我認為，假設給予我們委託的 AI 一些適度的時間，這不會大大增加委託的風險。↩︎
這看起來可能像是一個連貫的終端偏好（可能導致陰謀）、一個上下文激活的驅動力/衝動，或者一個導致問題且不一定能被準確描述為驅動力、目標或偏好的行為啟發式方法。↩︎

— Lesswrong