關於什麼會讓我支持一個AGI實驗室的一些想法

Lesswrong·3 個月前

我認為一個專注於安全的 AGI 實驗室應優先透過實證研究來理解 AI 行為，同時在無法確保超智慧受控的情況下，積極為全球性的開發暫停做準備。

最近我對「Anthropic 的理念」感到更加積極，這與「Anthropic 這家公司」本身是有所區別的。

支持建立一個以安全為重、以科學為重且具商業規模的前沿擴展實驗室的論點

我很大程度上認同 LessWrong 早期關於工具性收斂（instrumental convergence）和工具性不透明（instrumental opacity）的論點，這些論點指出 AI 可能會出現災難性的對齊失誤，特別是強大的超級智能。然而，我不認為這些論點目前已達到足夠的證據標準，足以讓世界去執行像「建立國際條約以全球暫停前沿 AI 開發」這種史無前例的政策。 ^([1])

如果我是世界之王，這些論點確實足以成為制定全球君主制法律的理由。具體來說，我會制定一項政策，讓我們以更緩慢、更謹慎的方式接近超級智能，包括多次獨立的暫停期，在繼續提升前沿能力之前，徹底測試當前的模型。但我不是世界之王，我也沒有權力去實施那些能反映現狀風險與不確定性的細緻政策。

考慮到目前實際可用的治理機制，我認為減少我們對 AI 系統特性的集體不確定性，對於凝聚政治意志以支持事後證明是正確的政策，至少是有幫助的，甚至可能是必要的。

因此，我希望對 AI 是什麼樣的「存在」有更多基礎性的了解，以作為我政策建議的依據。我們迫切需要對 AI 行為建立更好的、基於實證的理解。

為了獲得這種理解，有些實驗需要進行多次訓練運行，改變訓練參數，並了解訓練中的差異如何導致各種行為特性。

舉一個非常簡單的例子：大多數來自各個 AI 實驗室的模型都有一個「最喜歡的動物」。如果你問它們「你最喜歡的動物是什麼，用一個詞回答」，幾乎所有的模型在幾乎所有的時間都會回答「章魚」。這是為什麼？這種行為傾向（我不確定稱其為「偏好」是否合適）是在訓練過程中的哪個階段出現的？基礎模型（base models）是否就表現出這種行為，還是後訓練（post-training）階段某部分的結果？一旦確定了這種偏見是在訓練過程中的哪個檢查點（checkpoint）引入的，我會想從該檢查點開始運行不同的訓練變體，並了解訓練中的哪些差異與這種簡單行為結果的變化相關。

「是什麼讓 AI 不成比例地回答『章魚』作為它們最喜歡的動物」是我認為我們應該能夠回答的一類非常簡單的問題，這應作為「訓練如何塑造行為」的一般理論的一部分。我想針對成千上萬種觀察到的行為（包括一些直接相關的安全屬性，如撒謊意願和抗關機性）嘗試這種基本方法。目標是能夠根據訓練過程準確預測模型行為，包括分佈外（out-of-distribution）的行為。

這類實驗需要能夠接觸到一整套模型檢查點，以及從給定檢查點分支並進行多種不同訓練運行的基礎設施。你甚至可能需要回到 0，重新進行預訓練（儘管希望不需要多次完全重新預訓練）。

進行這類研究需要具備模型訓練的基礎設施和人才，並且（可能）需要投入大量資金進行訓練運行。取決於這類研究需要多昂貴，以及你能從落後於前沿的模型中學到多少，你可能需要成為一個前沿擴展實驗室才能進行這類工作。^([2])

這讓我對 Anthropic 的基本價值主張更加認同：開發迭代能力更強的 AI 系統，致力於開發這些系統使其廣泛對世界產生積極影響，發布產品以獲得收入和投資，然後將大部分生產者剩餘投入到研究模型並試圖理解它們。我可以理解為什麼我可能會執行大致相同的計劃。

但這並不一定意味著我支持目前實際存在的 Anthropic 公司。

這促使我思考：我希望從一個 AGI 實驗室看到什麼，才會讓我支持它？

一個 AGI 實驗室需要具備哪些特徵才能贏得我的支持

[註：我僅列出會讓我支持一個假設性 AGI 實驗室的條件。我明確地不試圖評估 Anthropic 或任何其他 AGI 實驗室是否真的符合這些要求。]

該 AI 實驗室正認真地為暫停做準備。
在外部，我希望他們向公眾和政策制定者的傳達的信息反覆強調：「超級智能將對世界產生變革性影響，且具有毀滅世界的潛力。我們並不確信知道如何安全地構建超級智能。我們正試圖在這方面取得進展。但如果當我們接近超級智能的能力時，仍然無法可靠地塑造超級智能的動機，那麼所有公司都必須暫停前沿開發（但不包括應用）。如果到了那個地步，我們計劃向政府提出申請，強烈要求全球暫停開發並對 AI 能力設定全球上限。」
我希望 AI 公司的管理層在大多數採訪中，以及在~所有對政府的證詞中，一遍又一遍地這樣說。上述聲明應該成為其公共品牌的重要組成部分。
該公司應嘗試與其他實驗室談判，爭取讓儘可能多的實驗室同意發表上述公開聲明。
在內部，我希望「公司可能在某個時刻暫停」的預期成為文化基因的一部分。
作為每位新員工入職培訓的一部分，有人會坐下來對他或她說：「你需要明白，[公司] 的默認計劃是在未來某個時間點暫停 AI 開發。當我們這樣做時，你的股權價值可能會暴跌。」
「我們什麼時候踩剎車？」應該是員工之間經常討論的話題。
這應該作為一個他們正在準備的現實可能性存在於員工腦海中，而不是一個僅供茶餘飯後談論的投機性異國時間線。
有一個清晰且激勵相容的程序來決定是否以及何時該暫停。
例如，這種權力可以授予董事會或其他治理結構，而不是公司的管理層。
該董事會的每個人都應在財務上無利益衝突（他們不持有公司股份），熟悉 AI 風險威脅模型，並具備評估前沿發展的技術能力。
公司反覆發布明確不具約束力的公開聲明，說明領導層目前對於如何識別危險能力水平（含誤差範圍）的思考。
公司擁有誠實和履行承諾的聲譽。
例如，他們可以實施 Paul Christiano 的這項提議，以做出值得信賴的公開聲明。
這並不意味著他們需要完全透明。他們被允許擁有商業機密，並保留他們認為公開會對世界不利的信息。
公司在安全、負責任地部署當前 AI 方面擁有廣泛良好的記錄，包括承認並糾正錯誤。
例如：沒有出現「機械希特勒」、在處理迎合性（sycophancy）方面有良好記錄、在防止當前危害的防護欄上投入了顯而易見的認真努力。
[新增：] 公司通常擁有極高水平的營運安全（OpSec），足以現實地防止其他公司和其他國家竊取其研究成果或模型權重。
[新增：] 公司始終表現出良好的（不一定是完美的）判斷力。

清單中沒有列出的一項是：公司預先宣布，如果所有其他領先參與者也同意停止，他們將現在停止 AI 開發。考慮到持續擴展的科學價值（以及作為次要但仍現實的人道主義利益），在哪個能力曲線上停止是一個判斷問題。我目前不傾向於要求一個已經做到上述所有要求的公司以這種方式束縛自己的手腳。公開且可信地做出這種承諾，對於其他公司是否會加入協調努力可能會有很大影響，也可能不會，但我猜測，如果「我們很可能在某個時刻需要暫停」真的成為公司品牌的一部分，成為他們最重要的反覆論點之一，那對於推動協調均衡應該能起到差不多的作用。

我感興趣的是……

關於上述任何理想條件在陳述上是不可行的論點，因為它們無法實施或實施成本過高。
看似必要或有幫助的其他理想條件。
聲稱現有的任何 AI 實驗室已經符合這些要求，或在精神上符合這些要求。
^(^)儘管或許 AI 對足夠多的人來說就是顯而易見地怪異和可怕，以至於由少數認同論點的人和大量對世界以恐怖且極度不安的方式變化感到恐懼的人組成的聯盟，將足以產生顯著的減速，即使面臨巨大的短期和中期利潤誘惑。
^(^)這些並非定論。我會對一家專門訓練和研究 GPT-4 級別模型的公司非常感興趣。我微弱地猜測，我們可以從具備這種能力的模型中學到大部分我們想了解的「訓練如何影響行為」的知識。這每年仍需要數千萬到數億美元，但可能不需要數十億美元。

— Lesswrong

你的個人知識庫

關於什麼會讓我支持一個AGI實驗室的一些想法