給研究人員的抽象建議：應對AGI對齊的困難核心問題

Lesswrong·5 個月前

這份指南為致力於解決 AGI 對齊核心技術問題的研究者提供建議，強調必須克服智識上的從眾與委託，並準備好為研究那些艱難且難以量化的問題做出個人犧牲。

＊轉載自我的部落格＊

這是一些快速寫就、聊勝於無的建議，對象是那些希望在技術性 AGI 對齊（Technical AGI Alignment）硬核問題上取得進展的人。

背景假設

以下建議假設你的目標是協助解決核心且重要的技術問題：設計出能執行人類所願之事的 AGI。

這排除了所有與心智、設計心智等無關的內容；因此，不包括治理（governance）、招募、任何社交活動、領域建設（fieldbuilding）、募款等等。（並非說這些不重要；只是本指南不涉及這些內容。）

我並不特別認為你「應該」嘗試這樣做。這非常困難，而且阻止 AGI 能力研究（capabilities research）更為重要。我認為這太難了，以至於人類智能增強是更好的投資。
然而，許多人表示他們想為技術性 AI 安全做出貢獻。如果你主要是想找份工作，這本指南不適合你。本指南僅旨在幫助你解決問題中重要的部分，而在那些聲稱想幫助技術性 AI 安全的人群中，這是一個被極度忽視的任務。
以下建議不預設 AGI 與當前 AI 相似或不相似的任何特定方式。
以下建議預設技術性 AGI 對齊是一項極其艱鉅的任務，可能比人類以往做過的任何事情都困難，且處於「前範式」（pre-paradigm）階段，即目前還沒有人接近知道該如何尋找解決方案。
以下建議並非共識，且措辭強烈而自信，沒有保留餘地，也沒有提供證據或理由。請考慮查看評論中的批評、細微差別等。這只是如果我只有這麼多字數和一天的時間來寫下，我會告訴別人的內容，並以在有限精力下所能做出的最接近適當強調的語氣來表達。（我的資歷僅在於我嘗試解決這個硬核問題大約十年，並在多種情境下嘗試（成效未知）指導了一群人這樣做；你可以在這裡看到我大部分的具體寫作：https://tsvibt.blogspot.com/search/label/AGI alignment）

處理盲從（Deference）

盲從他人往往是必要的，但這會產生問題。盲從有許多危險，這些危險與在 AGI 對齊的重要技術問題上取得進展息息相關。

你應該預設自己已經在許多重要問題上處於預設的盲從狀態。這很正常、沒問題且必要，但這也可能阻礙你對重要的對齊問題做出貢獻。因此，你必須經歷一個過程，找出你在哪些地方盲從了，然後透過開始懷疑和自我調查，逐漸「去盲從化」。

另一方面，這個領域難以在重要問題上取得進展，是因為很少有人研究重要問題，而且當他們分享所學時，其他人也不會在此基礎上繼續構建。因此，你應該研究他們學到了什麼，但盡可能減少盲從。對於那些強烈引導你獨立調查方向的背景問題，你應特別小心盲從。人們往往多年不質疑那些會極大影響他們思考方向的重要事物；然後他們就陷入了基於這些假設的研究生活中。

然而，不要掉入「跳脫框架」的框架中。僅僅表現出「等等，對齊到底是什麼？對齊到什麼？」是遠遠不夠的，且往往適得其反。這些確實是重要的問題，目前還沒有令人滿意的答案，你不應該在這些問題上盲從！然而，人們在問這些問題時，通常是在尋找最容易的「質疑假設」問題。特別是，他們在逃避聽取領域內前人試圖傳達的教訓。你必須學會向那些已對重要問題得出結論的人學習，同時繼續懷疑他們的背景結論並調查那些問題。

如果你想知道「對齊研究是什麼樣子的」，其實沒有這種東西。大多數人做的不是真正的對齊研究，而那些在做的人，工作方式也各不相同。你將開闢自己的道路。

如果你絕對必須盲從，即使只是在剛開始時的暫時行為，也請嘗試優雅地盲從。

犧牲

技術性 AGI 對齊中最重要問題往往是難以捉摸的（illegible）。這意味著它們不太可能獲得資金、研究職位、導師指導、政治影響力、合作者等等。你在累積動力（Steam）方面會面臨更強大的阻力。平均而言，如果你致力於解決問題中真正重要的硬核部分，你獲得的這一切可能會更少。這些問題本身也簡單地難得多。

你可以透過做一些更具「可見度」（legible）的工作來平衡這一點；這會有一些好處（例如，在這個領域工作的人更有趣）。避免做出犧牲是非常好的，人們常常為了咬緊牙關、振作起來做艱難但正確的事而意外地做出犧牲，但實際上他們不必做出那種犧牲，本可以既更快樂又更有生產力。

但是，話雖如此，如果你想真正幫助解決這個問題，你可能需要做出一些犧牲。

然而，我不認為你應該承諾犧牲，至少不應超過你絕對必須承諾的程度。盡可能保留退路（lines of retreat）。

我的一個希望是，你會意識到投入這項研究可能付出的高昂代價，因此對於決定不投入部分或全部精力不會感到太難過。如果你能直接對自己說「我不想付出那麼高的代價」，這比找一份邊緣的工作並試圖強迫自己相信你正在處理硬核部分要好得多。那種扭曲是不健康的，沒有任何好處，而且還會污染認識論的公共資源。

你可能不適合做這項研究。這沒關係。

真正的懷疑

要在這裡取得進展，你必須真正懷疑（Truly Doubt）許多事情。你必須質疑你的概念和信念。你必須想出酷炫的對齊點子，然後也要真正懷疑它們，直到你真正找出它們無法運作的根本原因。如果你做不到這一點，你就不會對問題的硬核部分做出任何重大貢獻。

你必須提出那些甚至看起來不像問題的問題，因為它們只是事物運作的方式。例如，你必須認真質疑什麼是善與真、它們如何運作、什麼是概念、概念是基於觀察還是數學等等。

你必須察覺到自己何時在暗自希望某個點子是個好主意，因為它能為你帶來合作者、認可或資金。你必須迅速懷疑你的點子，並以一種能從直覺核心徹底說服自己為什麼它行不通的方式來進行。

這並不是說要「捏碎你的蝴蝶點子（脆弱的靈感）」。

迭代的胡謅與修剪（Babble and Prune）

培養胡謅（babble）與修剪（prune）的美德。將它們交織在一起，這樣你就是在用那些經過前幾輪修剪磨練出來的概念進行胡謅。好的胡謅需要好的修剪。

迭代胡謅/修剪的一類核心例子是建設者/破壞者遊戲（Builder/Breaker game）。你可以針對假設的安全 AGI 的各個部分（例如「一個真正保持短視的決策理論」之類的）或針對對齊 AGI 的完整提案來進行這個遊戲。

事實上，我可能會建議如果你剛開始，主要針對實現有用且安全 AGI 的完整提案進行建設者/破壞者遊戲，而不是針對組件。這是因為如果你不這樣做，你就不會學到空殼遊戲（shell games）。

你應該經常這樣做。你應該做這件事的頻率可能是你原本打算做的 5 倍或 10 倍。比如，破解 5 個提案。然後做其他事情。然後也許想出一兩個提案，再破解它們，同時也破解文獻中的其他提案。這是這份長清單中少數最重要的建議之一。

更廣泛地說，你應該在具體層面和元層面（meta levels），在所有相關維度上進行胡謅/修剪。

學習思考

你不僅僅是在嘗試解決對齊問題。這件事難到你還必須解決「如何解決對齊問題」。你必須弄清楚如何有效地思考對齊的硬核部分。你必須獲得新的概念，並受「真正理解對齊」這一總體標準的引導。這將是一個過程，而不是你在開始時就能完成的事情。

掌握基本原則——提出假設、凝視數據、練習十二種美德。

無論需要多長時間，都要沉浸在對齊的根本問題中。在那裡埋下問題並照料它們。

應對心智的規模

對齊極其困難的一個主要原因是心智是龐大且複雜的，而且是相互依賴的，並具有許多你甚至不知道如何思考的微妙面向。你必須透過直接在心智的層次上討論心智來應對這一點。

如果你試圖只談論漂亮的、經驗性的、數學化的事物，那麼你將會在路燈下徒勞地徘徊。這就是我之前提到的那種「難以捉摸性」。這很糟糕，但卻是事實。

不要轉身離開，即使它正從你身邊撤退。

如果你不應對心智的規模，你將只是在做常規科學（ordinary science），這很棒，但對於解決對齊問題來說太慢了。

縮放（Zooming）

放大（Zoom in）細節，因為那是思考的方式；但同時，也要交替進行縮小（Zoom out）。詢問大局觀的問題。如何思考這一切？對齊解決方案需要哪些要素？如何獲得這些要素？我根本的困惑是什麼？哪裡可能存在重大的「未知的未知」？

縮小後的問題要困難得多。但這並不意味著你不應該調查它們。這意味著你應該將你的答案視為暫時性的（provisional）。這意味著你應該沉浸並回歸到它們中，並針對它們埋下問題，以便獲取數據。

儘管它們更困難，但許多關鍵問題在某種意義上都是縮小後的大局問題。關鍵問題應該儘早且經常調查，以便你能夠儘快徹底檢查你的關鍵假設和概念。一個關鍵假設錯誤的時間越長，你錯過整個調查空間的時間就越長。

大量推廣（Generalize a lot）

當一個想法或提案失敗時，嘗試進行遠距離的推廣。得出範圍非常廣泛的結論。在某種意義上，這非常冒險，因為你是在提出一個更強大的主張，所以它更有可能是不正確的。因此，重點不在於變得過度自信。重點在於嘗試擁有假設，而不是沒有假設。說「除非做到 X，否則任何對齊提案都行不通」——然後你可以對此進行反駁，這是建設者/破壞者遊戲的逆向過程（也是交替胡謅/修剪的另一個例子）。

你可以問自己：「我怎樣才能更快想到這一點？」

你可以問自己：「我最後可能會希望自己當初能更快想到什麼？未來的我可能會透過累積數據逐漸形成並確信什麼樣的推廣結論，而我現在就可以想到並更快地測試它？」

例子：也許你思考了一段時間關於大腦、神經元和神經電路等問題，然後你決定這對於了解人類心智中發生的事情來說太過間接，你需要一種不同的方法。現在，你應該考慮推廣到「實際上，任何形式的對心智的間接/轉譯訪問都會付出沉重的代價，且不一定對理解這些心智的重要特徵有很大幫助」，然後例如將此應用於神經網絡的可解釋性（即便假設它們與心智足夠相似）。

例子：也許你思考了很多關於下棋 AI 的問題。後來你意識到它太簡單了，與心智不夠相似，因此相關性不大。所以你應該考慮進行大量推廣，認為任何不具備心智特徵的事物，都不會告訴你太多關於心智本身所需要知道的信息。

給導師的筆記

如果你要指導其他人嘗試解決技術性 AGI 對齊問題中真正的核心硬核部分：

對於非常有動力/主動的學生，嘗試給予堅定但極其抽象/元層面的建議。這樣做的目的是讓他們有最大的餘地去尋找新的思考方式，但仍能透過好的提示來加速這個過程。嘗試只是輕微地推動他們，讓他們的思維流完全暢通，並[至少在抽象層面上指向正確的方向，以便他們最終能弄清楚如何在更多正確的方向上前進]。打個比方，抱石教練可能不想說「把腳放在這裡」，而是說「嘗試提高你嘗試的溫度（隨機性），即嘗試更多不同的方法」。
理想情況下，你的建議應該能通過時空電話（chronophone）。例如，通常不要建議在某個關鍵問題上盲從特定的人，因為那裡真正的訊息是「在這個問題上盲從某人」，這可能是錯誤的。
確保他們在具體層面和元層面，在所有相關維度上進行胡謅/修剪。

具體層面的內容

我建議閱讀 Yudkowsky 關於 AGI 對齊的非高度數學化的技術寫作，例如他在 Arbital 上的文章和《致命性清單》（List of Lethalities）。你可以嘗試閱讀《創建友好的 AI》（Creating Friendly AI）。
我建議不要再讀太多其他的了。對齊領域沒有解決它的問題，也沒有解決它的元問題（準確陳述問題、陳述重要問題、在問題之間進行選擇、察覺到未能陳述重要的隱含問題、在論述層面糾正這些失敗）。所以你不能出去讀讀看問題是什麼。你就是不能那樣做，抱歉。這是不可能的。沒有清單。即使你讀完了所有人寫過的關於 AGI 對齊的所有內容，你仍然無法解決它。你無法透過閱讀來獲得你需要的理解。你必須自己弄清楚。你顯然可以從他人的著作中汲取靈感，但你無法下載答案或問題。
如果你想從我這裡得到些什麼，我在《對齊新穎性的艱辛航程》（The fraught voyage of aligned novelty）中收集並壓縮了一些對齊中的核心挑戰，但它的寫作方式可能對你來說不是很有用。

— Lesswrong