如果你對 AGI 風險不感到深切困惑，那一定有什麼地方出錯了

Lesswrong·大約 2 個月前

許多人工智慧安全與治理研究人員缺乏對 AI 風險的原創性理解，往往因為實習時間緊迫或追求具體成果等結構性壓力而盲從權威。我認為我們必須擺脫「只感受氛圍」的狀態，建立起一套底層邏輯清晰的內部觀點，才能確保研究真正有助於降低生存風險。

認識論狀態：我已經思考這件事好幾個月了，終於把它寫了下來。我不認為我說的是什麼新觀點，但我認為這值得大聲重複強調。我的樣本偏向 AI 治理研究員；我與技術性 AI 安全研究人員的互動較少，所以在那方面的推論較為模糊。我更強烈地向治理圈推薦這個論點。

我曾與來自 ERA、IAPS、GovAI、LASR 和 Pivotal 等計畫的約 75 位研究員進行過一對一交流。這些交流涵關職涯談話、研究回饋和隨性聊天。我注意到在這些對話中，有一定比例會逐漸轉向高層次且棘手的問題：「對齊（alignment）實際上到底有多難？」、「極端的權力集中實際上到底有多糟？」

在這些對話快結束時，我通常會說類似這樣的話：「我不知道，這些問題超級難，我也很難取得進展。當我試著去解決它們時，我感到極度的認知疲勞，這讓我感覺很糟，因為我覺得我自己的研究和他人的研究，很大程度上都建立在這些問題的答案之上。」

然後我會羞怯地推薦 Holden 關於最低限度信任調查和透過寫作學習的文章。接著我會告訴他們，去真正地做「那件事」。

那件事

我所謂的「那件事」，是指建立一種基於第一性原理的理解，明白你為什麼相信 AI 是危險的，以至於你可以在不訴諸權威的情況下，從零開始重構這個論點。具體來說，這可能看起來像：

能夠以齒輪層級（gears level）的深度，連貫地引導某人理解至少一個 AI 生存風險（x-risk）威脅模型。
能夠很好地模擬一位頂尖對齊研究者的世界觀，以至於你可以預測他們對新問題的看法。
寫下你自己的威脅模型，並留意你在哪裡卡住、在哪裡感到困惑、在哪裡盲目聽從他人。

我認為 AI 安全/治理計畫中很大一部分的研究員無法做到上述任何一件事。典型的原型如下：

如果這描述的是你，你可能屬於最常見的那一類。就這點而言，這個原型基本上就是我，所以我也帶有一點投射！

為什麼會發生這種情況

我認為 AI 安全/治理研究員的預設軌跡大致是：吸收氛圍、選擇一個專案、執行、產出成果。「退後一步並建立第一性原理理解」的階段被跳過了，而這被跳過是有其可預測的結構性原因：

時間壓力。 研究計畫通常只有 8 到 12 週。這點時間勉強夠啟動一個研究專案，更不用說質疑你的基礎假設了。沒有時間，只能衝刺、衝刺、再衝刺！
導師制度結構。 大多數計畫會為你配對一位擁有特定研究議程的導師。隱含（有時是明確）的交易是：研究我議程中的內容。這對於學習研究技能通常很棒！但這與「我花了三週時間質疑這整個框架是否正確」並不相容。誘因是成為一名優秀的受導者，這意味著執行一個範圍明確的專案，而不是去扯動基礎的線頭。不過這並不總是發生——似乎有相當一部分導師讓他們的研究員大致想做什麼就做什麼。
可辨識性的誘因。 參與計畫的目的是為了找到工作！一份具體的論文或報告是清晰可見的，這對未來的雇主來說是一個非常有用的信號。在求職過程中，很難僅憑「我對對齊何時變得困難有了更細緻的理解」就過關（儘管我認為擁有良好招聘實踐的組織會積極獎勵這樣的聲明！我不確定是否所有組織都如此，但我感覺篩選這些特質很困難）。
社交壓力。 參加一個精英 AI 生存風險計畫，卻告訴你的同儕、主管或導師：「我不知道為什麼人工超智慧（ASI）會構成生存風險」，會讓人感到極度不安。在溝通困惑這件事上存在一種逆向選擇：最困惑的人最不可能說出來，因為說出來感覺就像在承認自己不屬於這裡。

話雖如此，我認為一個合理的反論是：也許建立內部觀點（inside view）的最佳方式就是直接做大量的研究。如果你只是與優秀的導師密切合作、進行實驗、碰壁，那麼齒輪層級的理解自然會產生。

我認為這種觀點部分正確。許多研究人員是透過研究過程，而不是在研究之前，發展出他們最好的直覺。而且，一個向人們施壓要求產出的計畫，在邊際上可能比一個產出 30 個極度困惑的人卻零論文的計畫要好。我不想過度修正。正確的答案可能是「更多的平衡」，而不是「消除論文/報告的產出壓力」。

為什麼這很重要

在大多數研究領域，不做「那件事」也沒關係。你可以成為一名高效的化學家，而不需要對化學為什麼重要有第一性原理的理解。化學是成熟且有典範的。做有用工作的演算法很簡單：弄清楚什麼是已知的，弄清楚什麼是未知的，對未知事物進行實驗。

AI 安全並非如此。我們不只是在推進知識的邊界。我們是在一個仍處於前典範（pre-paradigmatic）階段、回饋循環極差且基本問題仍未解決的領域中，試圖進行最有機會降低毀滅機率（P(doom)）的研究。如果你在做對齊研究，卻無法清楚說明為什麼你認為對齊很難，那你就是在一個你未曾檢視過的基礎上建築。你無法判斷你的專案是否真的重要。你正在優化一個你無法證成其合理性的指標。

你可以透過單純聽從 80,000 Hours 和 Coefficient Giving 的建議來維持一段時間。但聽從他人是有上限的，最有影響力的研究者是那些建立了自己模型並找到超額價值（alpha）所在的人。

而且我擔心這個問題會隨著時間推移而惡化。隨著我們越來越接近 ASI，在不退後一步的情況下推進研究議程的壓力只會加劇。迫切感會排擠好奇心。而這個領域將在最需要智識靈活性的時候變得日益脆弱。

你該怎麼做？

如果你對 AI 風險沒有感到深切的困惑，那就有問題了。 你可能還沒有凝視深淵並正視你的假設。好消息是有具體的事情可以做。壞消息是沒有一件是容易的。它們都需要密集的認知投入和時間。

策略 1：從零開始寫下你自己的威脅模型。 坐在空白文件前，試著寫出一個連貫的論點，說明為什麼 AI 會構成生存風險。不要參考資料。就寫下你真正相信什麼以及為什麼。你會卡住。你卡住的地方就是你從這個練習中能獲得的最有價值的資訊。那些就是你一直盲目聽從他人的關鍵假設。一旦識別出它們，你就可以真正去調查它們。
策略 2：學習模擬資深研究者。 挑選一位有大量公開寫作的人（例如 Paul Christiano、Richard Ngo、Eliezer Yudkowsky、Joe Carlsmith）。每週花大約 5 小時非常仔細地閱讀他們的作品，並做大量的筆記。保持一份記錄你所有開放性問題和不確定性的文件。目標是能夠預測他們對新問題會說什麼，並且關鍵是要理解他們為什麼會這麼說。這與建立你自己的內部觀點不同，但它是一個有用的補充。透過試圖進入別人的模型，你可以學到很多關於問題結構的知識。
策略 3：設定一個具體的「減少困惑」目標。 在計畫結束時，你應該能夠向該領域之外的聰明人連貫地解釋至少一個 AI 生存風險威脅模型。不是「AI 可能很危險，因為 Eliezer 這麼說」，而是一個實際的機制故事。如果你在密集參與 AI 安全 8 到 12 週後仍無法做到這一點，這是一個值得注意的信號。

對於計畫負責人和研究主管，我建議為此留出空間。^([1]) 一件可能有用的事是，除了人脈建立和研究等常規目標外，鼓勵研究員設定一個像我上面描述的那樣具體的「減少困惑」目標。

結語

我不希望這篇文章讀起來像是「你應該感到愧疚」。重點是，在這個領域中，困惑被低估且供應不足。意識到你無法從零開始重構你的信念本身並不是失敗。只有當你對此無動於衷時，它才是糟糕的！

我自己也還在努力解決這個問題。我想許多其他人也是如此。

^(^)雖然我假設計畫負責人已經注意到了這個問題並嘗試解決，但結果發現解決它很困難。

— Lesswrong

你的個人知識庫

如果你對 AGI 風險不感到深切困惑，那一定有什麼地方出錯了

那件事

為什麼會發生這種情況

為什麼這很重要

你該怎麼做？

結語