如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了

如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了

Lesswrong·

許多人工智慧安全與治理研究人員缺乏對 AI 風險的原創性理解,往往因為實習時間緊迫或追求具體成果等結構性壓力而盲從權威。我認為我們必須擺脫「只感受氛圍」的狀態,建立起一套底層邏輯清晰的內部觀點,才能確保研究真正有助於降低生存風險。

認識論狀態:我已經思考這件事好幾個月了,終於把它寫了下來。我不認為我說的是什麼新觀點,但我認為這值得大聲重複強調。我的樣本偏向 AI 治理研究員;我與技術性 AI 安全研究人員的互動較少,所以在那方面的推論較為模糊。我更強烈地向治理圈推薦這個論點。

我曾與來自 ERA、IAPS、GovAI、LASR 和 Pivotal 等計畫的約 75 位研究員進行過一對一交流。這些交流涵關職涯談話、研究回饋和隨性聊天。我注意到在這些對話中,有一定比例會逐漸轉向高層次且棘手的問題:「對齊(alignment)實際上到底有多難?」、「極端的權力集中實際上到底有多糟?」

在這些對話快結束時,我通常會說類似這樣的話:「我不知道,這些問題超級難,我也很難取得進展。當我試著去解決它們時,我感到極度的認知疲勞,這讓我感覺很糟,因為我覺得我自己的研究和他人的研究,很大程度上都建立在這些問題的答案之上。」

然後我會羞怯地推薦 Holden 關於最低限度信任調查透過寫作學習的文章。接著我會告訴他們,去真正地做「那件事」。

那件事

我所謂的「那件事」,是指建立一種基於第一性原理的理解,明白你為什麼相信 AI 是危險的,以至於你可以在不訴諸權威的情況下,從零開始重構這個論點。具體來說,這可能看起來像:

  • 能夠以齒輪層級(gears level)的深度,連貫地引導某人理解至少一個 AI 生存風險(x-risk)威脅模型。
  • 能夠很好地模擬一位頂尖對齊研究者的世界觀,以至於你可以預測他們對新問題的看法。
  • 寫下你自己的威脅模型,並留意你在哪裡卡住、在哪裡感到困惑、在哪裡盲目聽從他人。

我認為 AI 安全/治理計畫中很大一部分的研究員無法做到上述任何一件事。典型的原型如下:

如果這描述的是你,你可能屬於最常見的那一類。就這點而言,這個原型基本上就是我,所以我也帶有一點投射!

為什麼會發生這種情況

我認為 AI 安全/治理研究員的預設軌跡大致是:吸收氛圍、選擇一個專案、執行、產出成果。「退後一步並建立第一性原理理解」的階段被跳過了,而這被跳過是有其可預測的結構性原因:

  • 時間壓力。 研究計畫通常只有 8 到 12 週。這點時間勉強夠啟動一個研究專案,更不用說質疑你的基礎假設了。沒有時間,只能衝刺、衝刺、再衝刺!
  • 導師制度結構。 大多數計畫會為你配對一位擁有特定研究議程的導師。隱含(有時是明確)的交易是:研究我議程中的內容。這對於學習研究技能通常很棒!但這與「我花了三週時間質疑這整個框架是否正確」並不相容。誘因是成為一名優秀的受導者,這意味著執行一個範圍明確的專案,而不是去扯動基礎的線頭。不過這並不總是發生——似乎有相當一部分導師讓他們的研究員大致想做什麼就做什麼。
  • 可辨識性的誘因。 參與計畫的目的是為了找到工作!一份具體的論文或報告是清晰可見的,這對未來的雇主來說是一個非常有用的信號。在求職過程中,很難僅憑「我對對齊何時變得困難有了更細緻的理解」就過關(儘管我認為擁有良好招聘實踐的組織會積極獎勵這樣的聲明!我不確定是否所有組織都如此,但我感覺篩選這些特質很困難)。
  • 社交壓力。 參加一個精英 AI 生存風險計畫,卻告訴你的同儕、主管或導師:「我不知道為什麼人工超智慧(ASI)會構成生存風險」,會讓人感到極度不安。在溝通困惑這件事上存在一種逆向選擇:最困惑的人最不可能說出來,因為說出來感覺就像在承認自己不屬於這裡。

話雖如此,我認為一個合理的反論是:也許建立內部觀點(inside view)的最佳方式就是直接做大量的研究。如果你只是與優秀的導師密切合作、進行實驗、碰壁,那麼齒輪層級的理解自然會產生。

我認為這種觀點部分正確。許多研究人員是透過研究過程,而不是在研究之前,發展出他們最好的直覺。而且,一個向人們施壓要求產出的計畫,在邊際上可能比一個產出 30 個極度困惑的人卻零論文的計畫要好。我不想過度修正。正確的答案可能是「更多的平衡」,而不是「消除論文/報告的產出壓力」。

為什麼這很重要

在大多數研究領域,不做「那件事」也沒關係。你可以成為一名高效的化學家,而不需要對化學為什麼重要有第一性原理的理解。化學是成熟且有典範的。做有用工作的演算法很簡單:弄清楚什麼是已知的,弄清楚什麼是未知的,對未知事物進行實驗。

AI 安全並非如此。我們不只是在推進知識的邊界。我們是在一個仍處於前典範(pre-paradigmatic)階段、回饋循環極差且基本問題仍未解決的領域中,試圖進行最有機會降低毀滅機率(P(doom))的研究。如果你在做對齊研究,卻無法清楚說明為什麼你認為對齊很難,那你就是在一個你未曾檢視過的基礎上建築。你無法判斷你的專案是否真的重要。你正在優化一個你無法證成其合理性的指標。

你可以透過單純聽從 80,000 Hours 和 Coefficient Giving 的建議來維持一段時間。但聽從他人是有上限的,最有影響力的研究者是那些建立了自己模型並找到超額價值(alpha)所在的人。

而且我擔心這個問題會隨著時間推移而惡化。隨著我們越來越接近 ASI,在不退後一步的情況下推進研究議程的壓力只會加劇。迫切感會排擠好奇心。而這個領域將在最需要智識靈活性的時候變得日益脆弱。

你該怎麼做?

如果你對 AI 風險沒有感到深切的困惑,那就有問題了。 你可能還沒有凝視深淵並正視你的假設。好消息是有具體的事情可以做。壞消息是沒有一件是容易的。它們都需要密集的認知投入和時間。

  • 策略 1:從零開始寫下你自己的威脅模型。 坐在空白文件前,試著寫出一個連貫的論點,說明為什麼 AI 會構成生存風險。不要參考資料。就寫下你真正相信什麼以及為什麼。你會卡住。你卡住的地方就是你從這個練習中能獲得的最有價值的資訊。那些就是你一直盲目聽從他人的關鍵假設。一旦識別出它們,你就可以真正去調查它們。
  • 策略 2:學習模擬資深研究者。 挑選一位有大量公開寫作的人(例如 Paul Christiano、Richard Ngo、Eliezer Yudkowsky、Joe Carlsmith)。每週花大約 5 小時非常仔細地閱讀他們的作品,並做大量的筆記。保持一份記錄你所有開放性問題和不確定性的文件。目標是能夠預測他們對新問題會說什麼,並且關鍵是要理解他們為什麼會這麼說。這與建立你自己的內部觀點不同,但它是一個有用的補充。透過試圖進入別人的模型,你可以學到很多關於問題結構的知識。
  • 策略 3:設定一個具體的「減少困惑」目標。 在計畫結束時,你應該能夠向該領域之外的聰明人連貫地解釋至少一個 AI 生存風險威脅模型。不是「AI 可能很危險,因為 Eliezer 這麼說」,而是一個實際的機制故事。如果你在密集參與 AI 安全 8 到 12 週後仍無法做到這一點,這是一個值得注意的信號。

對於計畫負責人和研究主管,我建議為此留出空間。^([1]) 一件可能有用的事是,除了人脈建立和研究等常規目標外,鼓勵研究員設定一個像我上面描述的那樣具體的「減少困惑」目標。

結語

我不希望這篇文章讀起來像是「你應該感到愧疚」。重點是,在這個領域中,困惑被低估且供應不足。意識到你無法從零開始重構你的信念本身並不是失敗。只有當你對此無動於衷時,它才是糟糕的!

我自己也還在努力解決這個問題。我想許多其他人也是如此。

  • ^(^)雖然我假設計畫負責人已經注意到了這個問題並嘗試解決,但結果發現解決它很困難。

Lesswrong

相關文章

  1. 如何令人信服地談論AI帶來的生存威脅

    6 個月前

  2. 我的AGI安全研究:2025年回顧與2026年計畫

    4 個月前

  3. 給研究人員的抽象建議:應對AGI對齊的困難核心問題

    5 個月前

  4. 發起具影響力的 AI 安全專案所需的兩大技能組

    大約 1 個月前

  5. 從 AIXI 視角看人工智慧安全

    30 天前