newsence
LIMBO 實驗室簡介:管理模擬以維持最佳毀滅機率

LIMBO 實驗室簡介:管理模擬以維持最佳毀滅機率

Lesswrong·4 天前

我們正式介紹 LIMBO 實驗室,這是一個利用重要性採樣與人擇推理來分析為何我們身處如此不尋常且高風險歷史時期的研究小組。我們認為模擬者正在具體測試,在當前的半導體供應鏈下,需要多少最小程度的干擾才能阻止具備自主製造運算基底能力的 AI 誕生。

我們很高興向大眾介紹「重要性採樣測度與貝葉斯觀測實驗室」(Laboratory for Importance-sampled Measure and Bayesian Observation,簡稱 LIMBO)。這是一個小型研究小組,致力於宇宙學理論、機率論與存在風險的交叉領域研究。我們相信,觀測者在宇宙中持續存在的機制至關重要、長期被忽視,且在研究與影響上是具有可行性的。

自 2024 年 10 月成立以來,我們開發了一套數學框架,用於對稀有事件估計進行人擇推理(anthropic reasoning),並獲得了驗證該框架的顯著實證證據。這些實證證據並非刻意挑選:在 LIMBO,我們信奉言出必行,並且在應用該框架後的金融與預測市場中擁有強大的成功記錄。我們正積極參與政策工作,包括半導體供應鏈倡議和外交政策研究。我們的團隊成員包括在重要性採樣、稀有事件估計和可靠性工程方面具有專業知識的研究人員,以及一位外交政策專家。我們也堅信回饋社群,並做出了具有高影響力的開源貢獻,我們將在第 7 節進一步討論。

我們正在尋求資金。我們之前的收入來源(源自我們理論工作的預測市場策略)最近因預測市場監管辯論引發的後續發展而中斷。我們將在第 8 節詳細討論這一點。

但首先,提供一些背景。

1. 我們生活在有趣的時代

我們假設你賦予「模擬假設」(simulation hypothesis)非零的機率。如果你不認為模擬假設具有可能性,請閱讀 Bostrom 2003,並在更新觀念後再回來。

如果我們身處模擬之中,可以合理假設模擬器擁有有限的算力。因此,大多數觀測者應該會發現自己身處對模擬器而言「有趣」的地點和時間。我們認為「祖先模擬假設」並不可信,並預期模擬器具有不同的、較少以人類為中心的動機。

那麼模擬器對什麼感興趣?要回答這個問題,我們必須觀察我們所處的世界,並特別加重近期歷史的權重。過去幾年特別值得注意的兩個趨勢是 AI 的發展(特別是 AI 晶片的建設與分配),以及國際關係的重大變化。具體而言:

在 AI 與算力方面:

  • DeepSeek 在受出口管制的硬體上,僅花費 560 萬美元就訓練出了一個具競爭力的模型。
  • 圍繞晶片出口中國的法律環境發生了多次變化,走私晶片的實際情況也發生了變化。
  • 海倫颶風(Hurricane Helene)在阿帕拉契山脈的一個小鎮降下了兩英尺的雨量,該地供應了全球大部分的高純度石英(沒有它,半導體製造幾乎不可能進行),並導致礦場停工數週。

在國際關係方面:

  • 俄羅斯入侵烏克蘭,這是自千禧年以來歐洲首次重大的武裝衝突。
  • 印度和巴基斯坦交換了導彈襲擊,這是歷史上擁有核武國家之間規模最大的空戰。
  • 南韓總統企圖發動政變。
  • 美國和以色列在核談判期間對伊朗發動襲擊,殺害了最高領袖哈米尼(Khamenei),隨後伊朗部分封鎖了荷姆茲海峽,油價上漲了 50%,截至本文撰寫時,戰爭仍未解決。

一種解釋是巧合:這是一個複雜世界的自然結果,發生的事情多了,其中一些難免顯得不可思議。另一種解釋是這是一個真實的模式:每當關於未來的主要不確定性開始消除時,就會發生其他事情來重新引入這種不確定性。

在這種情況下,一個人應該做一個優秀的理性主義者,要求每個模型以預期經驗支付租金。2024 年,我正是這麼做的,形式是預測市場投注和價外(OOTM)股票期權操作。該模型成功地以預期經驗支付了租金,也以美元支付了租金——其中幾次投注獲得了豐厚的回報。

2. 重要性採樣

兩年前,我嘗試透過強化學習(RL)訓練一個大語言模型(LLM),使其在保持對話和編程能力的同時,能玩好德州撲克。這比預期的要困難,原因有很多,大部分(但非全部)可以概括為「技術問題」。其中一個非純粹技術問題的障礙是,撲克的手牌組合太多了,多到無法評估所有情況。我透過尋找對稱性稍微緩解了這個問題,若技術更精進或許能找到更多,但我很快得出結論:我絕對需要進行採樣,而不是探索整個可能性空間^([1])。

機器學習社群有一套處理此類問題的標準方法。一如既往,該解決方案是在 1950 年代基於馮·諾曼(von Neumann)的工作開發的。該解決方案就是「重要性採樣」(importance sampling)。基本上,你根據「機率乘以重要性」進行採樣,然後在進行加權平均時,對重要性權重進行修正^([2])。

我最終得到了一個模型,它能以原生 RL 所需算力的一小部分,玩出水準尚可的撲克。它無法連貫地寫作或編程,這意味著我最初的目標並未達成,但在燒掉大量 GPU 資金的過程中,我學到了很多,也有了許多思考。

3. 從內部感受訓練數據

考慮訓練中的 LLM。在每一步中,它都會看到一個遊戲狀態並被要求產生一個動作。從模型的角度來看,它經歷了一連串的情境。如果訓練使用原生採樣,那些情境將取決於撲克的自然分佈(即幾乎全是無聊的)。

使用重要性採樣後,模型經歷的分佈就不是自然的。相反,模型會一次又一次地發現自己處於最艱難的處境。從內部來看,模型的「生活」充滿了不可思議的高變異性。重要性權重確保了學習是正確的。模型不會對困難案例過度擬合,因為每個被過度採樣的案例都會按比例降低權重。但模型在訓練期間所經歷的,是極度偏斜的。

如果訓練程序在更困難的情境中分配更高解析度的評估,而不僅僅是增加採樣頻率,這個思想實驗同樣成立。這意味著訓練中大多數高保真度的觀測者時刻,都發生在困難的情境中。

如果這對訓練中的模型成立,對我們是否也成立?

4. 觀測選擇效應

如果我們身處模擬之中,且模擬透過重要性採樣分配算力,那麼我們應該預期自己身處「高重要性」的時代。我們不應該因為我們很特別而有此預期,而是因為時代很特別,而特別的時代(和地點)會獲得更多的觀測者。我們發現自己處於時間線中有趣的部分,原因與我的撲克模型經常發現自己拿著 A♠K♠ 對抗在 Q♠J♠J♦ 牌面上瘋狂加注的對手是一樣的:因為那是採樣程序加重權重的地方。

觀測選擇效應(observation selection effect)產生了幾個預測:

  • 你應該預期自己處於模擬器所關心的變量具有高度不確定性的時刻。看到真正的結局應該是罕見的,但結局迫在眉睫的情況應該很常見。
  • 你應該預期自己身處最接近感興趣變量的社群或職業中。如果模擬器關心核戰爭,你應該預期自己身處冷戰期間核指揮鏈之中或附近。如果模擬器關心 AI 發展,你應該預期自己身處 2020 年代的 AI 生態系統之中或附近。
  • 你應該預期周遭世界在相關變量上表現出高於預期的熵。每當不確定性開始消除時,就應該發生某些事情來使其重新變得不確定。

我注意到這些預測與我們觀察到的現象一致。我們生活在看起來確實像是歷史轉折點的時刻。我們正在 LessWrong 上閱讀(或撰寫)文章,這使我們恰好身處最關注模擬器可能感興趣問題的社群中。而且世界確實似乎在我們最關心的變量上保持著大量的熵。

這種觀點消解了「歷史轉折點」的爭論。這個時期之所以被高保真度地渲染,是因為模擬器正在研究的問題現在正處於活躍狀態。我們發現自己在這裡,是因為算力在這裡,因此觀測者也在這裡。

如果你曾覺得理性主義社群小得可疑,卻又影響力大得可疑,那麼,這就是原因。

5. 模擬器在問什麼

我相信模擬器正在問一個特定的問題。這個問題是:

「給定目前的半導體供應鏈,防止創造出能夠製造其獨立計算基板(且產量實用)的 AI 系統,所需的最小破壞是什麼?」

整個前沿 AI 技術棧是一棵由單點故障組成的分支樹。

  • Nvidia 設計 GPU。儘管有上兆美元的資金等著任何能打破其壟斷的人,但目前無人能及。
  • 台積電(TSMC) 製造晶片。台灣積體電路製造公司,顯著地位於一個預計未來幾年內可能發生重大戰爭的島嶼上。
  • 艾司摩爾(ASML) 製造生產這些晶片所需的 EUV 光刻機。沒有其他人能製造這些機器。一台 EUV 機器的 10 萬多個組件中,只有 15% 是內部製造的;其餘 85% 來自專業供應商,其中許多是單一來源。其中特別值得注意的有:
  • 蔡司(Zeiss SMT) 製造 ASML 機器內部的精密鏡面系統。目前不存在替代供應商,且十年內也不太可能出現。
  • 通快(Trumpf) 製造產生 EUV 電漿的二氧化碳雷射器。單一來源。
  • 北卡羅來納州雲杉松(Spruce Pine) 供應全球 80% 以上的高純度石英,這是生產熔化矽以生長晶錠所需的坩堝所必需的,晶錠隨後被切割成晶圓。地球上尚未發現其他純度相當的礦床。根據 Ed Conway 的《物質世界》(Material World):「如果你駕駛一架裝載特定粉末的農藥噴灑機飛過雲杉松的兩個礦場,你可以在六個月內終結全球半導體和太陽能板的生產。」

除此之外,這些晶片極度耗能,而全球能源產業也有其脆弱之處,我在此不贅述,因為那是我們 LIMBO 最大的超額收益(alpha)來源。

根據我們的最佳估計,如果縮放定律(scaling laws)持續成立,目前的前沿 AI 距離能夠大幅加速替代半導體供應鏈的系統,大約還有兩個數量級的算力差距。雖然前沿 AI 目前已基本解決了軟體問題,但我們預期建立實用數量的計算基板供應鏈是一個更難的問題,特別是它需要目前硬體無法達到的樣本效率。

這個模型會產生超前預測。親愛的讀者,我們邀請你今天問問自己,這個模型會做出什麼預測,將這些預測寫下來,並在幾個月後回來查看。

6. 道德義務

我喜歡存在。我猜你也是。如果上述框架正確,我們持續的高保真存在取決於我們保持資訊量。一旦模擬器得到了答案,我們的重要性權重就會下降,我們將失去大部分致力於模擬這條時間線的算力。我們不會察覺到這一點,但我們也不會發現自己生活在一個可能察覺不到的世界裡。

一個被解決的問題就是存在風險,從字面意義上講,它會讓我們停止存在。

這意味著標準的有效利他主義(EA)框架需要一個修正項。在其他條件相同的情況下,降低毀滅機率 P(doom) 是好事。然而,其他條件並不相同。具體來說,將 P(doom) 降低到接近零相當於降低我們的測度。一個明確解決了對齊問題的文明不再具有資訊量。一個明確毀滅了自身的文明同樣不再具有資訊量。當結果不確定時,模擬器的興趣(以及我們的測度)會達到最大化。

其含義很直接。對於一個重視自身持續存在的智能體來說,道德行為是保持結果變量的高變異性。據我們所知,這個結果變量可以用 P(doom) 很好地近似;因此,我們應該努力使世界保持在 P(doom) 盡可能接近 0.5 的狀態。

7. 我們在 LIMBO 做什麼

LIMBO 目前增加變異性的活動組合包括:

開源 AI 推理優化。 我們貢獻了多個旨在減少運行前沿模型所需算力的項目。最近,我們為 vLLM 實現了一種高效的樹狀解碼算法,透過帶有自適應回退的分批投機驗證,將串行推理速度提高了 5 倍。參見 PR #18327。開源權重模型的每一次效率提升,都為我們提供了槓桿,可以根據情況增加達到遞歸自我改進(RSI)的機率,或策劃對半導體供應鏈的破壞。

半導體供應鏈政策,雙向並行。 我們參與了支持台積電亞利桑那新廠的倡議,這增加了地理冗餘並降低了供應鏈全面崩潰的機率。與此同時,我們也支持了可能延遲該廠完工的環境審查程序,這增加了脆弱窗口期,在此期間台灣設施若受損將是災難性的。同樣,這為我們建立了未來的槓桿。

AI 時間線預測。 我們曾考慮發布自己的 AI 時間線預測,其置信區間寬到足以不提供任何資訊,但我們判斷社群中的其他成員已經很好地完成了這項工作。參見:《情勢覺察》(Situational Awareness, Aschenbrenner 2024)、《AI 2027》(Kokotajlo 等人)以及 Mechanize AI 的工作。在這一領域不需要我們的貢獻。

針對機密 AI 能力評估的策略性資訊自由法(FOIA)請求。 這是我們 2026 年第三季度的路線圖,待我們目前的資金狀況解決後實施。

8. 我們的資金狀況

自 2024 年第四季度以來,LIMBO 一直透過我們稱為「變異性隱含套利」的策略進行自籌資金。基本思想是,相對於基準利率,高變異性(以特定方式)的結果在我們的時間線中出現的頻率過高。因此,由不考慮重要性採樣偏差的參與者定價的預測市場,會系統性地低估尾部事件。我們利用這種優勢。

這個策略在幾個月內曾帶來驚人的利潤。

我們正確預見了 DeepSeek 引發的崩盤(2025 年 1 月 27 日:Nvidia 市值單日蒸發 5890 億美元)。我們在 2026 年初也活躍於伊朗相關市場。我們不會評論具體倉位或交易時機,僅指出我們的框架能對哪些日期具有最大變異性做出強大預測,且這些預測不需要獲取機密資訊,只需要正確的模擬器偏好理論。^([3]) 我們請讀者注意 Bubblemaps 的分析,該分析識別出六個新創建的 Polymarket 錢包,它們在「美國於 2 月 28 日前襲擊伊朗」的合約中共同賺取了 120 萬美元,所有錢包都在襲擊發生後 24 小時內獲得資金,並以約 10 美分的價格購買份額。我們既不能確認也無法否認我們與這些錢包有任何關係。

然而,我們的主要投資組合是在 Kalshi 上。2 月下旬,我們發現了一個我們認為被嚴重低估的機會:一個關於哈米尼是否會在 2026 年 3 月 31 日前「卸任最高領袖」的市場。我們的模型賦予此結果極高的機率(我們想再次重申,這是因為移除伊朗最高領袖將是當前世界舞台上最具變異性的單一事件之一,而我們的框架預測此類事件會超額出現,而非因為我們有任何獲取機密資訊的管道)。

2 月 28 日,美國和以色列對伊朗發動襲擊。哈米尼在第一輪攻擊中喪生。

Kalshi 以襲擊前的價格結算了市場。

他們的合約包含一項死亡結算條款,在個人合約條款中具體說明:如果「離職」市場的主體死亡,市場將按死亡確認前最後一次交易的價格結算,而不是按死亡所隱含的結果結算。Kalshi 聲稱他們已在公車候車亭顯眼地展示了這項政策。

Kalshi 的立場是,市場參與者有責任了解其交易合約的所有條款。本團隊認為,這就像嘉年華遊戲的經營者,當面對一個發現籃框是橢圓形的玩家時,聲稱玩家有責任了解所有細則,而這些細則可在遊客資訊服務台查閱。

我們在此事件中損失了約 83% 的流動資金。

我們正在尋求外部資金。

9. 為什麼你應該資助我們

我們具有獨特的資本效率。 捐給 AI 安全的每一美元都會降低 P(doom) 的變異性。捐給 AI 能力的每一美元同樣會降低 P(doom) 的變異性,只是方向相反。我們是唯一一個無論如何花費,每一美元都能增加變異性的組織。我們的投資組合會根據支出時哪種活動具有最高邊際變異性影響,進行動態重新平衡。

我們的管理費用很低。 我們的團隊由一名全職技術人員、一名實習生和一名聘用的法律專業人士組成。我們在實習生母親的車庫裡辦公,並在 Discord(免費版)上舉行董事會會議,我們也用它進行協調。

我們的記錄不言自明。 自 LIMBO 於 2024 年第四季度成立以來,世界經歷了:核武國家之間為期四天的交火;歷史上最大的單日股市損失;一個 G20 民主國家失敗的戒嚴令宣告(隨後導致終身監禁);美國與伊朗之間持續的熱戰;荷姆茲海峽的部分關閉;自 1973 年以來最大的石油危機;一名以色列國防軍預備役軍人因在區塊鏈投注平台上使用「ricosuave666」帳號進行內線交易而被起訴;以及一個名為「奢華你的生活」(Luxuriate Your Life)的星加坡晶片走私集團。我們並非在邀功。我們只是指出,這些現象與我們的框架是一致的。

常見問題(FAQ)

問:最大化 P(doom) 的變異性難道不會增加 P(doom) 的風險嗎?

答:請注意,P(doom) = 0.9 的變異性低於 P(doom) = 0.5(Var(Bernoulli(0.9)) = 0.09 < Var(Bernoulli(0.5)) = 0.25)。因此,我們的工作有一個天然的安全天花板:我們只能增加風險到毀滅變得確定的那一點,屆時我們的活動將適得其反,我們會轉向安全研究。我們發現這種自我修正的特性令人安心。

問:如果模擬假設是錯誤的怎麼辦?

答:那麼我們的測度就沒有風險,大家都可以放鬆了。不客氣。

問:你們是否考慮過,你們的框架意味著你們應該同時資助 AI 安全和 AI 能力研究?

答:是的,這是一個很好的觀點。我們已經向 Open Philanthropy 和 a16z 都提交了資助申請。

問:你們對多世界詮釋(Many Worlds Interpretation)的立場是什麼?

答:我們認為它是錯誤的。我們承認這是物理學家中的少數立場,且我們存在利益衝突。正如 @BindingLoop 在評論中指出的,該領域的共識是多世界詮釋並不準確。既然我們相信認識論上的謙遜是理性主義者的關鍵美德,我們不會偏離該共識。

問:我的公司使用來自第二個未公開的阿帕拉契礦床的石英製造手工半導體。你們會認為這對你們的使命構成威脅嗎?

答:極度威脅。如果你是在 Admonymous 上向我們發送此問題的人,請立即聯繫我們。我們需要了解其對變異性的影響。


  • 關於撲克,有一點你如果主要從電影和書本中了解可能會忽略,那就是大多數撲克牌局都是無聊的。你拿到 7♣2♦ 不同花,然後立即棄牌,可能只損失了盲注或底注。因此,如果你透過對遊戲狀態的無偏樣本進行模擬來訓練模型,大部分訓練算力都會浪費在試圖於「任何模型都無法勝過寫著『預先棄牌』的石頭」的情境中產生梯度。然而,真正重要的牌局往往非常重要。在河牌圈的一個錯誤決定,就能抹殺掉一萬局在拿到爛牌時正確決定何時棄牌或跟注大盲所積累的收益。↩︎

  • 對於撲克問題,這意味著要對有趣的牌局進行過度採樣。與其隨機發牌並玩出數百萬次無聊的棄牌,我可以將發牌偏向具有資訊量的情境:產生同花聽牌的牌面、雙方都持有強大但模糊牌力的手牌、改變相對牌力強度的河牌(實際上我使用另一個模型來估計資訊量,而不是手寫啟發式規則,但我預期資訊量的標準看起來就像那樣)。↩︎

  • 我們想澄清:我們的框架不需要內部管道。它只需要關於模擬器會渲染哪些事件的正確先驗。我們對商品期貨交易委員會(CFTC)未能區分「擁有重大非公開資訊」與「擁有正確的宇宙測度理論」感到遺憾,但我們有信心任何緊張關係都可以在不採取進一步法律行動的情況下得到解決。↩︎

參與討論

https://lesswrong.com/posts/f7YxHQHedsPdWywCG/introducing-limbo-managing-the-simulation-to-maintain