橋樑思維與圍牆思維

Lesswrong·21 天前

我發現圍牆與橋樑這兩種框架，對於理解為什麼不同的人在談論人工智慧安全時會有截然不同的說法非常有用：圍牆代表增量式的進步，而橋樑則需要達到特定門檻才能發揮作用。

在理解為什麼不同的人對 AI 安全的看法大相徑庭時，我發現有兩個框架非常有用——牆與橋。

牆是遞增式有用的。你每增加一塊磚都是好事，磚塊越多越好。如果你正在為牆添磚加瓦，無論牆目前的狀態如何，你都在做一件好事。

橋則需要一定程度的投入。半座橋沒什麼用處。一旦橋橫跨了湖泊，它就可以被改進——但在你建成一座可運行的橋之前，你一無所有。

牆式思維的一個典型例子是 Chris Olah 在這則推文中的圖片。任何圍繞「消減邊際機率」的方法都涉及牆的框架。另一個例子是我為 Inspect Evals 所做的標準化工作的變革理論，我將其總結為：「航空和火箭等其他領域都有紮實的安全標準和範式。我們需要為評估建立這套體系——這是一個成熟的 AI 安全領域所必須具備的東西。」這個理論並沒有完整說明它如何端到端地拯救世界，但在牆的框架下，它不需要這麼做——它只需要指向正確的方向，並且在大體上有幫助即可。

橋式思維的一個好例子是 MIRI 的方法——公開且直接地要求簽署國際條約。據我理解，MIRI 並不是在要求他們認為能爭取到的最大限度，而是在要求他們認為解決問題所必需的條件，並相信任何少於此的條件都是不足夠的。與其討論 p(doom)（毀滅機率），Eliezer 詢問的是：「你認為能防止滅絕的最小必要且充分的政策是什麼？」這就是橋式思維——我們需要達成某個特定的結果 X，而小於 X 的結果都行不通。任何沒有機會達成 X 或更大目標的事情，往好裡說是沒幫助，往壞裡說則是適得其反。為了弄清楚需要什麼樣的 X，你從一開始就必須對你的高層次目標以及特定行動路徑如何帶領你達成目標有紮實的想法。

從牆的視角來看，橋式思維者為了追求「全壘打」而忽視或貶低了重要的邊際工作或不顯眼的工作。從橋的視角來看，牆式思維者正在做一些沒有幫助的事情，最終結果將被歸零。

我發現這是一個非常有用的方式，能讓我理解為什麼 AI 安全領域的一些人會提出與我截然不同的想法。

參與討論

https://lesswrong.com/posts/zGecnEacBfGaKyN8L/bridge-thinking-and-wall-thinking