計畫一與計畫二

Lesswrong·6 個月前

我建議將人工智慧安全爭論重新架構為兩個互不對立的策略：方案一專注於透過國際協調停止競爭，方案二則致力於在競爭中確保轉型安全。我認為即使是對方案一持懷疑態度的人也應支持它，因為其影響力巨大且目前資金嚴重不足，我們應避免對立以促進建設性的討論。

Max Tegmark 最近發表了一篇貼文「你屬於人工智慧安全社群的哪一邊？」，他在文中將 AI 安全社群劃分為兩個陣營：

A 陣營）「安全地競逐超智慧」： 這一組的人通常主張「由於 X，超智慧是不可避免的」，因此最好由他們的內部群體（他們的開發公司或國家）率先開發出來。X 通常是「資本主義」、「摩洛（Moloch）」、「缺乏監管」和「中國」的某種組合。

B 陣營）「不要競逐超智慧」： 這一組的人通常主張「由於 Y，競逐超智慧是件壞事」。這裡的 Y 通常是「不可控」、「1984」、「權力剝奪」和「滅絕」的某種組合。

我認為這種框架會產生反效果。相反地，這是我更偏好的過度簡化框架：

方案 1：嘗試取得國際協調以停止超智慧競賽，然後嘗試讓人類走上更好的軌跡，以便我們以後能安全地構建對齊的超智慧。^([1])

方案 2：即使我們陷入競賽，也嘗試讓向超智慧的過渡進展順利。

如果有人認為，若在目前的競賽動態下開發人工通用智慧（ASI），很可能會導致災難性的後果，他們就更有可能致力於方案 1。

如果有人認為，只要我們投入一點安全努力，就有可能讓 ASI 順利發展，或者認為這至少比獲得強力的國際減速更容易，他們就更有可能致力於方案 2。

此外，還存在一些動態，即人們與觀點相似的人聯繫更緊密，這導致了觀點的進一步聚集。

但歸根結底，這些方案並非互不相容。

預設情況下，人們可能會期望許多支持方案 1 的人會想：「嗯，是的，在方案 1 失敗的情況下，也投入一些精力在方案 2 是件好事，但我對方案 2 不抱太大希望。」而支持方案 2 的人可能會想：「嗯，是的，方案 1 會更安全，但對我來說這似乎非常不切實際，所以我專注於方案 2。」

事實上，可能確實有許多人持有這樣的觀點。

然而，投入到方案 2 的資金量似乎遠遠大於投入到方案 1 的資金量^([2])，以至於即使對於對方案 2 抱有更多希望的人來說，投資方案 1 似乎也更有影響力。

即使你認為方案 1 極不可能成功，如果它真的能奏效，這並不代表方案 1 是不好的。然而，在我看來，許多人似乎不願公開表態支持方案 1 是件好事，例如透過簽署聲明，如超智慧聲明。^([3])

我認為問題至少有一部分在於，還存在一些人（稱之為第 3 類人），他們受地位動機驅使，然後將其合理化為：他們需要率先開發出 ASI，因為他們會做得最安全。如果你要求他們做些什麼來支持方案 1，他們會合理化出一些理由拒絕。

那些真心受幫助人類的動機驅使，並最終致力於方案 2 的人（稱之為第 2 類人），通常與第 3 類人處於同一個社群。因此，由於從眾心理和信念滲透，這些人也變得更不願意支持方案 1。

這當然是過度簡化的，實際上在第 2 類（較不混亂）和第 3 類（較混亂）之間存在一個光譜，這也是為什麼看起來更像是一個「第 2+3 類」集群，以及一個粗略的「對齊悲觀主義者」集群。

我擔心「你站在哪一邊？」這個問題會導致第 2 類人與第 3 類人靠得更近，而不是與對齊悲觀主義者站在一起；並且擔心是否支持方案 A 的問題會變得兩極分化，儘管在我看來，即使持有合理的相對樂觀信念，支持方案 A 通常也是合理的。（我想這種情況在很大程度上可能已經發生了，但讓我們嘗試讓情況變好而不是變糟。）

而且，即使你認為另一方正在做無用或甚至有害的事情，請記住，我們——對齊悲觀主義者和第 2 類人——在這裡都是為了同一個目標而奮鬥，只是信念不同，我們都希望盡可能多的人擁有盡可能準確的信念。讓我們嘗試與那些不同意我們觀點的人進行富有成效的理性討論，這樣我們就能消除內心的謬誤，並能更好地實現我們的目標。好吧，這也許太理想化了，我想很多人認為專注於自己的計劃比與另一方交流更有效，但至少讓我們把這個理想記在心裡，不要兩極分化，也不要被外群體偏見所左右。

就我個人而言，我是一個對齊悲觀主義者，我有興趣在接下來的幾週內與第 2 類人進行一些「模型同步（model syncing）」^([4])。所以如果你有潛在興趣，請私訊我，特別如果你是一位獲得相當認可的研究員並願意為此投入數小時。^([5])

此外，如果你確實認為方案 A 成功會帶來淨負面影響，我很想知道原因。（明確地說，標準應該是「國際性地停止競賽在預期上似乎比沒有國際協調的預設情況更糟」，而不是「它似乎比以後當我們擁有可以幫助安全研究的更聰明 AI 時再進行國際合作更糟」，也不是「它似乎比那種我們有效地將美國在安全方面的領先優勢耗盡的樂觀替代方案更糟」^([6])，也不是「方案 A 的糟糕執行——即我們仍然面臨秘密的政府競賽——似乎更糟」。）

^(^)是的，方案 1 在這裡定義不明確。它可能是禁止 AI 研究但帶有 AI 安全專案的退出計劃，或者不帶退出計劃。如果你認為某些版本是好的，而某些版本比什麼都不做還糟，那麼僅僅在這裡採取粗略的支持/反對立場並不適合你。
^(^)明確地說，如果某件事是 AI 政策，並不意味著它就算作方案 1。有很多 AI 政策努力是針對那些基本上對解決生存風險（xrisk）毫無幫助的政策。我不確定這裡有效的資金如此之少，是因為 Openphil 不想要方案 1，還是因為他們只是直覺上對跨越奧弗頓之窗（Overton window）感到不舒服，或是其他原因。
^(^)我同情不願簽署的多種理由。我認為歸根結底，簽署通常還是更有意義的，但隨便吧。
^(^)模型同步 = 旨在更全面地理解彼此的個人世界模型並識別關鍵點（cruxes）。並非旨在說服。
^(^)關於我的資訊，如果你有興趣：我對例如 Paul Christiano 的論點有相對較好的了解（源於我 3 年前的深入研究），但仍然不太理解這如何能得出如此低的毀滅概率，考慮到我們正處於一場沒有太多安全餘地的競賽中。我最有興趣更好地理解這部分，但也願意為有興趣的人分享我的模型。我完全願意閱讀更多最重要的讀物，以更好地理解樂觀派的一方。在過去的 3.5 年裡，我主要從事非平庸（non-prosaic）AI 對齊研究，儘管我現在正轉向致力於方案 1。
^(^)儘管那一點對我來說已經很難接受了，我也很樂意討論這一點。

— Lesswrong

你的個人知識庫

計畫一與計畫二