反駁我對OpenPhil過去AI信念的看法

Lesswrong·4 個月前

我要求有效利他主義社群與 Open Philanthropy 提供證據，證明在 ChatGPT 出現前，那些預測 AI 發展時程更短、毀滅風險更高的異議觀點，確實曾對資金分配與公開宣傳具有決策影響力。

在許多場合中，我私下被要求對有效利他主義（EA）/ EA 的歷史 / EA 的影響力提出批評，而我也即興發表了一些令我感到愧疚的言論，因為這些言論尚未經過 EA 的批判與反駁。我需要寫下我的看法，並讓各位試著擊倒它。

在我能夠或應該嘗試寫下那份看法之前，我需要核實一個關於過去二十年發展的核心信念。我的信念是：Open Philanthropy Project（OpenPhil）、廣義的 EA，特別是牛津大學的 EA，對於 AI 的時間線（timelines）以及人工超智慧（ASI）毀滅的條件機率有著錯誤的判斷；而這些以無效方式得出的信念主導了資金分配，並在犧牲更理智信念的情況下，被明確且公開地推廣。

OpenPhil / 牛津 EA 關於時間線推理的一個典型例子是，直到 2020 年，他們對時間線的立場似乎仍以 Ajeya Cotra 的「生物時間線」（Biological Timelines）估計為中心，該估計將通用人工智慧（AGI）的中位數時間線定在 30 年後。據我回憶，領導層對此觀點的異議，通常集中在認為中位數時間線應該更長而非更短。

關於 AI 毀滅定位不佳的一個典型例子是 Joe Carlsmith 的《追求權力的 AI 是否構成存在風險？》（Is Power-Seeking AI an Existential Risk?），該文運用了明顯的多階段謬誤（Multiple Stage Fallacy），從而得出這項風險約為 5% 的結論。

我記得 OpenPhil 的人員曾親口告訴我，Cotra 和 Carlsmith 代表了 OpenPhil 的觀點，且這類世界觀將決定 MIRI 獲得 OpenPhil 資助的機會；也就是說，我們應該預期資助決策會以這些觀點為前提，如果我們想要獲得資助，就必須嘗試針對這些前提進行論述。

在最近我闡述目前對 EA 錯誤分析的私人對話中，我聽到有人反對說：「但這並非 OpenPhil 的官方觀點！你看，OpenPhil 內部也有人討論不同的觀點！」我認為他們未能體會到，在對一個大型派系實際行為的組織心理學分析中，僅僅對異議討論的寬容並非核心。此外，當我提出「這些錯誤信念實際上處於主導地位」的觀點時，EA 成員一貫反應驚訝且沮喪。他們掌握的資訊可能比我更充分；我當時是個局外人，並沒有過多參與我當時評估為「敗局已定」的事務。我想知道 OpenPhil 組織歷史的真實事實，無論事實為何。

因此，我向 EA 成員 / OpenPhil 人員 / 牛津 EA 拋出這個問題：是否有強烈或微弱的證據顯示，任何不同於「AGI 中位數 > 30 年」和「AI 徹底毀滅 < 10%」的異議觀點（即指向更短時間線和更高毀滅機率的正確方向；且是在 ChatGPT 出現之前提出的），曾被允許對大量資金流向行使決策權？或者 OpenPhil 的聲譽與宣傳權重，是否曾在任何時點被用於推廣這些異議觀點（在正確的方向上，且在 ChatGPT 出現之前）？

對我來說，這是我私下給出的評價對 OpenPhil 是否公平的關鍵。OpenPhil 內部對異議觀點口頭討論的寬容並非關鍵。EA 論壇上的文章也不是關鍵，即使署名包括 OpenPhil 的中層員工。

公開聲明說「但我確實承認 2036 年有 10% 的 AGI 可能性」，或者「在確實出現 ASI 的前提下，我確實認為有很大機率會出現更廣泛的結果，包括出現大量人類意識上傳，生物人類因此被邊緣化」，這些在我看來並不能免責；相反，這正是我所認為的 EA 更大問題的一個明確實例，也是它造成損害的主要方式。

（例如，想像你的蒸汽船在撞上冰山後正在下沉，你正大聲呼籲所有乘客前往救生艇。當似乎有少數乘客開始給予些微關注時，某個穿著比你負擔得起的高級得多、看起來更嚴肅西裝的人站了出來，開始宣稱根據他們自己的專家分析，船隻確實有 10% 的機率早在下週就因進水過多而沉沒；且他們認為這有 25% 的機率產生一類廣泛且真正值得關注的損害，例如許多乘客需要游泳前往船隻的下一個目的地。）

我已經要求「修格斯」（shoggoths，指 AI）幫我搜尋了，如果你們也各自去要求大型語言模型（LLM）搜尋，那可能代表重複勞動。我想知道內部人士是否擁有我作為局外人所不知道的反面證據。如果我目前的看法是錯誤且不公平的，我想知道；這並不等同於承諾我很容易被說服，但我確實想知道。

我重複一遍：你們應該理解我的看法是一個組織心理學懷疑論者的看法，他本身並不會對表面上寬容異議觀點、邀請人發表異議演講、異議者仍被邀請參加派對等行為感到印象深刻。這些都不會讓我驚訝。我不認為這足以構成組織的最佳實踐。只有當有人能證明在 ChatGPT 出現之前，存在與「AGI 中位數 30 年或更長」及「徹底毀滅 10% 或更低」相反的觀點，且這些觀點在控制資金處置和思想公開推廣方面具有實際的權力時，我才會感到驚訝。

（如果你懷疑我是否具備對此類話題的證據低頭的能力，請觀察 Twitter 上的這個過往案例，在證據顯得具有決定性的那一刻，我立即且不加爭辯地承認 OpenPhil 是正確的而我是錯誤的。（選擇這個例子可能看起來像在諷刺，但實際上並非諷刺；對我來說，很難找到其他案例，在我的視角下，出現了明確具體的證據證明我絕對錯了而 OpenPhil 絕對對了；而在那個案例中，我確實立即承認了。））

— Lesswrong

你的個人知識庫

反駁我對OpenPhil過去AI信念的看法