反駁我對OpenPhil過去AI信念的看法

反駁我對OpenPhil過去AI信念的看法

Lesswrong·

我要求有效利他主義社群與 Open Philanthropy 提供證據,證明在 ChatGPT 出現前,那些預測 AI 發展時程更短、毀滅風險更高的異議觀點,確實曾對資金分配與公開宣傳具有決策影響力。

在許多場合中,我私下被要求對有效利他主義(EA)/ EA 的歷史 / EA 的影響力提出批評,而我也即興發表了一些令我感到愧疚的言論,因為這些言論尚未經過 EA 的批判與反駁。我需要寫下我的看法,並讓各位試著擊倒它。

在我能夠或應該嘗試寫下那份看法之前,我需要核實一個關於過去二十年發展的核心信念。我的信念是:Open Philanthropy Project(OpenPhil)、廣義的 EA,特別是牛津大學的 EA,對於 AI 的時間線(timelines)以及人工超智慧(ASI)毀滅的條件機率有著錯誤的判斷;而這些以無效方式得出的信念主導了資金分配,並在犧牲更理智信念的情況下,被明確且公開地推廣。

OpenPhil / 牛津 EA 關於時間線推理的一個典型例子是,直到 2020 年,他們對時間線的立場似乎仍以 Ajeya Cotra 的「生物時間線」(Biological Timelines)估計為中心,該估計將通用人工智慧(AGI)的中位數時間線定在 30 年後。據我回憶,領導層對此觀點的異議,通常集中在認為中位數時間線應該更長而非更短。

關於 AI 毀滅定位不佳的一個典型例子是 Joe Carlsmith 的《追求權力的 AI 是否構成存在風險?》(Is Power-Seeking AI an Existential Risk?),該文運用了明顯的多階段謬誤(Multiple Stage Fallacy),從而得出這項風險約為 5% 的結論。

我記得 OpenPhil 的人員曾親口告訴我,Cotra 和 Carlsmith 代表了 OpenPhil 的觀點,且這類世界觀將決定 MIRI 獲得 OpenPhil 資助的機會;也就是說,我們應該預期資助決策會以這些觀點為前提,如果我們想要獲得資助,就必須嘗試針對這些前提進行論述。

在最近我闡述目前對 EA 錯誤分析的私人對話中,我聽到有人反對說:「但這並非 OpenPhil 的官方觀點!你看,OpenPhil 內部也有人討論不同的觀點!」我認為他們未能體會到,在對一個大型派系實際行為的組織心理學分析中,僅僅對異議討論的寬容並非核心。此外,當我提出「這些錯誤信念實際上處於主導地位」的觀點時,EA 成員一貫反應驚訝且沮喪。他們掌握的資訊可能比我更充分;我當時是個局外人,並沒有過多參與我當時評估為「敗局已定」的事務。我想知道 OpenPhil 組織歷史的真實事實,無論事實為何。

因此,我向 EA 成員 / OpenPhil 人員 / 牛津 EA 拋出這個問題:是否有強烈或微弱的證據顯示,任何不同於「AGI 中位數 > 30 年」和「AI 徹底毀滅 < 10%」的異議觀點(即指向更短時間線和更高毀滅機率的正確方向;且是在 ChatGPT 出現之前提出的),曾被允許對大量資金流向行使決策權?或者 OpenPhil 的聲譽與宣傳權重,是否曾在任何時點被用於推廣這些異議觀點(在正確的方向上,且在 ChatGPT 出現之前)?

對我來說,這是我私下給出的評價對 OpenPhil 是否公平的關鍵。OpenPhil 內部對異議觀點口頭討論的寬容並非關鍵。EA 論壇上的文章也不是關鍵,即使署名包括 OpenPhil 的中層員工。

公開聲明說「但我確實承認 2036 年有 10% 的 AGI 可能性」,或者「在確實出現 ASI 的前提下,我確實認為有很大機率會出現更廣泛的結果,包括出現大量人類意識上傳,生物人類因此被邊緣化」,這些在我看來並不能免責;相反,這正是我所認為的 EA 更大問題的一個明確實例,也是它造成損害的主要方式。

(例如,想像你的蒸汽船在撞上冰山後正在下沉,你正大聲呼籲所有乘客前往救生艇。當似乎有少數乘客開始給予些微關注時,某個穿著比你負擔得起的高級得多、看起來更嚴肅西裝的人站了出來,開始宣稱根據他們自己的專家分析,船隻確實有 10% 的機率早在下週就因進水過多而沉沒;且他們認為這有 25% 的機率產生一類廣泛且真正值得關注的損害,例如許多乘客需要游泳前往船隻的下一個目的地。)

我已經要求「修格斯」(shoggoths,指 AI)幫我搜尋了,如果你們也各自去要求大型語言模型(LLM)搜尋,那可能代表重複勞動。我想知道內部人士是否擁有我作為局外人所不知道的反面證據。如果我目前的看法是錯誤且不公平的,我想知道;這並不等同於承諾我很容易被說服,但我確實想知道。

我重複一遍:你們應該理解我的看法是一個組織心理學懷疑論者的看法,他本身並不會對表面上寬容異議觀點、邀請人發表異議演講、異議者仍被邀請參加派對等行為感到印象深刻。這些都不會讓我驚訝。我不認為這足以構成組織的最佳實踐。只有當有人能證明在 ChatGPT 出現之前,存在與「AGI 中位數 30 年或更長」及「徹底毀滅 10% 或更低」相反的觀點,且這些觀點在控制資金處置和思想公開推廣方面具有實際的權力時,我才會感到驚訝。

(如果你懷疑我是否具備對此類話題的證據低頭的能力,請觀察 Twitter 上的這個過往案例,在證據顯得具有決定性的那一刻,我立即且不加爭辯地承認 OpenPhil 是正確的而我是錯誤的。(選擇這個例子可能看起來像在諷刺,但實際上並非諷刺;對我來說,很難找到其他案例,在我的視角下,出現了明確具體的證據證明我絕對錯了而 OpenPhil 絕對對了;而在那個案例中,我確實立即承認了。))

Lesswrong

相關文章

  1. 我們未竟的資金討論

    4 個月前

  2. 一個高誠信/優良認知學的政治機器?

    4 個月前

  3. 告別開放慈善,加入Anthropic

    6 個月前

  4. 重新審視建造友善AI的競賽

    5 個月前

  5. 關於暫停 AI 抗議活動的思考

    大約 2 個月前