AI安全領域低估了創始人的價值

Lesswrong·

AI 安全領域系統性地低估了創始人與領域建設者的價值,這造成了阻礙生態系統擴張並應對生存風險的瓶頸。我們必須刻意提高創始人的地位,並降低創辦新組織的阻力,以追上尖端 AI 公司的快速成長。

TL;DR: 在 AI 安全領域,相較於研究人員和多產的作家,我們系統性地低估了創始人(Founders)和領域建設者(Field-builders)的價值。這種地位梯度將有才華的潛在創始人和放大者(amplifiers)推離了生態系統,減緩了研究機構和人才漏斗的增長,並瓶頸化了我們擴展 AI 安全領域的能力。我們應該有意識地提高創始人和領域建設者的地位,並降低創立與擴展新 AI 安全組織的阻力。

認識論狀態(Epistemic status): 包含許多觀點,但實證支持少於我的預期。此外,由於我本身就是一名 AI 安全組織的創始人和領域建設者,顯然存在利益衝突(COI)。

與 ChatGPT 共同撰寫。

為什麼要推動 AI 安全創始人?

  • 乘數效應: 優秀的創始人和領域建設者在招募、培訓和部署 AI 安全人才方面具有乘數效應。在 MATS,導師申請每年增長 2.2 倍,學員申請每年增長 1.8 倍,但已部署的研究人才每年僅增長 1.25 倍。如果我們想在未來 8 年內將 AI 安全領域擴大 10 到 100 倍,我們需要的是乘法級的能力,而不僅僅是邊際的人員聘用;培訓計畫和創始人是主要的限制因素。
  • 反相關屬性: 「創始人模式」在某種程度上與「對 AI 的擔憂」天性相悖。最關注 AI 災難性風險的認知風格(懷疑、風險規避、專注理論)與吸引風險投資(VC)、創立公司和發布最小可行性產品(MVP)的風格並不相同。如果我們想要 AI 安全創始人,我們需要抵消對風險承受型認知風格的篩選偏見,以防止人才流失並吸引更多創始人型人才加入 AI 安全領域。
  • 不利的激勵機制: AI 安全領域主流的激勵梯度背離了創始人角色。較高的社會地位、較高的薪酬以及更好的辦公室/顧問資源通常流向研究職位,因此局部最優解是「成為一名研究員」,而不是「創立某個組織」。許多成功的 AI 安全創始人從事研究密集型工作(例如:Buck Shlegeris, Beth Barnes, Adam Gleave, Dan Hendrycks, Marius Hobbhahn, Owain Evans, Ben Garfinkel, Eliezer Yudkowsky),而地位階梯似乎獎勵技術聲望勝過基礎設施建設。在主流科技界,創始人的地位遠高於 AI 安全領域,而 e/acc(有效加速主義)與 AI 安全支持者在爭奪 VC 資源和公眾輿論方面可以說處於競爭狀態。
  • 創始人效應: AI 安全(或至少是 AI 安全性/Security)似乎即將成為主流,AI 安全生態系統應該爭取資源,否則就會讓較差的替代方案蓬勃發展。一些意想不到的盟友,包括 MAGA(如 Steve Bannon, Marjorie Taylor-Greene)、兒童安全遊說團體和 Encode AI,最近聯手擊敗了 Ted Cruz 提出的暫緩州級 AI 立法 10 年的提案。民意調查 顯示,AI 安全正成為日益增長的公眾關注點。今年有許多 VC 資助的 AI 安全新創公司成立(例如:AISLE, Theorem, Virtue AI, Lucid Computing, TamperSec, Ulyssean),包括透過 YC 成立的公司。我們有機會引導公眾興趣和資本轉向更大的影響力,但前提是我們能足夠快地招募和部署創始人。

我們是如何走到這一步的?

  • 學術根源: 推廣 AI 安全的「有效利他主義」(EA)和「理性主義」運動的創始人,大多是學術界人士和科技界的個人貢獻者,而非創始人和運動建設者。長線主義 EA 和理性主義文化通常更獎勵認識論的嚴謹性、道德上的審慎以及「孤獨天才」式的技術貢獻,而非建立公司、發布產品和協調人員。理性主義者推崇「巫師力量」(如做出原創研究貢獻),而非「國王力量」(如募集並組織研究大軍來解決 AI 對齊問題)。
  • 偏頗的聚光燈: AI 安全生態系統的聚光燈(如 80,000 Hours)選擇性地放大研究人員和學者,而非創始人。當 AI 安全創始人出現在 80,000 Hours 的播客中時,他們幾乎總是擔任研究密集型角色。重要的 AI 安全領域建設組織(如 BlueDot, MATS, Constellation, LISA, PIBBSS, ARENA, ERA, Apart, LASR, Pivotal)或影響力較小的研究組織(如 Apollo, EleutherAI, FAR.AI, Goodfire, Palisade, Timaeus)通常未獲得太多關注。80,000 Hours 關於「解決頂尖問題的新專案創始人」的職業評論感覺像是一個未完成的草稿。Open Philanthropy 的徵求建議書(RFP)在技術上支持資助新組織,但在其品牌宣傳中,這被對個人貢獻者的關注所掩蓋。
  • 增長厭惡: AI 安全的資助者(有時是刻意地)限制了初創組織的增長。「組織快速擴張是危險的」這種氛圍讓創業感覺像是反主流文化。在特定情況下限制組織增長可能是正確的,但這通常會降低對資助者支持雄心勃勃專案的信心,從而產生對建設組織的負面激勵。2022 年的一份具影響力的備忘錄反對在 AI 安全領域進行「大規模運動建設」,理由是這會稀釋該領域的品質;隨後,領先的 AI 公司以每年 2-3 倍的速度增長,顯然並不擔心稀釋。培訓計畫(如 BlueDot, MATS, ARENA)和孵化器(如 Catalyze Impact, Seldon Lab, Halcyon Futures)相對於需求出現得較晚;即便現在,它們相對於它們協助建立的研究組織,仍處於較低的地位。

潛在的反對意見

  • 我們沒有足夠的好點子來大規模部署人才,所以創始人/領域建設者並不重要。 我不同意;我認為有許多充滿前景的 AI 安全研究議程可以吸收人才並獲得高影響力的回報(例如:AI 控制可擴展監督AI 治理開放權重安全機械解釋性遺忘學習協作式 AIAIXI 安全 )。此外,如果點子是瓶頸,那麼「基於成功案例的方法」(hits-based approach)似乎是理想的!我們應該發布更多 AI 安全點子的懸賞競賽、議程孵化器(如 RefinePIBBSS x Iliad 駐點計畫),以及研究計畫(如 AE Studio 的「被忽視的方法」倡議)。大多數聰明的人都在 AI 安全生態系統之外,因此推廣和擴張對於催生更多 AI 安全議程至關重要。
  • 我們應該小心不要因為擴張太快而稀釋了該領域的品質。 我坦白說我並不真正理解這種擔憂。如果推廣管道吸引了大量低素質人才進入 AI 安全領域,我們可以對研究資助和 ARENA、MATS 等第二階段計畫執行高標準。如果 LessWrong 或 EA 論壇充斥著低質量的貼文,我們可以調整內容審核或聲望(karma)對可見度的影響。作為最後手段,可以透過限制資助來縮減領域增長。此外,擴大 AI 安全領域遠非保證會降低平均研究品質,因為大多數聰明人並未從事 AI 安全工作,且直到最近,AI 安全在學術上的認可度都很低。即使擴大領域降低了研究人員的平均品質,我預期這仍會產生更多的淨影響力。
  • 偉大的創始人不需要幫助或呵護;無論如何他們都能成事。 雖然許多偉大的創始人在缺乏孵化器或慷慨的啟動資金的情況下也能成功,但 Y Combinator 確實孕育了一些偉大的新創公司!增加更多資源來幫助創始人不太可能產生負面價值,並且很可能幫助那些無法進入 Constellation、LISA 或 FAR Labs 等高價值空間(資助者和 AI 安全引領者常出沒的地方)的潛在創始人。舉例來說,如果不是因為 2021 年 12 月至 2022 年 1 月 Lightcone Infrastructure 的 Icecone 工作坊,我可能很難建立必要的聯繫並留下良好的印象來幫助 MATS 擴大規模。

我們應該做什麼?

  • 敘事轉變: 像 80,000 Hours 這樣知名的播客應該發布更多與 AI 安全創始人和領域建設者的訪談。應該有人推出「AI 安全創始人」播客/電子報,聚焦頂尖創始人及其歷程。
  • 職業路徑: 80,000 Hours 和 Probably Good 等職業諮詢機構應在指南和諮詢中,將「AI 安全組織創始人」和「AI 安全領域建設者」列為一等職業路徑。應突出 Halcyon Futures, Catalyze Impact, Seldon Lab, Constellation Incubator 等孵化器的重要性。
  • 資本對接: Open Philanthropy 等資助者應發布明確針對新組織成立的 RFP,並提供他們希望創立的高影響力專案範例
  • 社交平台: Constellation, LISA, FAR Labs 和 Mox 等 AI 安全中心應為有志成為創始人的人舉辦活動。領域建設計畫應啟動創始人網絡,為導師/顧問、資助者/VC 以及財政贊助組織提供引薦。

如何成為創始人

Lesswrong

相關文章

  1. 支持人工智慧安全能力建設工作的理由

    大約 1 個月前

  2. AI 安全領域最大的缺口不是研究員,而是通才

    10 天前

  3. 人工智慧安全僅剩 12 個月的窗口期

    大約 2 個月前

  4. 如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了

    2 個月前

  5. 對齊的虛假性

    The Gradient · 超過 2 年前