newsence

支持人工智慧安全能力建設工作的理由

Lesswrong·26 天前

我認為人工智慧安全領域的能力建設工作具有極高的影響力且被嚴重低估,透過招募與培養人才來應對全球災難性風險,能產生顯著的乘數效應。

太長不看(TL;DR):

  • 我認為目前在大型組織從事 AI 安全技術或政策工作的許多邊際雇員(包括 Apollo、Redwood、METR、RAND TASP、GovAI、Epoch、UKAISI 以及 Anthropic 的安全團隊等),都有能力創辦(或成為早期員工)專注於建立 AI 安全能力的組織,且這樣做會產生更大的影響力。
  • 我認為這類工作的影響力案例得到了基本原理論證(乘數效應)、我所在的 Coefficient Giving 團隊進行的大規模調查研究,以及我們與從事 AI 風險工作的人員進行的許多個人對話的支持。這些證據表明,過去的能力建設工作對現在從事 AI 安全的人員產生了巨大且可預測的影響。

*轉載自 *Multiplier

我在 Coefficient Giving(原名 Open Philanthropy)全球災難性風險部門的能力建設團隊工作。我們的職責大致是增加旨在預防前所未有的全球災難性事件的人才數量。目前,我們主要關注 AI,並資助了許多讀者可能熟悉的項目和受資助者——包括 MATS、BlueDot Impact、Constellation、80,000 Hours、CEA、the Curve、FAR.AI 的活動、大學社團以及許多其他工作坊和項目。

本文旨在論證:廣義上的能力建設工作(包括 AI 風險領域)一直以來且持續具有極大的影響力,並鼓勵人們考慮從事相關項目和職業。

這篇文章是從我個人角度撰寫的;即便如此,我的感覺是 Coefficient Giving 的許多員工以及 AI 安全領域的其他人都認同我的觀點。我在本文末尾引用了他們的一些話。

我寫這篇文章的部分原因是希望糾正我所察覺到的一種不對稱:即我和 Coefficient Giving 的其他人對這類工作的興奮程度,與 EA(有效利他主義)和 AI 安全社群對從事這類工作的興奮程度之間的落差。能力建設團隊是 Coefficient 負責 AI 風險的三個主要團隊之一;我們目前有 11 名員工,佔 AI 贈款總能力的 1/3,並在 2025 年捐贈了超過 1.5 億美元。我於 2021 年開始在 Coefficient Giving 工作,當時一半時間負責技術性 AI 安全贈款,另一半時間負責能力建設贈款;出於多種原因,我最終轉向全職從事能力建設,因為我覺得該團隊的影響力要高出數倍(甚至是一個數量級)。現在情況似乎有所不同(我認為技術性 AI 安全贈款的機會集比 2021 年好得多),但我仍覺得能力建設作為一個工作領域,相對於其影響力仍被嚴重低估。

支持能力建設工作的理由

對這類工作最直觀的論證(通常稱為乘數效應論證)大約是這樣的:假設你可以花一點時間自己做直接工作(direct work),或者花同樣的時間引導一位同樣有才華的朋友在餘生中從事直接工作。引導朋友從事直接工作很可能是影響力更大的選擇,因為你通過讓另一個完整的人將職業生涯投入到你認為重要的工作中,從而「倍增」了你一生的影響力(在這種情況下,幾乎翻了一倍)。

事實上,這個論證是否成立取決於幾個前提:即你原本會做的直接工作有多好,以及說服與你同樣有才華的人有多大的可行性。我現在先跳過第一個前提(並嘗試在後面的章節中討論它),並展示我們團隊多年來收集的證據,這些證據讓我認為這項工作非常可行——特別是,有一些易於執行的干預措施可以可靠地大幅影響人們的職業軌跡。直覺上,你可能會認為人們的職業選擇是隨機且混亂的,很難通過改變人們的工作內容來產生實質性影響。但事實上,我們觀察到的軼事證據和我們嘗試的大規模數據收集(均見下文)都表明,有意識的努力對個人職業軌跡有很大影響(包括那些後來從事高影響力工作的人)。我認為這個核心事實構成了能力建設工作值得投入的主要理由。

我會簡要提到,雖然下文的案例側重於能力建設的成功,但我確實認為這項工作有造成傷害的潛力,儘管我的總體觀點是,由深思熟慮、了解背景的個人執行的努力在預期上是非常積極的。我在附錄中簡要討論了這一點。

調查

2020 年和 2023 年,我們團隊進行了兩次類似的深度調查,詢問了數百名目前從事(或相對可能從事)具影響力的全球災難性風險(GCR)工作的人員,是什麼影響了他們的職業軌跡。受訪者包括 AI 實驗室的員工、AI 領域關鍵技術、政策和能力建設組織的工作人員,以及看似有前途的早期職業人士。調查的目的是評估我們團隊所做贈款的影響,並為 Coefficient Giving 對整體能力建設工作的看法提供證據。

調查使用多種提示來引導受訪者提供關於影響其職業選擇的證據。其中一個部分要求受訪者在無提示的情況下列出對其當前職業軌跡最重要的前 4 個影響因素(包括「我的伴侶」、「天生的好奇心」等)。

在 2023 年,60% 的受訪者在他們的前四大影響因素中列出了我們團隊資助的能力建設項目或組織,最常見的是大學社團(25% 的受訪者列出)、80,000 Hours(20% 的受訪者列出)和 EAG/EAGxes(12% 的受訪者列出)。

請參見下表,其中列出了常見的影響因素,並手動(且帶有主觀性地)分類。請注意:

  • 有多種理由認為產生此表的自我報告可能存在偏差或不具代表性——受訪者來源較為隨機,部分來自從事能力建設工作的組織本身,且受訪者可能因為調查是由我們發起的,而傾向於想到 Coefficient Giving 資助的項目或組織。(在我們使用這些數據時,我們會嘗試修正這些效應。)
  • 至關重要的是,這項調查是在 2023 年進行的,主要捕捉的是 2020 年至 2022 年的效應,也就是說,不應將其視為關於這些影響因素的最新證據,或關於現在哪些影響因素效果最大的證據(儘管我認為上面列出的許多因素仍持續產生相當大的影響)。
無提示項目列為前 4 大影響因素的受訪者比例 (2023)計數 (總計 329)
大學社團25%82
80,000 Hours20%66
EAGs/EAGxes12%38
Eliezer 的著作11%37
廣義群體7%22
Will MacAskill 的著作5%17
Lightcone5%15
- LessWrong4%12
Peter Singer 的著作4%14
Open Philanthropy4%14
Bostrom 的著作4%12
Toby Ord 的著作4%12
EA Forum3%11
Redwood3%9
- MLAB 或 REMIX2%7
FHI3%9
Scott Alexander 的著作3%9
FTXF2%7
ESPR2%7
GCP2%7
EA2%6
SERI MATS2%6
Atlas Fellowship2%6
AGISF 線上課程2%5
Cold Takes2%5
GPI2%5
Rethink Priorities2%5

證言

我無法分享上述調查中個人的自由書寫回覆,但我最近親自詢問了一些我認為正在從事高影響力工作的人,請他們告訴我他們是如何開始這項工作的,以及他們認為對其軌跡最重要或最具反事實(counterfactual)影響的因素是什麼。

以下我附上了 Claude 對他們整體故事的總結,以及他們對最重要影響因素的描述(經過輕微編輯)。關於我包含的證言的一些說明:

  • 這些顯然在一定程度上是由我挑選的,旨在展示我們所見數據的風格,而非代表所有人進入該領域的忠實呈現。
  • 我選擇了那些相對較近(過去 5 年內)開始從事 AI 安全相關工作,但我認為現在至少在表面上從事具影響力工作的人。這包括許多在 2022 年或更早參與的人,與上面的調查數據類似,我不建議直接推斷他們討論的那個時期的具體影響因素的有效性,儘管我認為廣義的影響因素類別(大學和地方團體、特定內容和著作、項目和活動)今天仍然非常有影響力——見下文
  • 在其他效應中,我認為在 2023 年之前,AI 安全領域中更多從事具影響力工作的人是通過有效利他主義而非直接通過 AI 安全參與進來的——現在,我認為人們直接接觸 AI 安全的情況更為普遍。

Neel Nanda(Google DeepMind 高級研究科學家)

「以下是對我產生顯著影響的清單:

  • 14 歲時,我讀了**《哈利波特與理性之道》(HPMOR)**,並由此接觸到了 LessWrong 和有效利他主義,對這些領域產生了普遍的好奇心。
  • 17-18 歲時,參加了 ESPR,吸收了一堆關於雄心、能動性、更清晰思考的想法,並與社群建立了各種面對面的聯繫。
  • 在大學(劍橋)期間,常與有效利他主義社群混在一起,並因此結交了朋友。結識了 EA 社群,尤其是劍橋以外的社群,普遍吸收了這種文化,並產生了『也許我應該在職業上為此做點什麼』的感覺。
  • 預設情況下,我相當確定自己會進入金融業,同時感到高度不確定,並認為 AI 安全有點奇怪且模糊。
  • 大二時(三年制學位),我與 80,000 Hours 進行了一次通話,我的兩個主要更新是:
    • 我對 AI 安全職業過於追求完美,我應該先收集信息,而不是試圖弄清楚我是否非常有信心餘生都想做這件事。
    • 此外,與各種實際從事這項工作的人建立了聯繫,包括實驗室的實證工作,這讓我對這項工作的實際樣貌有了更清晰的認識。(實際上我已經認識一些有聯繫的人,只是缺乏自己去接觸的能動性/靈感。)
  • 本科畢業後,我原計劃讀碩士,但那是 2020 年,因為疫情的關係那變得很沒吸引力。我差點接受了 Jane Street 的全職錄取,但後來決定自己太過風險厭惡,應該通過連續做一年的 AI 安全實習來收集信息。
  • 之後我在 FHI 實習做 AI 安全理論研究,這在影響力方面沒什麼用。然後在 DeepMind 做了一些實證但影響力不大的工作——這對於給我一個更明確的『這是一條職業路徑』的感覺非常有價值,讓我感覺這是一個我可以學習和做的具體事情,而且我正在學習真正的技能。還有 CHAI,由於遠程加上 8 小時時差,加上不太合適,也有點混亂。
  • 我認為這一年關鍵的顯著更新只是更多地思考 AI 安全,與該領域的真實人士交談,並產生了一種更深刻的感覺:『這裡正在發生大事,我可以參與,我可以幫忙,而且我有現實的就業選擇。』
  • 然後我得到了 Anthropic 的工作邀請,決定接受,在 Chris Olah 的指導下遇到了一位出色的導師,並發現機械解釋性(mech interp)非常適合我,從那時起,我留在 AI 安全領域幾乎是命中注定的了。」

Max Nadeau(Coefficient Giving 技術性 AI 安全助理項目官)

Claude 的總結:

Max 在高中時就認定人類水平的 AI 會在他有生之年出現,且確保這個過程進展順利非常重要,但他不知道有人在研究這個。大學期間,他與 Stephen Casper 取得了聯繫,在那裡學習了實用的機器學習技能,並結識了將他引薦給 Impact Generator 靜修營負責人的人 [Asya 註:這是 2022 年在灣區舉辦的小型 GCR 主題工作坊系列],他後來受邀參加。他在那次靜修營中與 Tao Lin 交談,Tao 邀請他擔任 Redwood 舉辦的機器學習訓練營的助教,給了他三週時間學習材料。他原以為會在灣區待三天,結果待了六週。助教工作變成了在 Redwood 的實習,他為此休學了一個學期。實習期間他結識了 Ajeya,到他畢業時,她給了他一份工作。

Max 談到最重要的事情:

  • 「參加 Impact Generator 工作坊。那非常偶然,而且對我的職業生涯產生了重大加速。」
  • 「我認為,最初與(哈佛)現有的 AI 安全社群建立聯繫是非常具反事實意義的。我從對『也許這是我想做的事』有一種模糊的感覺,轉變為『哦,已經有人在研究這個問題了,而且他們有一整套思考方式』。」

Rachel Weinberg(The Curve 創辦人兼前負責人,目前在 AI Futures Project)

Claude 的總結:

Rachel 在高中時通過朋友接觸到有效利他主義,並在大學創辦了一個社團。她花了一些時間實習運行靜修營,最後幫助舉辦了 Future Forum,這是一個需要最後一刻更換場地的未來主義會議。她休學了一個學期研究 AI 安全,但決定對研究不感興趣,並做了一段時間的網頁開發。在運行 Manifest 2024 之後,她創辦了 The Curve,現在正在從事其他領域建設項目。

Rachel 談到最重要的事情:

  • 「(顯然)最初通過朋友接觸到有效利他主義(特別是 Nick Gabrieli)。
  • 協助 Future Forum,這源於在 Impact Generator 結識了 Leilani [Asya 註:這是 2022 年在灣區舉辦的小型 GCR 主題工作坊系列],然後她同意在最後一刻接手這個項目(我當時鼓勵她這樣做,但有些人反對)。我至少從在一個小型、混亂的團隊中受益匪淺,在那裡通過渴望承擔更多責任並貫徹執行,更容易脫穎而出。
  • 決定運行 The Curve,這在很大程度上取決於我的個性(老實說,Austin 在推動我的信心/信念達到願意承擔那種風險的門檻方面具有反事實的功勞),但也深受看到 Future Forum 自力更生的啟發。如果我不住在灣區,特別是舊金山,我可能也不會/不覺得自己有資格這樣做。」

Marius Hobbhann(Apollo Research 執行長兼創辦人)

Claude 的總結:

2015 年大學第一週,有人遞給他一本《超級智能》。他學習了認知科學,同時修讀了計算機科學學士學位,然後攻讀了機器學習碩士和博士學位,為 AI 安全工作做準備。2022 年,他開始利用長期未來基金(Long-Term Future Fund)的資助在業餘時間從事 AI 安全研究。他暫停了博士學位,在 2023 年初參加了 MATS,得出結論認為欺騙性對齊(deceptive alignment)是最大的問題,且沒有人在為此做評估,於是創辦了 Apollo 並運行至今。

Marius 談到最重要的事情:

  • 「在早期,我會說是那些當時已經在考慮 AI 安全的人。他們是我仰慕的人,他們也推動我去做 AI 安全,因為他們也認為這超級重要。
  • 個人資助對我也超級重要。因為這基本上意味著再也沒有藉口了。我真的很想從事 AI 安全工作,但總是有這樣的問題:這在財務上負責嗎?穩定的職業生涯怎麼辦?當你拿到資助時,這些擔憂似乎不再是大問題。當然,這也是一種動力提升,因為有人認為我足夠優秀,願意在我身上下注。
  • MATS 非常有影響力。沒有 MATS,Apollo 絕對不會存在。在那裡我有時間制定議程,進行大量實驗並找到優秀的創始成員。
  • 還有灣區的一群人,我與他們交談過,他們建議創辦 Apollo 並嘗試一下是個好主意,即使很有可能不成功。例如,我的 MATS 導師 Evan Hubinger 非常支持且樂於助人。
  • 噢,還有 AI 安全慈善生態系統。這就是我們獲得啟動資金的方式,讓我們能夠嘗試 Apollo。」

Adam Kaufman(Redwood Research 技術人員)

Claude 的總結:

Adam 從小就知道如果有人造出超級智能會很可怕,但假設這不會在他有生之年發生。上大學後,他加入了哈佛 AI 安全小組(HAIST)運行的 AI 安全基礎讀書會,覺得那裡的人非常酷,並在那裡結交了大部分親密朋友。隨著語言模型變得越來越聰明,他越來越相信問題的緊迫性。他在 HAIST 的靜修營中遇到了 Buck Shlegeris,與他交談後申請了 MATS。他在 Redwood 參加了 MATS,非常喜歡,以至於休學了,並在那裡工作至今。

Adam 談到最重要的事情:

  • 「絕對是,我認為身處一個由聰明人組成的社群中,他們計劃從事 AI 安全職業,並確信這是一個非常重要的問題,這對於讓我認真考慮自己應該從事這項工作可能是必要的。[...] 我認為 HAIST(哈佛 AI 安全團隊) 對我來說相當具有反事實意義。如果那個社團不存在,我想我會對自己應該做什麼感到更加沮喪和困惑。」
  • 「我認為有一次在熱水浴缸裡與 Buck 交談(在 HAIST/MAIA 靜修營),對於我獲得現在的工作可能具有反事實意義。」
  • 「絕對是,有機會**在 Redwood 實習(通過 MATS 或其他方式)**對於我(在那裡接受全職工作)是必要的。」

Gabriel Wu(OpenAI 技術人員(對齊))

Claude 的總結:

Gabe 在哈佛大一入學時收到了一本《懸崖》(The Precipice)。當時還沒有正式的 AI 安全團隊,但一群 7-10 人每週會在食堂聚會討論全球災難性風險,於是他加入了,最後去參加了在奧林達(加州)舉辦的一個長期的工作坊。他在接下來的冬天參加了 REMIX [Asya 註:這是一個機械解釋性訓練營],這將他介紹給了 Constellation 社群,然後申請了次年夏天的 Redwood 實習。在其他人畢業後,他成為了 HAIST(哈佛 AI 安全團隊)的新負責人。他曾與對齊研究中心(ARC)合作,申請了實驗室,最終被幾個人說服加入了 OpenAI。

Gabe 談到最重要的事情:

  • 「我認為很大一部分原因是得到了 [HAIST 學生] 的認可。他們確保推動我申請各種項目。真的感覺他們相信我,並想確保我不會在途中迷失。我認為這相當具有反事實意義,因為這讓我更有可能去參加 REMIX 等等。[...] HAIST 本身的存在就是很大一部分原因。」
  • 「我提到的另一件事就是,有機會訪問 Constellation。」

Catherine Brewer(Coefficient Giving AI 治理高級項目助理)

Claude 的總結:

Catherine 在大學前通過搜索職業相關內容找到了 80,000 Hours,然後讀了《Doing Good Better》。他們參與了牛津大學的有效利他主義社團,參加活動並幫助運行項目。通過社團,他們結交了熱衷於 AI 安全的朋友,並與他們爭論了很多次,這讓他們對 AI 安全產生了興趣。在社團的人告訴他們後,他們申請了 ERA 研究員計劃(當時稱為 CERI),並花了一個夏天與其他人一起思考 AI 安全。然後他們參加了 GovAI 研究員計劃,通過結識人才並對相關主題形成自己的看法,他們發現這更有幫助。在那之後,他們對 AI 治理產生了興趣,並在畢業時申請了 Open Philanthropy。

Catherine 談到最重要的事情:

  • 「也許只是因為牛津有一群已經在大量思考 AI 安全的人……這感覺是偶然的,很容易就不會發生,也許這讓我提前了六個月認真對待 AI 安全。但這引導我參加了夏季研究員計劃。」
  • 「我認為 GovAI 夏季研究員計劃 超級有幫助。我想這只是花了很多時間與許多其他從事這項工作的人在一起。我想我那時有了更好的網絡,也有更多時間去了解:人們實際上在做什麼?他們在研究什麼?並在一定程度上改進了我的思考。」

Aric FloydAI in Context 影片主持人)

Claude 的總結:

Aric 在十幾歲後期通過 Google 搜索最有效的慈善機構找到了 GiveWell,但直到 2020 年才發現更廣泛的有效利他主義社群,當時一位朋友發現了 CEA 舉辦的線上學生峰會。他認識領導史丹佛有效利他主義小組的人,但一直沒時間參與,後來受那些人的邀請協助麻省理工學院的一些社群建設工作。他還受邀參加了 Icecone [Asya 註:這是 2022 年舉辦的以 AI 風險為中心的工作坊],並從中被說服 AI 安全是一件大事,但不太相信理論對齊工作是前進的方向。他做了幾次短期的社群建設工作,並在 Atlas Fellowship 以及後來英國的 Apollo 項目教學時結識了 Chana Messinger。當 80K 開始考慮影片製作時,Chana 找了他,因為他們之前合作愉快,且 Aric 之前有影視表演經驗。Aric 此前曾受到 [資深 EA 領導者 / Will MacAskill 等人] 的鼓勵去從事面向公眾的內容創作,並決定嘗試一下。

Aric 談到最重要的事情:

  • 「絕對是來自社群內部人士的具體接觸。比如……早期能與 Will 通話很酷,我想這讓我更感覺到,哦,我也許有一個利基市場,可以為這個社群貢獻重大價值,否則這個人不會關注我。史丹佛的人特別要求我來幫忙。」
  • Icecone 顯然是一個更大的活動,但投入到每個參與者身上的資源量也相當驚人,因此也感覺像是一個巨大的、代價高昂的信號,表明:你個人花時間思考這些東西確實是值得的。在 Icecone 之後,我完全認同我應該用我的生命為此做點什麼。」

Ryan Kidd(MATS 負責人)

Claude 的總結:

Ryan 在高中時讀過 HPMOR 和 LessWrong,但直到 2020 年左右通過有效利他主義重新發現這個想法,他才預見到近期會出現 AGI。他在攻讀物理學博士期間共同組織了昆士蘭大學的有效利他主義小組,在那裡,他對災難性風險的興趣從氣候變化行動主義演變為核冬天建模,並在閱讀《懸崖》後轉向 AI 風險。他完成了第一期 AI 安全基礎課程,申請 FHI 和 CLR 未果,然後參加了 SERI MATS 試點計劃。他參加了在柏克萊舉辦的 Icecone [Asya 註:這是 2022 年舉辦的以 AI 風險為中心的工作坊],在那裡他遇到了 Holden Karnofsky、Ajeya Cotra、Buck Shlegeris 以及許多未來的同事。在與 John Wentworth 作為導師完成 MATS 研究階段時,他向共同組織者發送了一份文件,解釋他將如何改進該計劃,並受邀加入組織團隊。自 2022 年底以來,他一直與 Christian Smith 共同領導 MATS。

Ryan 認為最顯著的因素(按重要性排序):

  • 大學有效利他主義社團: 向我介紹了 ITN 框架、AI 安全以及一個我認同其價值的社群;給了我項目管理和領域建設的經驗。
  • 《懸崖》(The Precipice): 說服我 AI 是最迫切的全球災難性風險,我現在就應該為此工作。
  • Icecone: 把我從澳洲帶過來;將我與 AI 安全領域的頂尖專家和資助者聯繫起來;授權我擴大 MATS 和 LISA 的規模。
  • HPMOR: 讓我接觸到『英雄責任感』(heroic responsibility)的概念和 Eliezer Yudkowsky 的思想;向我介紹了 LessWrong、The Sequences,以及後來的 ACX。
  • SERI MATS 線上讀書會: 讓我接觸到 Paul Christiano、Evan Hubinger 和 John Wentworth 的思想;授權我在柏克萊進行 MATS 研究階段,這開啟了我的職業生涯。
  • CLR 申請: 讓我接觸到 Jesse Clifton 的思想,並加深了我對 Nick Bostrom、Anders Sandberg 思想的理解,所有這些對我在 MATS 的工作等都非常有影響力。
  • SERI MATS 研究階段: 給了我深入思考和廣泛閱讀 AI 安全的空間,這對擴大 MATS 規模至關重要。」

什麼方法往往有效?

雖然影響人們職業軌跡的一些干預措施相當獨特,但我們注意到有幾個大類往往對人們的職業生涯產生影響(其中許多在上面的證言中都有體現)。

  • 內容: 書籍、部落格、影片或其他內容——例如 Yudkowsky、MacAskill、Singer、Bostrom、Ord、Rob Miles、Scott Alexander、Kelsey Piper 和 80,000 Hours 的作品。

    • 請注意,雖然最成功的內容顯然極具影響力,但根據我們的經驗,內容製作具有長尾效應——也就是說,大多數製作內容的人應該預期其影響範圍不會太大。
    • 最近受歡迎的內容包括許多針對廣大受眾的 AI 安全特定作品,包括 Situational AwarenessAI 2027AI in ContextIf Anyone Builds It, Everyone Dies
  • 群體: 根據我們的數據,大學和地方團體(國家或城市級別)歷來主要關注 AI 安全或有效利他主義,非常有影響力。我們懷疑其他類型的群體(包括公司內部的群體或專注於特定專業人士的群體)也會表現良好。

  • 技能提升計劃: 課程、研究員計劃、訓練營(通常是線下的,但有時是線上的)——例如 BlueDot 的線上計劃MATSARENATarbell 以及許多其他 類似計劃

  • 活動: 會議、工作坊、靜修營——例如 EAGsFAR AI 的對齊工作坊The CurveGCP 的工作坊ESPR

    • 我認為這些活動產生影響的一種方式是,讓剛進入相關領域的人有機會與專業人士或具有更多專業知識的人進行互動(理想情況是一對一)(見上面的證言)。

值得注意的是,與內容不同,根據我們的經驗,即使項目和活動沒有達到極高的質量標準,也能產生相當大的影響,這使得它們成為更多人可以嘗試的工作。從軼事中總結,我推測項目和活動(尤其是與處於職業生涯相似階段的其他參與者一起參加的線下活動)通常會產生一種效果,即讓某人開始認真考慮改變職業的可能性,而之前他們可能只是以一種相當抽象或脫離的方式(例如在網上)參與。

  • [其他:] 雖然上述內容構成了我們經常看到的有效工作的很大一部分,但還有許多其他具影響力的干預措施(例如 LessWrong 和其他討論平台、像 80,000 Hours 這樣的職業諮詢、像 Constellation 這樣的共同辦公空間)不完全屬於上述類別。

現在適合做什麼?

我們最近的徵案說明提供了一些我們目前感興趣的項目示例。根據我們對過去有效經驗和當前 AI 風險格局的感知,簡要強調一些我或團隊中其他人認為不錯的具體事項:

  • 更多關於 AI 風險的高質量文字或影片內容,特別是那些可能觸及新受眾的內容。
  • 連接有前途的大學生與從事 AI 安全領域專業人士的靜修營
  • 搭建橋樑的活動(類似於 The Curve),將 AI 領域不同陣營的深思熟慮的人聚集在一起。
  • 為精英受眾(政策制定者、記者、學者等)設計的入門級 AI 風險工作坊
  • 針對新人的更大規模 AI 風險特定活動,類似於 EAG。
  • 為中期職業專業人士提供的基於灣區的 AI 風險項目

誰應該從事這項工作?

上述內容說明了為什麼你可能認為能力建設工作很有價值,但本身並沒有提供一個人原本可以做的其他事情的對比點(即直接工作,其本身也可能有自己的能力建設效益,例如通過創造證據證明某個領域有重要工作要做)。

我沒有一套嚴謹的方法來比較潛在直接工作與能力建設干預措施的價值,我認為這有很大的討論空間。即便如此,我還是會分享我的直覺,以及 Coefficient 其他一些人的直覺。

我通常鼓勵人們在個人層面上思考自己的職業選擇,但從整體人才分配的角度來看,我目前的看法是:目前在大型組織從事技術或政策工作的許多邊際雇員(包括 Apollo、Redwood、METR、RAND TASP、GovAI、Epoch、UKAISI 以及 Anthropic 的安全團隊等)都有能力創辦頂尖的能力建設組織,或成為其早期的策略制定員工,且這樣做會產生更大的影響力。

我認為最適合從事能力建設工作的人是那些具備(以下部分特質)的人:具備創業精神、社交能力強、執行力強,或者是相關學科領域的強大溝通者。 我認為運行項目或活動的工作特別側重於前三項,而製作內容則更側重於最後一項。

從事這項工作會是什麼樣子?

如果你認為自己可能是應該從事能力建設工作的人,這裡有一些你可以考慮的事情:

在該領域從事優秀工作的組織中工作

有許多正在積極招聘的組織,我認為它們正在從事具影響力的能力建設工作(請參見這個篩選過的 80K 職位公告欄),但在這裡我要推薦一些我認為優秀人才加入後會特別具影響力的組織。

如果你認為自己可能對以下任何一項感興趣但還在猶豫,你可以私訊我或填寫這份表格,我會爭取與你進行至少 15 分鐘的通話(如果看起來有用,時間會更長;上限為 20 次此類通話)。

Constellation - 執行長 (CEO)

Constellation 是一家位於加州柏克萊的研究中心和領域建設組織,託管了許多在 AI 安全領域從事具影響力工作的組織和個人。除了運行空間本身,它歷來通過該空間運行項目,包括 Astra FellowshipVisiting Fellows Program 以及許多一次性的工作坊和活動。

鑑於在那裡工作的高背景人才高度集中,我認為 Constellation 作為從事這項工作的人員的聚集地,以及作為一系列項目和活動的託管者,具有巨大的影響力潛力,包括(潛在地)旨在吸引政策制定者、AI 實驗室員工以及與 AI 領域相關的其他高風險參與者的項目。

Constellation 正在尋找新的執行長,我預計此人將是設定 Constellation 策略方向的主要個人。我認為這個職位將極具影響力,我希望他們能招到一位強有力的人選。

Kairos – 多個早期通才職位

Kairos 運行 SPAR(一個遠程 AI 安全研究導師計劃),為 AI 安全大學社團提供建議和資金支持,並承擔了為有前途的年輕人舉辦工作坊的工作。我認為有大量證據表明這三種干預措施的有效性(其中一些你可以從上面的證言中看到),而且我認為大學社團和針對年輕人的工作坊相對於其歷史影響力(仍然)被極度忽視。

我認為 Kairos 擁有一支非常強大的領導團隊和重要但被忽視的優先事項(此外,Agus 是一位很棒的推主),我認為對於他們來說,擁有能夠負責優先領域的強大通才早期員工將非常具影響力——他們計劃很快開啟多輪新的招聘,你可以填寫他們的一般意向表達表格,以加入這些職位的潛在候選人池。

開始或運行你自己的能力建設項目或組織

我們的團隊隨時接受資助申請上面的這個章節以及我們的徵案說明描述了一些我們可能特別興奮資助的 AI 能力建設項目,但我也鼓勵人們對什麼可能有效形成自己的看法,不要過於受限於過去的工作。

兼職從事能力建設項目

我們看到許多成功的能力建設工作完全是由那些在日常工作之餘兼職的人或組織開始或運行的,包括 MATS(由史丹佛大學全職學生發起)、許多具影響力的工作坊活動,以及大量廣為流傳公共傳播

訂閱 Multiplier,這是一個包含我們團隊(以及 CG 其他 AI 贈款工作人員)想法的 Substack。

讓我們團隊知道

如果你認為自己可能對這類工作感興趣或適合,但不確定從哪裡開始,我們希望你能通過填寫這份非常短的意向表達表格讓我們知道。 如果我們雷達上有我們認為特別適合你的項目或機會,我們會與你聯繫。(請注意,我們不預期會聯繫大多數填表者)。

社會證明

這篇文章是從我個人角度出發的,但我的感覺是,至少 CG 和 AI 安全領域其他一些人也認同我的立場。我請了幾位雖然不從事能力建設、但我認為對能力建設工作有實質了解的人分享他們的看法:

Julian Hazell,Coefficient Giving AI 治理與政策

「正如我之前寫過的那樣,我非常熱衷於能力建設。

有趣的是,Coefficient Giving 的職業發展資助和 GovAI 研究員計劃是我目前職業軌跡非常重要的投入。無論如何,我最終可能都會找到進入 AI 治理工作的路徑,但這些項目啟動了我的職業生涯,並使我比原本更快地成為一名有用的貢獻者。

在贈款方面,我資助了許多將能力建設作為變革理論核心部分的項目,我看到了令人興奮的成果。

如果我能揮動魔法棒,隨心所欲地重新組織 AI 安全社群的人才分配,我會將相當一部分目前從事研究和政策工作的人員轉移到能力建設中。我認為它就是被低估到了這種程度。」

Trevor Levin,Coefficient Giving AI 治理與政策

「我聯署這篇文章。為了讓世界更好地應對變革性 AI,還有很多事情要做,而這個生態系統中充滿了需要創辦人或再多幾位優秀員工就能產生更大影響力的項目。我們迫切需要更多有才華、有動力的人不斷出現。此外,對我以及我想對許多其他人來說,這項工作可以非常有成就感——它通常比其他類型的工作有更多的社交接觸和更短的反饋循環。」

Ryan Greenblatt,Redwood Research 首席科學家:

「我同意 Asya 的文章,並認為能力建設工作做得不夠且被低估了。一個不同點是,我會強調在該領域從事具體工作(object level work)的人員進行能力建設類工作的重要性。我既認為從事具體工作與能力建設是互補的,也認為從事具體工作的人應該花更大比例的時間從事/協助能力建設。」

Buck Shlegeris,Redwood Research 執行長

Asya: 我大致想聽聽你對我團隊資助的那類工作的看法。

Buck: 我不知道目前的分配情況。

Asya: 我們最大的受資助者是 MATS、CEA、Constellation、BlueDot、LISA、Tarbell、80K、FAR AI 的活動、一堆大學社團,還有一堆其他的。

Buck: 其中許多看起來都很不錯。我認為總的來說,嘗試進行能力建設,試圖讓人們思考與變革性 AI 相關的一系列問題,特別是讓具有規模敏感信念的人參與進來——我認為這類工作在歷史上進展得相當順利,並使我們處於一個可能比沒有它更好的位置。我對邊際上發生的這項工作感到興奮,我覺得每年我們都會因為當年或前一年所做的能力建設而變得更好一些。或者是那些組織所做的項目。這一切看起來都很棒。

Asya: 我在文章中提出的一個主張是:『目前在大型組織從事技術或政策工作的許多邊際雇員(包括 Apollo、Redwood、METR、RAND TASP、GovAI、Epoch、UKAISI 以及 Anthropic 的安全團隊等)都有能力創辦頂尖的能力建設組織,或成為其早期的策略制定員工,且這樣做會產生更大的影響力。』我很想聽聽你對這個命題的即時看法。

Buck: 我不知道他們中有多少人具備這種能力。我認為如果他們具備這種能力,他們應該強烈考慮這樣做。

也許有一點是——我認為 MATS 和 Redwood 代表了關於如何增加技術性 AI 安全研究的兩種不同哲學。我認為目前還很不清楚哪一個——我認為 MATS 至少看起來很有競爭力。它參與產生了大量我很高興存在的 AI 安全研究。而一個原本可能建議你不應該在早期從事 MATS 的啟發式方法,似乎已經被後世的結果擊碎了。

Asya: 太好了,這是我主要想問你的問題。你還有其他想補充的評論嗎?

Buck: 能力建設工作看起來很好。我鼓勵 Redwood 的員工參與能力建設工作;我認為這在邊際上值得他們花時間。我自己也會參與其中的一部分。」


附錄

我的文章在很大程度上側重於能力建設成功的案例,但我確實認為能力建設類別的工作有許多機制可能造成傷害,例如向廣大受眾誤傳關鍵思想、疏遠原本會同情這項工作的人,或者授權給最終使生態系統變得更糟的個人。雖然我認為這些效應是真實且具體的,但我的總體觀點是,該領域的負面影響可能已被正面影響大幅抵消,我的預期是,由深思慮、了解背景的個人執行的該領域大多數努力在預期上將是非常積極的,因此我覺得在當前邊際上發布廣泛的鼓勵從事這項工作的建議是合適的。

在不詳述的情況下,我的直覺來自於對多年來專注於全球災難性風險的團體所做工作的整體評估,我個人的最佳猜測是,即使考慮到重大的負面因素(例如 Sam Bankman-Fried 的行為),其淨效應也是非常積極的。即便如此,我也聽過許多關於為什麼情況可能並非如此,或者為什麼某些大類努力可能造成了不成比例傷害的論證,我在這裡基本上不會涉及——最終,解決這些問題不是本文的主要焦點,如果你覺得這對你對這類工作的看法至關重要,我鼓勵你找個時間親自來和我聊聊。

我會簡要地說,我認為在影響特定人群的個人干預措施層面上思考能力建設工作是有意義的,而且我認為對某些工作持懷疑態度與對其他工作感到興奮是相容的——鑑於這項工作(據我所知)具有很高的槓桿作用,我會鼓勵即使是持廣泛懷疑態度的人也去思考,是否存在某些特定的干預措施是他們去追求會更有意義的。

參與討論

https://lesswrong.com/posts/RyKDbBkemNuRezTvt/the-case-for-ai-safety-capacity-building-work