newsence
發起具影響力的 AI 安全專案所需的兩大技能組

發起具影響力的 AI 安全專案所需的兩大技能組

Lesswrong·17 天前

若要發起成功的 AI 安全專案,你需要結合追求採納率的創業技能與確保有效性的影響力技能,同時避免受動機性推理影響並理解影響力遵循冪次定律的現實。

你的專案可能在你毫無察覺的情況下正在走向失敗。

拯救世界並非易事。如果你正準備啟動一個新的人工智慧安全(AI Safety)專案,本系列文章將幫助你避開常見的陷阱。

在過程中你最可能遇到的失敗模式:

你從未開始。 創業是令人不安的,而 AI 安全又極其複雜。失敗模式多不勝數。要弄清楚如何做些有用的事情很難,所以很多人從未嘗試。與此同時,AI 安全領域中許多顯然「應該做」的事情卻尚未有人去做。你可能會誤以為這些事已經有人在做了,因此不予嘗試。

你進展緩慢、缺乏進展,最終陷入停滯。 你推出了一個工具——六個月後,你只有 12 個用戶。你不斷添加新功能,希望情況會有所改變,但現實卻毫無起色。

你感到「滿足」就好。 你認為自己所做的事情一定具有高影響力,僅僅因為它是 AI 安全的一部分。實際上,你本可以發揮比現在高出 10 倍的影響力。

你在不知不覺中失敗。 你擁有用戶、引用次數和參與者。但你實際上並沒有在降低生存風險(x-risk),而你卻沒有意識到這一點,因為你沒有追蹤你的影響力,或者追蹤的指標不正確。

為了邁向成功,你需要兩大類技能:創業技能(entrepreneurial skills)和影響力專屬技能(impact-specific skills),後者包括影響力評估和對 AI 安全的戰略性理解。同時精通這兩類技能的人非常罕見——我們確信自己也還沒做到。^([1])

影響力 = 採用率 × 有效性

要產生影響力,你需要:

  • 打造某樣東西(執行力)
  • 讓人們參與其中(採用率)
  • 以能產生影響力的方式進行(有效性)^([2])

可以粗略地理解為:影響力 = 採用率 × 有效性^([3])

你需要勝任的執行力才能「打造出任何東西」。但這還不夠。你需要找到「正確的東西」去打造,即那些能帶來正面影響的東西。

兩個影響力乘數

這兩類技能幫助你創造有影響力的成果:

1. 創業技能 幫助你反覆迭代,直到做出人們真正願意參與的東西。
2. 影響力技能 引導你達成「有效性」,將採用率轉化為實質影響。這很棘手,因為在資訊過時到無法採取行動之前,你無法直接衡量自己是否降低了 AI 生存風險。儘管如此,我們仍將介紹能幫助你提高成功機率的技能。

結合這兩者,能幫助你理解 AI 安全中的問題,排定優先順序,並開發出有效的解決方案。

大多數專案都無關緊要,但你的專案可能不同

你的工作並不會僅僅因為屬於 AI 安全領域就自動具備高影響力。

影響力遵循類似冪律(power law)的分布。^([4]) 極少數的專案將創造絕大部分的影響力。

因此,在預設情況下,你的專案可能幾乎沒有影響力,甚至可能產生負面影響。但這也意味著,如果你有意識地進行優化,你的專案有可能成為少數真正能改變現狀的專案之一。^([5])

你會協助殺死地球上的每一個人嗎?

當然不會!你又不是恐怖分子。

然而,我們擔心這一系列文章可能會讓你意外地朝那個方向前進。原因有幾點:

  • 極度負面和極度正面的 AI 安全專案在投入空間(input space)上非常接近(我們將在第 3 篇文章中討論)。
  • 我們會告訴你要「偏向行動」(bias to action),但由於「單邊主義者詛咒」(Unilateralist’s Curse),這種偏向有時會是一個非常糟糕的主意(我們將在最後一篇文章中討論)。

目前,我們想請你考慮一下關於情緒和動機性推理(motivated reasoning)的問題:

當「極度不想做壞事」反而讓你更有可能做壞事時

我們知道你不想為人類滅絕、自然終結以及我們所珍視的一切毀滅負責。這是不言而喻的真理,甚至說出來都顯得有些愚蠢。

但我們在想:或許你「太不想」為如此可怕的事情負責,以至於你的大腦甚至不允許你考慮這種可能性——即在不知不覺中,你「可能」正在助長這些糟糕的結果。

或許,面對如此難以想像的可怕命題,你的大腦會預先判定你的工作是「好的」,而沒有進行誠實的評估。這就是動機性推理。^([6])

基本上:你「真的」不想毀滅世界 → 你的大腦不允許你誠實評估你的工作可能如何導致世界毀滅 → 你無法做出充分知情的決策來防止意外後果 → 你更有可能正在為世界末日推波助瀾。

克服這種預設觀點的一種方法是使用視覺化,在決定結果是否可能發生「之前」,先處理面對糟糕結果的情緒,正如《留一條退路》(Leave a Line of Retreat)中所建議的那樣。

你可以做到

目前還沒有人真正徹底解決 AI 安全問題——無論是技術安全、治理還是領域建設。這意味著你可以很快跟上進度,提出新想法,並推動該領域向前發展。你並不晚,你可以做出真正的改變。

AI 安全非營利組織的資金也可能很快增加。Anthropic 的聯合創始人和多位員工已承諾捐出其大部分財富,預計將在 2026 年 Anthropic IPO 後到位。部分資金可能透過正在進行的 IPO 前股份出售更早釋出。^([7])

下一篇:第 2 篇——創業技能

許多 AI 安全專案因為陷入停滯而失敗。第 2 篇文章將向你展示成功的企業家如何反覆迭代以獲得採用,並將其應用於 AI 安全的背景下。

如果你已經知道如何打造人們喜愛的東西?請跳至關於影響力的第 3 篇。

這些文章將很快發布。在下方留下你的電子郵件,以便在下一篇發布時收到通知:


  • 本系列重新組合了現有的想法,並圍繞其建立了一些框架。我們希望/預期這對許多人有用,類似的風格也見於許多非虛構類書籍。本系列是約 80 小時的思考、閱讀和寫作,以及與專家和同儕進行 30 次對話的結果,儘管最終文本仍是我們自身理解的精煉,而非定量研究的結果。如果你不同意,你可能有充分的理由,我們很樂意聽取。此外,如果某些內容在你的特定情況下沒有用,請不要使用。↩︎

  • 請將此理解為「有效性 ≡ 單位採用率所產生的影響力」。如果你能想到比「有效性」更好的詞來描述這一點,請告訴我們,我們會進行更改。↩︎

  • 這與有時使用的「影響力 = 規模 x 方向」框架有些關聯。你可以認為「採用率」主要具有「規模」成分,而「有效性」同時具有「規模」和「方向」成分。↩︎

  • 這在其他有效利他主義(EA)領域的非營利組織以及營利世界的初創公司和企業中似乎非常明顯,因此我們預期這在 AI 安全領域同樣適用。↩︎

  • 你也需要一點運氣。↩︎

  • 或者,也許「可能存在毀滅世界的事物」這個想法本身就太可怕了,以至於你的大腦預先判定「沒有任何事情」會那麼糟。這是一種自我安慰的啟發式思維:「我承認我們『理論上』可能死於 AI 風險,但這不太可能,我們大概會沒事的,因為我覺得真正考慮這種可能性並思考相關論點太可怕了。」但這超出了本系列的討論範圍。↩︎

  • 當然,這次 IPO 具體何時發生、資金流動的速度以及流向何處都存在不確定性。但總而言之,現在似乎是啟動 AI 安全非營利組織、建立實績並定位自己,以便透過將 Anthropic IPO 捐款引導至有價值的事情上,為該領域提供重大助力的好時機。此外,無論資金如何:這個世界現在「真的」非常需要你的幫助。↩︎

參與討論

https://lesswrong.com/posts/jDDZsoGRK8HNZEoTb/two-skillsets-you-need-to-launch-an-impactful-ai-safety