發起具影響力的 AI 安全專案所需的兩大技能組

Lesswrong·17 天前

若要發起成功的 AI 安全專案，你需要結合追求採納率的創業技能與確保有效性的影響力技能，同時避免受動機性推理影響並理解影響力遵循冪次定律的現實。

你的專案可能在你毫無察覺的情況下正在走向失敗。

拯救世界並非易事。如果你正準備啟動一個新的人工智慧安全（AI Safety）專案，本系列文章將幫助你避開常見的陷阱。

在過程中你最可能遇到的失敗模式：

你從未開始。 創業是令人不安的，而 AI 安全又極其複雜。失敗模式多不勝數。要弄清楚如何做些有用的事情很難，所以很多人從未嘗試。與此同時，AI 安全領域中許多顯然「應該做」的事情卻尚未有人去做。你可能會誤以為這些事已經有人在做了，因此不予嘗試。

你進展緩慢、缺乏進展，最終陷入停滯。 你推出了一個工具——六個月後，你只有 12 個用戶。你不斷添加新功能，希望情況會有所改變，但現實卻毫無起色。

你感到「滿足」就好。 你認為自己所做的事情一定具有高影響力，僅僅因為它是 AI 安全的一部分。實際上，你本可以發揮比現在高出 10 倍的影響力。

你在不知不覺中失敗。 你擁有用戶、引用次數和參與者。但你實際上並沒有在降低生存風險（x-risk），而你卻沒有意識到這一點，因為你沒有追蹤你的影響力，或者追蹤的指標不正確。

為了邁向成功，你需要兩大類技能：創業技能（entrepreneurial skills）和影響力專屬技能（impact-specific skills），後者包括影響力評估和對 AI 安全的戰略性理解。同時精通這兩類技能的人非常罕見——我們確信自己也還沒做到。^([1])

影響力 = 採用率 × 有效性

要產生影響力，你需要：

打造某樣東西（執行力）
讓人們參與其中（採用率）
以能產生影響力的方式進行（有效性）^([2])

可以粗略地理解為：影響力 = 採用率 × 有效性^([3])

你需要勝任的執行力才能「打造出任何東西」。但這還不夠。你需要找到「正確的東西」去打造，即那些能帶來正面影響的東西。

兩個影響力乘數

這兩類技能幫助你創造有影響力的成果：

1. 創業技能 幫助你反覆迭代，直到做出人們真正願意參與的東西。
2. 影響力技能 引導你達成「有效性」，將採用率轉化為實質影響。這很棘手，因為在資訊過時到無法採取行動之前，你無法直接衡量自己是否降低了 AI 生存風險。儘管如此，我們仍將介紹能幫助你提高成功機率的技能。

結合這兩者，能幫助你理解 AI 安全中的問題，排定優先順序，並開發出有效的解決方案。

大多數專案都無關緊要，但你的專案可能不同

你的工作並不會僅僅因為屬於 AI 安全領域就自動具備高影響力。

影響力遵循類似冪律（power law）的分布。^([4]) 極少數的專案將創造絕大部分的影響力。

因此，在預設情況下，你的專案可能幾乎沒有影響力，甚至可能產生負面影響。但這也意味著，如果你有意識地進行優化，你的專案有可能成為少數真正能改變現狀的專案之一。^([5])

你會協助殺死地球上的每一個人嗎？

當然不會！你又不是恐怖分子。

然而，我們擔心這一系列文章可能會讓你意外地朝那個方向前進。原因有幾點：

極度負面和極度正面的 AI 安全專案在投入空間（input space）上非常接近（我們將在第 3 篇文章中討論）。
我們會告訴你要「偏向行動」（bias to action），但由於「單邊主義者詛咒」（Unilateralist’s Curse），這種偏向有時會是一個非常糟糕的主意（我們將在最後一篇文章中討論）。

目前，我們想請你考慮一下關於情緒和動機性推理（motivated reasoning）的問題：

當「極度不想做壞事」反而讓你更有可能做壞事時

我們知道你不想為人類滅絕、自然終結以及我們所珍視的一切毀滅負責。這是不言而喻的真理，甚至說出來都顯得有些愚蠢。

但我們在想：或許你「太不想」為如此可怕的事情負責，以至於你的大腦甚至不允許你考慮這種可能性——即在不知不覺中，你「可能」正在助長這些糟糕的結果。

或許，面對如此難以想像的可怕命題，你的大腦會預先判定你的工作是「好的」，而沒有進行誠實的評估。這就是動機性推理。^([6])

基本上：你「真的」不想毀滅世界 → 你的大腦不允許你誠實評估你的工作可能如何導致世界毀滅 → 你無法做出充分知情的決策來防止意外後果 → 你更有可能正在為世界末日推波助瀾。

克服這種預設觀點的一種方法是使用視覺化，在決定結果是否可能發生「之前」，先處理面對糟糕結果的情緒，正如《留一條退路》（Leave a Line of Retreat）中所建議的那樣。

你可以做到

目前還沒有人真正徹底解決 AI 安全問題——無論是技術安全、治理還是領域建設。這意味著你可以很快跟上進度，提出新想法，並推動該領域向前發展。你並不晚，你可以做出真正的改變。

AI 安全非營利組織的資金也可能很快增加。Anthropic 的聯合創始人和多位員工已承諾捐出其大部分財富，預計將在 2026 年 Anthropic IPO 後到位。部分資金可能透過正在進行的 IPO 前股份出售更早釋出。^([7])

下一篇：第 2 篇——創業技能

許多 AI 安全專案因為陷入停滯而失敗。第 2 篇文章將向你展示成功的企業家如何反覆迭代以獲得採用，並將其應用於 AI 安全的背景下。

如果你已經知道如何打造人們喜愛的東西？請跳至關於影響力的第 3 篇。

這些文章將很快發布。在下方留下你的電子郵件，以便在下一篇發布時收到通知：

本系列重新組合了現有的想法，並圍繞其建立了一些框架。我們希望/預期這對許多人有用，類似的風格也見於許多非虛構類書籍。本系列是約 80 小時的思考、閱讀和寫作，以及與專家和同儕進行 30 次對話的結果，儘管最終文本仍是我們自身理解的精煉，而非定量研究的結果。如果你不同意，你可能有充分的理由，我們很樂意聽取。此外，如果某些內容在你的特定情況下沒有用，請不要使用。↩︎
請將此理解為「有效性 ≡ 單位採用率所產生的影響力」。如果你能想到比「有效性」更好的詞來描述這一點，請告訴我們，我們會進行更改。↩︎
這與有時使用的「影響力 = 規模 x 方向」框架有些關聯。你可以認為「採用率」主要具有「規模」成分，而「有效性」同時具有「規模」和「方向」成分。↩︎
這在其他有效利他主義（EA）領域的非營利組織以及營利世界的初創公司和企業中似乎非常明顯，因此我們預期這在 AI 安全領域同樣適用。↩︎
你也需要一點運氣。↩︎
或者，也許「可能存在毀滅世界的事物」這個想法本身就太可怕了，以至於你的大腦預先判定「沒有任何事情」會那麼糟。這是一種自我安慰的啟發式思維：「我承認我們『理論上』可能死於 AI 風險，但這不太可能，我們大概會沒事的，因為我覺得真正考慮這種可能性並思考相關論點太可怕了。」但這超出了本系列的討論範圍。↩︎
當然，這次 IPO 具體何時發生、資金流動的速度以及流向何處都存在不確定性。但總而言之，現在似乎是啟動 AI 安全非營利組織、建立實績並定位自己，以便透過將 Anthropic IPO 捐款引導至有價值的事情上，為該領域提供重大助力的好時機。此外，無論資金如何：這個世界現在「真的」非常需要你的幫助。↩︎

參與討論

https://lesswrong.com/posts/jDDZsoGRK8HNZEoTb/two-skillsets-you-need-to-launch-an-impactful-ai-safety