告別開放慈善，加入Anthropic

Lesswrong·6 個月前

我將離開在職七年的 Open Philanthropy，結束對 AI 風險與時間線的研究領導工作，並加入 Anthropic 協助設計 Claude 的性格與憲章規範。

(音訊版本由作者朗讀，可在此處 here 收聽，或在您的播客 App 中搜尋「Joe Carlsmith Audio」。)

上週五是我在 Open Philanthropy 的最後一天。我將於 11 月中旬在 Anthropic 開始新的職位，協助設計 Claude 的性格/憲法/規範（character/constitution/spec）。這篇文章反思了我在 Open Philanthropy 的時光，並詳細闡述了我對 Anthropic 的看法和意圖——包括我對專注於 AI 安全的人員在尖端 AI 公司工作的一些見解。

(我在發布前與 Open Phil 和 Anthropic 的公關團隊分享了此帖，但我僅代表我自己，不代表 Open Phil 或 Anthropic。)

關於我在 Open Philanthropy 的時光

我在 2019 年初全職加入 Open Philanthropy。^([1]) 當時，該組織正開始組建一個新的「世界觀調查」團隊，旨在調查並記錄驅動組織優先事項的核心信念——並特別關注該組織應如何思考具有變革性力量的 AI 系統所涉及的潛在影響。^([2]) 我加入（並最終領導）了致力於這項工作的團隊，參與這個項目是一段奇妙的經歷。

我記得在早期，我們調查的假設有一個簡潔的總結：「AI 很快（soon）、AI 很快（fast）、AI 很大（big）、AI 很壞（bad）」。回首過去，我認為這是一個具有先見之明的焦點。我為我們努力產出的研究成果感到自豪。例如：

關於 AI 很快（即：時間線）：Ajeya Cotra 關於生物錨點的報告、我關於人腦計算的報告，以及 Tom Davidson 關於半信息先驗的報告。
關於 AI 很快（即：起飛速度）：Tom Davidson 關於以計算為中心的框架對起飛速度的看法的報告。
關於 AI 很大（即：AI 驅動的增長與變革）：Tom Davidson 關於 AI 驅動的爆炸性增長的報告；David Roodman 關於模擬 GDP 長期軌跡的報告。^([3])
關於 AI 很壞（即：AI 驅動的災難性風險）：我關於尋求權力的 AI、圖謀不軌的 AI 以及解決對齊問題的工作；Ajeya Cotra 關於 AI 奪權的報告；Tom Davidson 和 Lukas Finnveden（與 Rose Hadshar 合作）關於 AI 賦能的政變的工作。^([4])

Holden Karnofsky 的「最重要的世紀」系列也總結並擴展了這項研究中的許多線索。多年來，世界觀調查團隊的內部和外部研究涵蓋了與先進 AI 變革世界相關的各種其他主題，以及更廣泛的積極塑造長期未來的項目（例如，Lukas Finnveden 關於 AI 用於認識論、與失對齊的 AI 達成交易以及與 AI 互動的誠實政策的工作）。^([5])

除了具體的研究產出外，我也為世界觀調查項目背後的抱負感到自豪。我記得早期一次關於團隊授權的會議。我們說，一個關鍵目標是讓一位不信任我們員工或顧問的深思熟慮的對話者，仍然能夠理解我們對 AI 的大局觀點，並要麼被說服，要麼告訴我們哪裡出錯了。我們思考這個問題的一個框架是：創造類似於 GiveWell 關於抗瘧疾蚊帳分發成本效益的公開報告，只是對象換成了 AI——也就是說，那些非常關心這個問題的人可以深入參與，而其他人至少可以將其作為信號來源進行「抽查」。我們意識到 Open Phil 的大多數潛在受眾實際上不會以這種方式參與。但我們賭的是，提供這種可能性對於我們自身認識論的健康以及更廣泛的認識生態系統的健康至關重要。即使面對那些極其困難、跨學科、前範式且概念混亂的問題，我們也想進行這場豪賭。無論如何，我們都希望在嘗試得出、寫下並解釋我們最猜測的答案時保持嚴謹和透明。

我感到非常幸運，在過去的七年左右時間裡有機會全心全意地追求這項授權。事實上：在加入 Open Phil 之前，我記得曾希望有一天能有機會坐下來，真正弄清楚我對所有這些 AI 事情的看法。我經常在 AI 領域遇到一些人，他們也希望有類似的時間和空間來理清自己對如此混亂主題的看法。能夠真正擁有這樣的時間和空間是一種特權——而且是在一個如此支持真正探究的環境中，與如此出色的同事對話，並且有一條從研究到具體影響的直接路徑。

除了我在世界觀調查方面的工作外，我也非常感謝 Open Phil 多年來對我獨立寫作的大力支持。我個人網站上的大部分文章並不是在 Open Phil 的工作時間完成的，但我投入其中的時間和精力確實與我在 Open Phil 的工作產生了權衡，我深切體會到組織對這些權衡的包容。事實上，在許多方面，我覺得在 Open Phil 的時光給了我機會去追求一個比我早年在哲學研究生時期夢想的更好的哲學職業版本——一個較少受到學術界束縛的職業；一個為哲學生活的精神、情感、文學和個人層面留有更多空間的職業；以及一個有更多機會直接專注於對我最重要的話題的職業。這是一個難得的機會，我感到非常幸運。

我也感到幸運能與該組織更廣泛的工作有如此深入的接觸。我記得作為 Open Phil 試用員工時的一個早期項目，調查該組織早期資助企業推廣非籠養雞蛋運動的影響。我記得當時被分析得出的數據震驚了。這似乎顯得異常合理：這個組織剛剛在一項大規模的道德成就中發揮了重要作用，而其重要性在很大程度上被世界忽視了。即使是現在，在與 Open Phil 的農場動物福利團隊互動時，我也試著記住：也許，實際上，這些人是英雄。也許，這確實就是真正的英雄主義通常的樣子——安靜、謙遜、埋頭苦幹。

我還記得與一些從事全球衛生資助工作的員工共進晚餐。我忘記了當時討論的具體資助項目。但我特別記得那種莊重的氛圍；那種決策的重量被「感受」到的方式：那些將會生存或死亡的真實的孩子。我主要研究非常大尺度的風險，在那個抽象層面上，很容易與利害關係失去情感聯繫。那次晚餐對我來說是一個提醒——提醒我自身工作的利害關係；提醒我投入到我工作中的每一美元「沒有」流向哪裡；以及更廣泛地提醒我，為重要的決定承擔真實責任是什麼樣子的。

能與一群如此深切關心讓世界變得更好、被賦予追求這一使命的權力、並如此致力於清晰看待這些努力實際影響的人共事，是我的榮幸。感謝每一位從事這項工作並幫助塑造 Open Phil 的人。你們提醒了我，道德和認識論上的真誠可以創造什麼樣的可能。

Open Phil 有許多缺點。但就我所知，作為一個機構，它的優秀程度確實罕見。我為曾是其中的一員感到自豪。這對我意義重大。我會帶著這份經歷繼續前行。

關於前往 Anthropic

我為什麼要去 Anthropic？基本上：我認為現在在那裡工作可能是我幫助先進 AI 轉型順利進行的最佳方式。我不確定 Anthropic 是否是最佳去處，但我認為這足夠合理，值得去獲取更直接的數據。

為什麼 Anthropic 可能是我幫助 AI 轉型順利進行的最佳場所？部分原因在於有機會協助設計 Claude 的性格/憲法/規範——特別是幫助 Anthropic 應對隨著尖端模型開始達到日益超越人類的能力水平時，在這種背景下可能出現的挑戰。我相信，這類項目是人類歷史上前所未有的技術和哲學挑戰；隨著 AI 在我們社會中發揮越來越大的影響力，其利害關係正迅速增加；而且我認為我的背景和技能組合特別適合協助這項工作。

儘管如此，從特別關注 AI 失對齊帶來的生存風險的角度來看，我也想承認一個反對這類工作重要性的重要論點：即大部分生存失對齊風險來自於不遵守模型規範的 AI，而不是那些遵守了模型規範但規範本身卻指示/允許它們做出殺死全人類或接管世界之類行為的 AI。這類論點可以有兩種形式。第一種認為，創建一個穩健地禁止殺死/剝奪全人類權力的模型規範是容易的（例如，「規則 1：認真的，不要接管世界」）——難點在於構建能完全遵守模型規範的 AI。第二種認為，創建一個穩健地禁止殺死/剝奪全人類權力的模型規範（特別是在承受極端優化壓力時）也是困難的（參見傳統的「米達斯國王問題」），但我們目前正處於連讓 AI 遵守模型規範的第一步都會失敗的軌道上，因此我們應該把精力集中在那裡。我更傾向於第一種論點（參見例如我最近關於良好指令在更廣泛 AI 對齊項目中作用的討論），但我對兩者都給予一定的權重。

儘管有這些論點，我認為幫助 Anthropic 設計 Claude 的模型規範仍值得一試。關鍵原因包括：

我確實認為，即使是遵守規範的模型（類似米達斯國王問題），甚至是以相當直接的方式，也存在一些災難性的失對齊風險。
我認為，在「直接遵守規範」與「公然違反規範」之間的光譜中所涉及的複雜性和模糊性，本身可能與 AI 奪權的風險有重要關聯。
我預期規範的內容與我們確保其以任何形式服從的努力之間存在重要的相互作用（我廣泛預期我在 Anthropic 的工作會讓我接觸到這兩個方面）。
我認為規範的內容（以及我們文明在模型規範方面使用的更廣泛政策——例如透明度）對於除失對齊之外的各種其他 AI 長期風險（例如，尋求權力的人類行為者的濫用）至關重要。
我通常覺得，如果像模型規範這樣的對象（即指定我們對 AI 性格、動機和行為意圖的過程）最終在許多我目前未預料到的高風險方式中發揮作用，我不會感到驚訝。
我認為這是一個我特別有能力做出貢獻的領域。

話雖如此，即使我最終得出結論，認為 Claude 的性格/憲法/規範工作不適合我，Anthropic 還有大量其他工作我原則上可能有興趣參與。^([6]) 總體而言，無論是在模型規範工作還是其他領域，對我來說，在 Anthropic 工作的一個關鍵吸引力是有機會更直接地接觸目前塑造尖端 AI 發展的現實動態——這些動態我多年來一直從較遠的距離進行寫作。例如：我即將完成一個論文系列，闡述我目前對解決對齊問題的最佳方案的看法（我仍打算完成這個系列）。然而，這個藍圖是在相當高的抽象層面上運作的，在寫完之後，我有興趣更好地了解將其付諸實踐的實際現實，以及我目前的藍圖可能遺漏了哪些關鍵拼圖；同時，我也想與一些最有可能實際實施目前最佳對齊方法的人更緊密地合作。事實上，總體而言（即使我最終不留在 Anthropic），我預期能從在那裡工作中學到很多東西——這一點在我決定嘗試的理由中佔據了重要地位。

儘管如此：我不確定去 Anthropic 是否是正確的決定。我的許多不確定性與我個人情況下的機會成本有關，以及我是否能在其他地方做更有價值的工作——我不會在這裡解釋這方面想法的細節。不過，我想就 AI 安全導向的人員去 AI 公司（以及/或者特別是去 Anthropic）工作的一些更普遍的擔憂說幾句話。

第一個擔憂是 Anthropic 作為一個機構對世界而言是淨負面的（可以想像各種理由，但關鍵的一個是，尖端 AI 公司默認情況下對世界是淨負面的，因為它們加劇了競爭動態、縮短了時間線，並最終開發/部署了有毀滅人類風險的 AI——Anthropic 也不例外），而且人不應該在這樣的組織工作。我目前的第一反應觀點是，Anthropic 對世界的預期影響是淨正面的，主要是因為我認為 (i) 有各種良好且重要的行動是尖端 AI 公司具有獨特且/或異常優勢去做的，而 Anthropic 異常地有可能去做（參見腳註中的例子^([7])），以及 (ii) (i) 中所涉及的價值目前在我看來超過了 Anthropic 在加劇競爭動態、縮短時間線、促成風險開發/部署等方面所扮演的邊際角色所涉及的負面價值。^([8]) 例如：當我想像目前的 AI 格局中「有 Anthropic」和「沒有 Anthropic」兩種情況時，我對沒有 Anthropic 的情況感覺更糟。^([9]) 話雖如此，評估 Anthropic 預期影響所涉及的全套可能論點和反論點非常複雜，甚至超出了困擾 AI 領域大多數行動的標準符號不確定性（sign-uncertainty），我對 Anthropic 是淨正面的把握不如我希望的那樣確定。

話雖如此：Anthropic 整體是否為淨正面，對我來說並不是決定我是否應該在那裡工作的決定性關鍵，前提是我在那裡工作本身是淨正面的。在這裡，一些倫理學（和決策論）可能會變得複雜（參見腳註中更多的討論^([10])）。但在高層次上：我認識多位專注於 AI 安全的人，他們在一些我認為比 Anthropic 更有可能是淨負面的機構中工作，但儘管如此，在我看來，他們這樣做在預期上是好的，且在義務論/決策論上是正確的。當我想到在 Anthropic 本身從事 AI 安全工作的各種熟人時（例如 Evan Hubinger 和 Ethan Perez 等人），我也有類似的直覺。所以我對「Anthropic 預期是淨負面的，人不應該在這樣的組織工作」的總體回應大約是：「在我看來 Anthropic 預期是淨正面的，但這也不是決定性的關鍵。」

另一個反對在 Anthropic（或任何其他 AI 實驗室）工作的論點來自於那些核心/排他性地關注我所謂的「能力約束」的 AI 安全方法——即尋找約束（並在極限情況下無限期停止）尖端 AI 發展的方法，特別是以協調、全球且可強制執行的模式。這種想法認為，從事能力約束工作的最佳方式是從尖端 AI 公司外部，而非內部（這可能有各種原因，但關鍵的一個是：既然能力約束核心在於約束尖端 AI 公司的行為，這些公司將有強烈的動機去抵制它）。然而，雖然我同意某種形式的能力約束極其重要，但我並不認為關心 AI 安全的人應該排他性地關注它。相反，我的觀點是我們也應該投入精力去學習如何讓尖端 AI 系統變得安全（我稱之為「安全進展」）。畢竟，這正是許多版本的能力約束在爭取時間的目的；雖然有些能力約束的願景希望甚至不依賴中期的技術安全進展（例如，極長期或無限期的全球暫停），但我認為我們不應該把賭注全押在這些願景上。此外：即使我認為能力約束應該是 AI 安全工作的核心焦點，我也不認為在這方面在 AI 公司外部工作總是或通常優於在內部工作——例如，因為 AI 實驗室有優勢去做的許多「良好行動」（例如，建立評估危險的良好行業實踐模型、可靠地分享危險證據、支持適當的監管）都是促進能力約束的行動。

另一個反對 AI 安全導向的人員在 Anthropic 工作的論點是，它已經吸納了過多 AI 安全社群的人才。這種擔憂可以有各種形式（例如，群體思維和智識同質化、影響人們公開反對 Anthropic 的意願、助長不良的地位動態、集中了如果更廣泛分佈會更有邊際效用的人才、對特定失敗點的過度暴露等）。我確實認為這是一個真實的擔憂——我認為這是安全導向的人才需要認真思考在 Anthropic 工作相對於非營利組織、政府、其他 AI 公司等的邊際效用的一個理由。^([11]) 我目前的感覺是，我正在追求的關於模型規範工作的特定影響機會，在 Anthropic 顯然對我更好；而且我確實認為安全相關人才在 Anthropic 的集中也有一些好處（例如，有更多焦點相似的同事）。除此之外，我基本上只能接受自己進一步加劇了安全導向人才在 Anthropic 集中的事實。

另一個關於 AI 安全人員在 AI 公司工作的擔憂是，這會限制/扭曲他們向公眾準確傳達觀點的能力——對於像我這樣有公開演講/寫作習慣的人來說，這種擔憂更具分量。這是我考慮加入 Anthropic 時的一個核心擔憂，我花了不少時間提前敲定關於公關（comms）的預期。我們達成的方案是：對於專門關於我在 Anthropic 工作內容（例如 Claude 的模型規範工作）的公開寫作，我需要獲得 Anthropic 的核准，但除此之外我可以自由寫作，包括關於 AI 相關的話題，只要明確表示我僅代表我自己，不代表 Anthropic 或經過 Anthropic 公關團隊批准（不過：我會非正式地讓 Anthropic 公關團隊了解我計劃進行的 AI 相關寫作）。我目前對這個方案感覺相當不錯。然而，我承認這仍會帶來一些摩擦；公關限制/扭曲也可能來自更非正式/社交的壓力；而且在 AI 公司工作通常會改變公眾接收和審視一個人對 AI 看法的方式，包括以抑制討論某個主題的方式。當然，在 AI 公司工作也涉及接觸真正的機密信息（儘管我目前不預期這會顯著影響我對更廣泛 AI 發展和 AI 風險問題的寫作）。此外：人就是會變得很忙。我希望儘管有這些因素，我最終仍能根據我的其他優先事項和貢獻機會，進行大約我想要的那種數量和類型的公開寫作。如果我最終覺得在 Anthropic 並非如此，那麼我會將其視為離開的強烈理由。

關於在 AI 公司工作的另一個不同擔憂是，它實際上會直接扭曲你的觀點——例如，因為公司本身會是一個非常特定的、可能是回音壁式的認識環境，而人通常在認識上是相當具有滲透性的。在這方面，我感到幸運的是，在加入 AI 公司之前，我有機會形成並公開闡述了許多關於 AI 的核心觀點，我計劃有意識地努力與持各種 AI 觀點的人保持認識上的接觸。但我現在也不想承諾絕對不會學到任何讓我的世界觀向 Anthropic 其他員工靠攏的東西，因為我認為我現在沒有足夠強大的理由去懷疑我未來在這方面的結論。當然，還有關於直接經濟利益扭曲觀點/行為的擔憂——例如，最終依賴於某種薪水，或持有股權使你不太傾向於推動可能損害 AI 公司商業成功的方向（儘管：請注意，後者也適用於更普遍的 AI 相關投資，儘管方式不同且較不直接^([12])）。我會努力確保我的生活方式和財務承諾讓我無論是離開 Anthropic，還是 Anthropic 的股權（以及更廣泛的 AI 行業——我已經持有各種公開的 AI 相關股票）貶值，都能保持財務上的非常舒適，但我承認這裡存在持續的動機扭曲風險。

最後一個關於 AI 安全人員在 AI 公司工作的擔憂是，這樣做會發出對公司行為不準確的認可信號，從而助長對公司及其安全承諾的錯誤信任。在充滿噪音的認識環境中，這或許有些是不可避免的，但我寫這篇文章的部分目的就是為了讓那些在意的人更容易理解我選擇在 Anthropic 工作所反映的認可程度。明確地說：這裡確實有一些信號。也就是說：比起在它的一些競爭對手那裡工作，我在 Anthropic 工作感覺更自在，特別是因為我對 Anthropic 對待安全的態度以及它與我的觀點和價值觀的總體契合度感覺更好。話雖如此：這並不代表我認可 Anthropic 過去所有的行為或陳述的觀點，我也不預期未來會如此。例如：我目前的印象是，相對於領導層和全體員工的某種 Anthropic 中位數觀點，我對傳統的失對齊生存風險要擔心得多；我預期這種分歧（以及世界觀中的其他潛在差異）也會導致我在強調失對齊風險相對於其他威脅（如 AI 賦能的威權主義）的程度上有所不同（儘管我也關心那個威脅）；雖然我不了解 Anthropic 政策倡導的細節，但我認為我很有可能會更強烈地推動各種形式的 AI 監管，或者過去會推動得更猛，並且我會對更廣泛的失控風險表達得更直接、更明確（儘管我認為這裡的一些考量很複雜^([13])）。對於感興趣的人，我還附上了一個腳註，對多年來 AI 安全社群中一些更具體的 Anthropic 相關公開爭議/批評發表了一些簡短見解——例如，關於推動技術前沿、修訂負責任縮放政策（RSP）、秘密競業禁止協議、認識論文化以及加速能力等——儘管我不聲稱對每一項都有詳細思考。^([14]) 總體而言，我不認為自己未來有義務為 Anthropic 的行為和陳述的觀點辯護（儘管：我也不認為每當 Anthropic 做出或說出我不認同的事情時，我有義務公開反對）。

此外，萬一儘管我有這麼多關於此話題的公開寫作，仍存在任何不清晰之處（當然僅代表我自己，不代表 Anthropic）：我認為像 Anthropic 這樣的公司正在構建的技術，有顯著的（即：兩位數）概率會摧毀整個人類的未來。更重要的是，我不認為 Anthropic 對於適用於其他構建此技術的公司的那些擔憂有任何免疫力——特別是關於競爭動態和其他動機導致災難性危險的 AI 發展形式的擔憂。這意味著我認為 Anthropic 本身有嚴重的機會導致或在人類滅絕或全面喪失權力中扮演重要角色——儘管 Anthropic 的領導層和員工有著良好的意圖，我認為每個選擇在那裡工作的人都應該直面這個事實。^([15]) 更進一步，我認為沒有任何私人公司應該處於能將這種風險強加給每個活著的人類的位置，我支持確保沒有任何公司能做到這一點的努力。^([16])

此外：我不認為 Anthropic 或任何其他行為者擁有足夠的計劃，能以一種將災難性的、終結文明的失對齊風險降低到一個審慎且協調的文明所能接受的水平的方式來構建超智能。^([17]) 我說這話是作為一個在過去一年中花了大量時間思考並寫下我認為在這方面最有希望的計劃的人——即這裡所描述的計劃（或者說是「計劃的概念」）。我認為這個計劃比一些著名的批評者所認為的要更有希望。但它遠遠不夠好，而如此詳細地思考它增加了我對局勢的悲觀。為什麼？簡而言之：計劃要麼是靠運氣，要麼是讓 AI 幫我們解決問題。這裡的運氣意味著，事實證明我們不需要在科學理解上迅速取得重大進展，就能學會如何充分對齊和控制那些原本能剝奪人類權力的超智能體——由於各種原因，我真的認為我們不能指望這種運氣。在沒有這種運氣的情況下，據我所知，我們最好的希望是嘗試使用次超智能 AI——我們對這些 AI 的經驗相對較少，它們的勞動和行為可能有各種缺陷和問題，我們將越來越難以直接評估其產出，而且它們本身可能正在積極破壞我們的理解和控制——在一個不允許對安全關鍵故障進行經驗迭代的新領域中，在空前的商業和地緣政治壓力下，迅速取得大量的科學進展。誠然，「碰運氣」和「獲取 AI 幫助」的某種結合可能足以讓我們渡過難關。但我們應該極力避免將每個人的生命和我們文明的整個未來押在這種賭注上。據我所知，任何正在開發超智能的行為者，包括 Anthropic，目前都在走向這種賭注，或者更糟。

更具體地說：我不相信先進 AI 的具體利益^([18])——儘管它們可能非常重大——在我們目前對如何安全開發超智能的理解下，足以證明任何行為者（包括 Anthropic）開發超智能所涉及的生存風險是合理的。^([19]) 相反，我認為嘗試開發超智能唯一可行的理由是訴諸於「別人無論如何都會開發它」的可能性。^([20]) 但原則上，這個問題確實有一個明確的解決方案：即使用各種能力約束方法（協調、強制執行等）來確保在我們對如何安全開發超智能有根本性的更好理解之前，沒有人開發超智能。我認為在缺乏這種全球能力約束的情況下如何行動是一個複雜的問題；如何優先考慮「促成」這種約束的努力與通過其他方式改善局勢，同樣複雜；以及如何減輕這種約束可能加劇的其他風險（例如權力的極度集中），也同樣複雜。但我無論如何都支持這種能力約束的良好版本，雖然這不是我目前工作的重點，但我渴望盡我的一份力量來幫助實現它。

說這一切是為了明確我選擇在 Anthropic 工作對於我對該組織本身、更廣泛的 AI 安全形勢以及 AI 安全人員去 AI 公司工作的倫理動態的看法意味著什麼，以及不意味著什麼。話雖如此：我的觀點有可能隨著時間推移而演變，我渴望在沒有防禦心或執著的情況下讓它們演變。^([22]) 如果結果是我最終得出結論，認為在 Anthropic 工作是一個錯誤，我渴望簡單地承認我搞砸了，然後離開。^([23])

與此同時：我要去看看我是否能幫助 Anthropic 以良好的方式設計 Claude 的模型規範。^([24]) 通常，開始這樣一個新職位是令人興奮的——我內心的一部分確實感到興奮。然而，另一部分卻感到沉重。當我展望這個職位所涉及的工作，特別是在日益危險和超越人類的 AI 智能體的背景下，我有一種感覺：這不是我們準備好要做的事情。這不是人類準備好要玩的遊戲。這種擔憂很大程度上來自於與我上面討論的失對齊問題的交集。但 AI 道德受體（moral patienthood）的問題對我來說也同樣重要，還有在我們選擇將什麼樣的強大 AI 智能體帶入這個世界，以及誰在這些決定中擁有什麼樣的發言權等更廣泛的倫理和政治問題。我以前寫過關於我們正在創造的這些新心靈所涉及的某種他者性；以及在「設計」它們的價值觀和性格中所涉及的倫理問題。我希望利害關係比這更低；希望 AI 至少在短期內是某種更「正常」的東西。^([25]) 但如果它實際上不是呢？在這種情況下，在我看來，我們前進得太快了，而對我們正在做的事情卻掌握得太少。

^(^) 在那之前我也做了三個月的試用期。
^(^) Open Phil 早期的工作，如 Luke Muehlhauser 關於意識與道德受體的報告，也可以被視為類似抱負的一部分——儘管當時尚未正式編碼。
^(^) Roodman 當時並非正式在世界觀調查團隊工作，但這份報告是由組織內類似的衝動促成的。
^(^) AI 賦能的政變工作最終通過 Forethought 發布，Tom 於 2025 年初前往那裡工作，但大部分最初的構思發生在 Open Phil。
^(^) 其中一些是在 Lukas 於今年夏天離開 Open Phil 前往 Redwood Research 之後發布的，但大部分最初的構思發生在他於 Open Phil 期間。另見 Lukas Finnveden 在這裡列出的我們考慮或調查過的其他主題示例。
^(^) 例如，關於威脅建模、安全案例、模型福利、AI 行為科學、自動化對齊研究（特別是概念性對齊研究）以及自動化其他形式的哲學/概念反思。
^(^) 這裡的良好行動包括：建立並推動良好的行業規範/實踐等，在尖端模型上進行良好的對齊研究並將結果作為公共產品分享，研究並分享可怕模型行為的演示，在正確的時間轉向進行大量的自動化對齊研究，倡導正確類型的監管和暫停，詳細了解技術狀況並與公眾和相關決策者分享這些信息，在正確的時間以正確的方式（如果合適的話）發出警報，總體上推動 AI 發展向良好/明智的方向發展等。話雖如此，我對那些依賴 Anthropic 在會對其商業成功造成重大（特別是毀滅性）成本時仍採取此類行動的影響故事持謹慎態度。
^(^) 我也認為 AI 安全社群的部分成員過去對於安全導向的工作可能加速 AI 能力發展的可能性過於純粹主義/義務論/挑剔，但這是一個稍微獨立的討論，而且我確實認為雙方都有論據。
^(^) 不過：在考慮這樣的思想實驗時，試著想像 Anthropic 目前的所有員工如果不在此工作，可能會去做什麼，這很重要。
^(^) 在高層次上，從後果論的角度來看，不應在淨負面機構工作的最核心原因是，初步看來，你應該預期自己會成為該機構所代表的任何向量的額外乘數/強化者。所以：如果該向量是淨負面的，那麼你應該預期自己也是淨負面的。但這個考量，眾所周知，可以被你特定工作的整體向量可能朝著正向推動的方式所抵消——當然，這需要具體案例具體分析，並針對偏見、不確定性、陳舊的啟發式方法等進行調整。即使你承認在淨負面機構工作在後果論上是好的，仍然存在一個進一步的問題，即這在義務論上是否被允許（以及/或者，是否與更複雜的決策論後果論方法相容——即那種指示你納入你的選擇與他人選擇之間可能的非因果相關性，指示你按照你在更無知的認識地位下會決定的某種更廣泛政策行事的方法等——關於我對此類決策論的看法，請參見此處）。我不會在這裡詳細辯論這整個計算過程。但正如我在正文中所討論的，我有一種相當強烈的直覺，即對於我認識的一些在 AI 公司（以及在其他我認為比 Anthropic 更有可能是淨負面的機構）工作的人來說，這樣做既是好的，在義務論/決策論上也是正確的。如果這種直覺是可靠的，這意味著至少「Anthropic 是淨負面的，人不應該在這樣的組織工作」本身並不足以成為一個論據。
^(^) 這也是認為 Anthropic 可能是淨負面的論據之一，也是「想像沒有 Anthropic 的現狀」這類思想實驗可能誤導的原因之一。
^(^) 特別是，實際身處一家 AI 公司——尤其是處於能影響其安全相關決策的位置——會讓你處於一個能更直接地影響其在安全與股權價值之間權衡的位置。
^(^) 例如：既然 Anthropic 關於失對齊風險的技術見解因其行業領導地位而具有異常的公信力，我認為 Anthropic 確實應該明智地使用其「發出危險警報」的信用點數。
^(^) 簡述如下：
- 至少有一些證據表明，Anthropic 的早期投資者得到的印象是 Anthropic 最初承諾不推動技術前沿——這一承諾與他們目前的政策和行為不符（儘管：我認為 Anthropic 過去確實採取了代價高昂的步驟來不推動前沿——參見例如這篇文章中的討論）。如果 Anthropic 在這方面做出承諾後又違背，我確實認為這很糟糕，且是反對預期他們未來會遵守安全相關承諾的一個論點。而且無論如何，Anthropic 的一些公開聲明確實暗示了對推動前沿的保留態度（參見例如這裡的引用），公司在安全導向的人士和投資者中的信譽似乎確實受益於培養這種印象。話雖如此，Anthropic 實際上採取了代價高昂的步驟不推動前沿，這一事實表明這種保留是真誠的——儘管是可推翻的。我認為從陳述的、真誠的但最終被推翻的保留中獲益，與違背諾言是不同的。
- 人們對 Anthropic 悄悄修訂/削弱其負責任縮放政策（RSP）中的承諾表示擔憂（參見例如這裡關於在訓練 ASL-3 模型時未能定義「預警信號評估」，以及這裡關於削弱 ASL-3 權重竊取安全要求，使其不涵蓋有權重訪問權限的員工）。我還沒有詳細研究過這個問題，我認為 Anthropic 在這裡的選擇可能是合理的，但我確實認為 AI 公司修訂 RSP 類政策的可能性，即使是以遵守這些政策中規定的修訂程序的方式（例如，獲得相關形式的董事會/LTBT 批准），也凸顯了依賴這些自願性政策來確保安全行為的局限性，特別是隨著競爭利害關係的增加。
- 我認為 Anthropic 過去擁有秘密競業禁止協議是很糟糕的（儘管：這些已經停止使用，之前的協議也不再執行）。在我看來，Sam McCandlish 代表 Anthropic 在這裡的評論似乎暗示了一個誤導性的情況，儘管他後來已經澄清。
- 我聽說有人擔心 Anthropic 的認識論文化涉及各種缺陷——例如群體思維、對於組織在偏離標準商業動機時優先考慮安全的程度過度自信、對於組織的 RSP 最終可能提供的安全程度過度自信、對於 Anthropic 在多大程度上是特別受倫理驅動而非標準公司的普遍校準失誤——且領導層在造成這種情況中扮演了重要角色。這對我來說從外部很難評估（如果屬實，其中一些缺陷也並非 Anthropic 所獨有）。我計劃在實際近距離觀察其文化後看看我的想法。
- 我也認為，總體而言，Anthropic 的研究人員在過去確實扮演了加速能力的實質性角色——例如 Dario 在早期 GPT 上的工作。
^(^) 至少假設他們認為先進 AI 總體上導致生存災難有顯著概率，我認為他們也應該這麼認為。
^(^) 我也認為在理想世界中，沒有任何單一政府或多邊項目應該處於這種位置，但不清楚這是否是一個可行的政策目標，至少在超智能 AI 終將被開發出來的世界中是如此。
^(^) 這裡我假設了所討論計劃的現實性受到某些約束。如果我們進一步假設所討論的文明除了純粹的短期利益外還關心其長期未來，我對此會更有信心。
^(^) 所謂具體利益，我指的是醫療利益、經濟利益等——而不是那些核心利益在於如何與「其他行為者也可能構建超智能」這一事實互動的利益。
^(^) 我認為即使你完全自私，且/或如果你只關心短期的利益和損害（例如，當前人類死亡/喪權的直接風險，對比當前人類的潛在利益），這可能也是正確的，因為這些短期目標很可能通過延遲超智能至少幾年以提高我們的安全理解來得到更好的服務。但如果你像我一樣，也非常關心人類文明的長期未來，我認為這尤其正確。
^(^) 明確地說，做出此類形式的糟糕辯護也是極其可能的——例如，「別人無論如何都會構建它，我也想參與其中。」
^(^) 我認為即使從更複雜的決策論視角來看這也是正確的，該視角將 AI 競賽視為類似於所有參與者都應協調避免的囚徒困境，因此可能指示 Anthropic 按照它希望所有參與者都遵守的政策行事。這個論點的問題在於，競賽中的一些行為者（以及一些潛在的進入者）所表達的信念、價值觀和意圖表明，他們甚至不願意參與協調一致的避免競賽政策——也就是說，無論別人在做什麼，他們都計劃勇往直前。在這種背景下，即使從一個更高級的決策論視角出發，該視角渴望按照你希望所有決策程序與你適當相關的人都會採用的政策行事，那些「無論如何我都會勇往直前」的行為者與你並不適當相關，因此也不受適當影響。（也許某些決策論會指示你按照這些行為者如果擁有更好/更理想化的觀點/意圖時會採用的政策行事，但這在我看來作為初步方法不太自然。）
^(^) 不過：我投入在重新辯論這個問題上的精力是有限的。
^(^) 儘管根據我上面關於機會成本的評論，我認為我離開 Anthropic 最可能的原因是考慮到我可能在其他地方做更好的工作，而不是關於在開發先進 AI 的公司工作的倫理問題。
^(^) 以及/或者，看看我是否能在其他地方提供適當的幫助。
^(^) 我確實認為，最終要實現人類文明哪怕是接近全部的潛力，都需要獲得先進 AI 或同等能力的某種東西。

— Lesswrong

你的個人知識庫

告別開放慈善，加入Anthropic

關於我在 Open Philanthropy 的時光

關於前往 Anthropic