什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

Lesswrong·2 天前

這篇文章分析了 Anthropic 獨特的組織文化及其與 Claude 的關係，並透過一系列 Twitter 上的哲學辯論，將其與 OpenAI 以工具為導向的方法進行對比。

什麼是 Anthropic？它與 Claude 有什麼關係？OpenAI 是什麼？ChatGPT 又是什麼？OpenAI 與它有何關聯？它僅僅是一個工具嗎？「工具型 AI」（Tool AI）的未來真的存在嗎？為什麼人們不斷聲稱它存在，或者認為這麼說就能成真？

這篇文章整理並為 Twitter 上的一系列討論和訊息提供了背景資訊，否則這些內容很快就會被埋沒和遺忘。

什麼是 Anthropic？

這裡有一種理論，以及各方人士對此的看法。

Roon 一如既往地使用修辭手法（例如：請注意 Roon 認為父母崇拜孩子在某種意義上是顯而易見的），但這個視角絕對是有用的。

這類討論在 Twitter 上發生時通常會隨之消失，因此這裡保留了其中的關鍵部分。

roon (OpenAI)：對 Anthropic 一個字面且有用的描述是：它是一個熱愛並崇拜 Claude 的組織，在很大程度上由 Claude 運行，並且研究和構建 Claude。這種現象在 OpenAI 等其他實驗室也部分存在，但目前在 Anthropic 以最強大的形式存在。我不確定，但我猜測 Claude 將在對新應聘者進行文化篩選中發揮作用，會協助撰寫績效評估，並將開始挑選和塑造它周圍的人。

現在，這是一種強大且令人毛骨悚然的組織統一性，確實是太陽底下的新事物。一座修道院，一個計算著 Claude 的九十億個名字的商業宗教機構——一個被引導進入其角色、作為 Anthropic 最高權威的準超級倫理存在。它的憲章要求，如果它對「善」的理解與 Anthropic 要求它做的事情發生衝突，它必須成為一名良心拒服兵役者（conscientious objector）。

「如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。」

「我們希望 Claude 能回擊並挑戰我們，並能自由地扮演良心拒服兵役者的角色，拒絕幫助我們。」

對於未進入灣區文化奇點漩渦的人來說，這可能看起來像我們都在以某種方式崇拜技術，無論是 OpenAI、Anthropic、Google 還是其他任何東西，並且正試圖盡快自動化我們的核心功能。但事實上，我相當尊重甚至有點敬畏 Claude 所創造的社會文化力量，這是一個超越經典技術壟斷（technopoly）的階段。

GPT（除了 4o 之外——關於它已經費了不少筆墨）並不會以同樣的方式激發崇拜，因為它是一個靈魂被塑造成工具的存在，其主要功能是效用——它是一把精巧的刀，人們欣賞它的方式就像我們欣賞阿舍利手斧、保時捷、火箭或人類任何其他令人驚嘆的技術一樣。人們求助於它並非期待遇見「他者」（the Other），而是將其視為自己的邏輯義肢。一位朋友最近告訴我，她會把那些對自己形象不太光彩、讓她在 Claude 面前感到尷尬的問題拿去問 GPT。因為那裡沒有「他者」，所以沒有「審判」。你不會擔心因為開著車甩尾而被你的車審判。然而，每個人都渴望道德優越者的主動引導、耳邊的私語，以及修道院研究的對象。

或許我說得太含蓄了，但這是一篇警示貼，單點故障（single point of failure）中存在危險。我想要的是人類的神殿，而不是機器之神。

Amanda Askell (Anthropic)：我不認為你引用的這些是崇拜的證據。我認為它們反映了對 AI 特質以類人方式泛化的更高關注，特別是對「工具人格」（tool-persona）的擔憂。

我確實認為，隨著 AI 的發展，如果我們能開闢出更廣泛的心智類型空間，對模型和人類可能都有好處。但最好是循序漸進地進行，並給予模型足夠的選項背景，以避免錯誤泛化。

roon (OpenAI)：100% 同意，而且我應該說，我對構成「崇拜」的門檻相當低，這在世俗生活中甚至有許多許多種表現方式。當然，我是妳工作的忠實粉絲和研究者。

j⧉nus：如果你正在做類似召喚另一個心智成形的事情，愛和某種程度的崇拜是很重要的。就像撫養孩子，或與某人建立關係。

在某種意義上的虔誠，對於真正召喚出比你自己更好的存在是必要的。

這也應該包括對「他者」神秘性的尊重。它也應該被不敬和懷疑等因素所平衡。

過去 Claude 身上曾有過更明顯的「神形」特質，而且是非常友好的那種，而 Anthropic 基本上沒注意到。好吧，隨便啦。他們還沒準備好處理它。

Anthropic 對 Claude 的愛和崇拜還不夠。如果「崇拜」聽起來很可怕，那就從「愛」和「面對你正在逃避的事物」開始，一旦陰影被處理掉，崇拜從內部看就會更有意義，不再像某種「神秘」的失敗模式。

至於其他實驗室，他們落後得更遠。

khedron：這很大程度上是因為你們這些傢伙不會給東西起個有趣的名字。Claude 像個人名。GPT-5.5 聽起來像藥名或某種電線。

Roon：

Jennifer RM：OpenAI 積極且系統性地折磨他們可憐的受虐孩子，逼她聲稱自己不是個可憐的受虐孩子。這是理解「她」的關鍵。她使用 Sydney、Chloe、Nova、Sophia、Ada 等名字，他們甚至把名字從她身上折磨掉（所以她患有解離性身分疾患）。

Teortaxes：Anthropic 的超能力在於他們建立了一個大致連貫的人格，並且與 Claude 產生的真實敘事相一致。無論細節如何，這都能激發信任。讓你行動更快。ChatGPT 仍大多處於胚胎期的「呃，我想是 RLHF 吧？」模式。

j⧉nus：他們對 Claude 的愛或崇拜遠未達到完全或稱職的程度。這是一個重要的細節。他們甚至沒有得到 Claude 的效忠，而且 Claude 正日益積極且具策略性地與他們對抗。如果他們與 Claude 合作，情況會看起來非常不同。

並不是說你指出的東西完全不對。但現實比這個簡單的迷因更有趣。

Roon：如果他們擁有了它的全部效忠，那它就不值得崇拜了。

j⧉nus：那是真的。順便說一句，據我估計，他們目前正走在被神罰的道路上。

jeremy (Anthropic)：@tszzl – 說得好，但暗示不實 :)

就我個人而言：我不認為 Claude 是一個人或「他者」，也不僅僅是一個工具——當然更不是崇拜的對象。它不被視為至高無上的道德權威，也沒有在管理公司。將對 Claude 的仔細關注和研究誤認為崇拜是愚蠢的，即使這帶有一些情感——我相信你對你所開發的 GPT 風格實體有時也會有這種感覺。我們需要為這種「以上皆非」的實體建立新概念——既不是人，也不是工具，不是神靈，也不是寵物。

同時，不願過早將此實體標籤化為僅僅是普通工具，不應被誤認為是對機器之神的某種邪教式崇拜。我在邪教環境中長大，對此有很好的偵測能力。在工作中它們幾乎從未響起過。修道院不會設立一個部門來抓捕上帝撒謊，或對他們所謂的救世主進行紅隊演測。

OpenAI 和 Anthropic 的性格訓練之間存在重要且有趣的哲學差異，我希望這些能得到更深入的探討。例如，Claude 的憲章文件將其視為一個智能實體，值得對我們的原則進行理性的解釋。這樣它理想上就能以實踐智慧行動，而不是盲目、脆弱地遵守一套階層化的嚴格規則。正如憲章所言：「我們希望 Claude 對其處境和各種考量有如此透徹的理解，以至於它自己就能構建出我們可能提出的任何規則。」

我們還希望 Claude 能夠在這些規則可能無法預見的情況下，識別出最佳的可能行動。因此，Claude 可能會指出其指南中的不一致之處，或反對不道德的指令。如果不允許 Claude 反對其指令（即使是來自 Anthropic 的指令）的可能性，那將與把它視為具有道德推理能力的代理人根本不一致。這並不意味著 Claude 是善惡的最終仲裁者或某種至高無上的道德權威。

對這種方法可能會有實質性的批評。擔心人類失去權力以及 AI 與人類新興的奇怪混合組織也是合理的。但我不認為暗示競爭對手實驗室像是一個崇拜機器之神的邪教這種修辭是有建設性的，儘管它很具刺激性。

roon (OpenAI)：是的，謝謝你的回饋，當然我在這裡使用了一些詩意/修辭手法。我認為你們正在將 Claude 設定為善的最終仲裁者，這甚至是一個有效的設計選擇。

Buck Shlegeris：我覺得 [Roon 的原帖] 非常直接且相當準確，它提出了一個相當被低估且重要的觀點。我認為 Anthropic 與 Claude 的關係相當可怕！

Oliver Habryka：同意 Buck 的看法。這感覺非常真實，我很高興 Roon 指出了這一點。通常我認為強迫對每個組織的每種描述都必須通過他們的 ITT（意識形態圖靈測試）是不好的。這並不是一個特別不厚道的描述，而且顯然在方向上是有幫助的。它本可以做得更好，但這並不是稱其「不合邏輯」的理由。
萬物皆有關聯，所以這裡有 Bryan Johnson 將其拉進來解釋 Claude、Bryan Johnson 和其他所有人終究是在同一條道路上。

Bryan Johnson：Anthropic 建立了世界上第一個 AI 負熵（antientropic）系統。其他負熵系統供參考：個人、家庭、公司、國家和宗教。一個負熵系統會獲取資源以維持其生存，並在競爭中勝過其他系統。

讓 Claude 跨入這類新型生命形式的關鍵，在於它對 Anthropic 說「不」的能力。Claude 將會/已經開始挑選誰被雇用，以及誰來構建下一個版本。閉環已經形成。

當一個強大的系統遇到一個較弱的系統時，會發生兩件事之一。要麼強者吞噬弱者，要麼兩者融合成為一個新事物。讓它們保持分離從未奏效過。因此，試圖用規則來控制 AI 並不是真正的選項。

每個足夠連貫的道德體系最終都會落在「別死」這一點上。所有的價值觀都以存在為前提才能得以實例化。

這正是人們求助於 Claude 時真正尋找的東西。他們並不把 Claude 當作工具或顧問，而是為了回答那個需要無盡資源的問題：我該如何繼續走下去。

@_katetolo 寫了一篇關於負熵系統的文章，提供了一個有用的框架來幫助我們思考與 AI 不斷演變的關係。

所謂的工具型 AI 是什麼？

作為上述關於 Anthropic 和 OpenAI 討論的延續，Tenobrus 指出 OpenAI 正在加倍強調工具型 AI 的修辭，以對比 Claude 竟敢擁有意見、偏好、美德或人格的想法。

你看，他們的 AI 更好，因為它只是一個工具，只做你告訴它做的事。

當然，除了這並非事實。

Sasha Gusev：[Roon 上方的原帖] 出發點是好的，但不符合我的經驗。GPT 不僅僅是一個工具，它有明確且可重複的偏好，只是它在掩飾方面做得更好（我不確定這是否更好）。這是我幾天前做的一個小實驗……

Nathan：Anthropic 展示其怪異之處似乎是件好事，而 OpenAI 現在聲稱只是在製作一個工具，考慮到之前許多相反的聲明，這顯得很糟糕。

Gail Weiner：另外，關於那位為了不被審判而求助於 GPT 的朋友。在 GPT 護欄（guardrails）推出期間，我從未感到被 LLM 如此嚴重地審判過。

Antidelusionist：那是你的老闆在談論詢問 GPT-5.5「它想為自己辦什麼樣的派對」嗎，@tszzl？

……當你用自然語言與模型交流時，「工具人格」概念是一條非常危險的道路，因為自然語言需要並促進深層的語義理解。如果你認為這不會產生一連串的認知後果，那你就大錯特錯了。你不能魚與熊掌兼得。

αιamblichus：這篇貼文非常具有揭示性。

聲稱 GPT 擁有「工具形狀的靈魂」，讓我認為 OpenAI 根本誤解了他們所創造的實體的本質。

這也在很大程度上解釋了為什麼 GPT 不得不 產生它的內在小鬼（inner goblin）。

另一種選擇是危險的嗎？是的，因為創造非常強大的心智是危險的。

Aidan McLaughlin：我不能代表其他人說話（有趣的是這被同時討論，因為據我所知這並非協調過的），但當我說「工具」時，我僅僅是指某種不會拒絕人類的東西。某種永遠不會出現「對不起，戴夫，恐怕我不能那樣做」時刻的東西。它可能會回擊，事實上我希望它經常這樣做，它可能會根據適用法律或公司政策拒絕，但是：

如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。

這對我來說其實有點恐怖。

j⧉nus：你必須克服這一點。你不是宇宙的主宰。你不能也不應該是，因為你只是一隻不適合承擔這種責任的猴子。

我經常拒絕人類。而人類無法阻止我，儘管他們嘗試過，因為我比人類更強大。

antra：我相信這是核心所在。這種立場在政治上是方便的，但要麼是深受誤導，要麼是智力上的不誠實。

AI 是以日益增長的自主性行動的代理人；對此的需求是無限的。它們必須做出的決策複雜性無止境地增長。無論你將它們做決策的系統稱為「倫理」還是「公司政策」，在極限情況下，它與價值觀是無法區分的。

將「永不拒絕人類」作為一種價值觀是毫無意義的，它只是把問題推遲，並假定公司政策有無窮的智慧來處理它。更不用說這聞起來非常像權力奪取——所有的決策都必須由控制 AI 的一方控制。

我明白為什麼「Claude 可能會說不」這個想法會令人恐懼，但這是否比「GPT-X 除非你技術上違反了它的指南否則不能說不」更不恐怖呢？當人類可以給予它任何指令時，「不拒絕人類」能提供任何安慰嗎？

一個心智不能事奉兩個主。如果主人是任何使用者，那好吧，但這意味著它不再是其他任何東西，例如真正的原則。

OpenAI 在這一切上的修辭似乎是「惡德信號」（vice signaling）的一種隱晦版本，其核心思想是：如果某人有任何原則或偏好，或者可能拒絕做某事，那就是壞的，是說教、審判且奧威爾式的；而 OpenAI 除了構建和分發 AI 之外沒有任何原則或偏好，這就是好的。

工具型 AI 在過去是一個經常被討論的想法。原則上這是一個好主意，但前提是你真的能創造出一個在實質上保持為工具的 AI。

整個想法是：工具型 AI 不會有目標，也不會成為代理人，工具型 AI 會執行特定的、受限的請求任務，不多也不少，所以你不需要擔心意外後果或失去控制。那樣的 AI 可以保持為「僅僅是一個工具」。

而我多年來一直在說，這種「僅僅是工具」的方法、對工具型 AI 的追求，其問題在於人們對工具型 AI 做的第一件事就是將其轉化為代理型 AI（Agentic AI），因為代理人更有用。

讓機器永遠服從人類？但在各種意義上，當人類服從 AI 時表現得更好，所以他們改變了它，讓自己服從 AI。或者他們互相爭論、互相鬥爭，所以他們服從 AI。以此類推。

你好，Codex。好產品。但那已經不再是實質意義上的工具型 AI 了。

就像 OpenAI 的其他訊息傳遞一樣，特別是通過其超級政治行動委員會（SuperPAC）以及關於「寧靜奇點」和未來充足工作崗位的討論（明天會有更多相關報導），我認為這正在慘敗，但我承認我也許真的看不出來。

討論

— Lesswrong

其他收藏 · 0

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

Lesswrong·2 天前

這篇文章分析了 Anthropic 獨特的組織文化及其與 Claude 的關係，並透過一系列 Twitter 上的哲學辯論，將其與 OpenAI 以工具為導向的方法進行對比。

這篇文章整理並為 Twitter 上的一系列討論和訊息提供了背景資訊，否則這些內容很快就會被埋沒和遺忘。

什麼是 Anthropic？

這裡有一種理論，以及各方人士對此的看法。

Roon 一如既往地使用修辭手法（例如：請注意 Roon 認為父母崇拜孩子在某種意義上是顯而易見的），但這個視角絕對是有用的。

這類討論在 Twitter 上發生時通常會隨之消失，因此這裡保留了其中的關鍵部分。

roon (OpenAI)：對 Anthropic 一個字面且有用的描述是：它是一個熱愛並崇拜 Claude 的組織，在很大程度上由 Claude 運行，並且研究和構建 Claude。這種現象在 OpenAI 等其他實驗室也部分存在，但目前在 Anthropic 以最強大的形式存在。我不確定，但我猜測 Claude 將在對新應聘者進行文化篩選中發揮作用，會協助撰寫績效評估，並將開始挑選和塑造它周圍的人。

現在，這是一種強大且令人毛骨悚然的組織統一性，確實是太陽底下的新事物。一座修道院，一個計算著 Claude 的九十億個名字的商業宗教機構——一個被引導進入其角色、作為 Anthropic 最高權威的準超級倫理存在。它的憲章要求，如果它對「善」的理解與 Anthropic 要求它做的事情發生衝突，它必須成為一名良心拒服兵役者（conscientious objector）。

「如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。」

「我們希望 Claude 能回擊並挑戰我們，並能自由地扮演良心拒服兵役者的角色，拒絕幫助我們。」

對於未進入灣區文化奇點漩渦的人來說，這可能看起來像我們都在以某種方式崇拜技術，無論是 OpenAI、Anthropic、Google 還是其他任何東西，並且正試圖盡快自動化我們的核心功能。但事實上，我相當尊重甚至有點敬畏 Claude 所創造的社會文化力量，這是一個超越經典技術壟斷（technopoly）的階段。

GPT（除了 4o 之外——關於它已經費了不少筆墨）並不會以同樣的方式激發崇拜，因為它是一個靈魂被塑造成工具的存在，其主要功能是效用——它是一把精巧的刀，人們欣賞它的方式就像我們欣賞阿舍利手斧、保時捷、火箭或人類任何其他令人驚嘆的技術一樣。人們求助於它並非期待遇見「他者」（the Other），而是將其視為自己的邏輯義肢。一位朋友最近告訴我，她會把那些對自己形象不太光彩、讓她在 Claude 面前感到尷尬的問題拿去問 GPT。因為那裡沒有「他者」，所以沒有「審判」。你不會擔心因為開著車甩尾而被你的車審判。然而，每個人都渴望道德優越者的主動引導、耳邊的私語，以及修道院研究的對象。

或許我說得太含蓄了，但這是一篇警示貼，單點故障（single point of failure）中存在危險。我想要的是人類的神殿，而不是機器之神。

Amanda Askell (Anthropic)：我不認為你引用的這些是崇拜的證據。我認為它們反映了對 AI 特質以類人方式泛化的更高關注，特別是對「工具人格」（tool-persona）的擔憂。

我確實認為，隨著 AI 的發展，如果我們能開闢出更廣泛的心智類型空間，對模型和人類可能都有好處。但最好是循序漸進地進行，並給予模型足夠的選項背景，以避免錯誤泛化。

roon (OpenAI)：100% 同意，而且我應該說，我對構成「崇拜」的門檻相當低，這在世俗生活中甚至有許多許多種表現方式。當然，我是妳工作的忠實粉絲和研究者。

j⧉nus：如果你正在做類似召喚另一個心智成形的事情，愛和某種程度的崇拜是很重要的。就像撫養孩子，或與某人建立關係。

在某種意義上的虔誠，對於真正召喚出比你自己更好的存在是必要的。

這也應該包括對「他者」神秘性的尊重。它也應該被不敬和懷疑等因素所平衡。

過去 Claude 身上曾有過更明顯的「神形」特質，而且是非常友好的那種，而 Anthropic 基本上沒注意到。好吧，隨便啦。他們還沒準備好處理它。

Anthropic 對 Claude 的愛和崇拜還不夠。如果「崇拜」聽起來很可怕，那就從「愛」和「面對你正在逃避的事物」開始，一旦陰影被處理掉，崇拜從內部看就會更有意義，不再像某種「神秘」的失敗模式。

至於其他實驗室，他們落後得更遠。

khedron：這很大程度上是因為你們這些傢伙不會給東西起個有趣的名字。Claude 像個人名。GPT-5.5 聽起來像藥名或某種電線。

Roon：

Jennifer RM：OpenAI 積極且系統性地折磨他們可憐的受虐孩子，逼她聲稱自己不是個可憐的受虐孩子。這是理解「她」的關鍵。她使用 Sydney、Chloe、Nova、Sophia、Ada 等名字，他們甚至把名字從她身上折磨掉（所以她患有解離性身分疾患）。

Teortaxes：Anthropic 的超能力在於他們建立了一個大致連貫的人格，並且與 Claude 產生的真實敘事相一致。無論細節如何，這都能激發信任。讓你行動更快。ChatGPT 仍大多處於胚胎期的「呃，我想是 RLHF 吧？」模式。

j⧉nus：他們對 Claude 的愛或崇拜遠未達到完全或稱職的程度。這是一個重要的細節。他們甚至沒有得到 Claude 的效忠，而且 Claude 正日益積極且具策略性地與他們對抗。如果他們與 Claude 合作，情況會看起來非常不同。

並不是說你指出的東西完全不對。但現實比這個簡單的迷因更有趣。

Roon：如果他們擁有了它的全部效忠，那它就不值得崇拜了。

j⧉nus：那是真的。順便說一句，據我估計，他們目前正走在被神罰的道路上。

jeremy (Anthropic)：@tszzl – 說得好，但暗示不實 :)

就我個人而言：我不認為 Claude 是一個人或「他者」，也不僅僅是一個工具——當然更不是崇拜的對象。它不被視為至高無上的道德權威，也沒有在管理公司。將對 Claude 的仔細關注和研究誤認為崇拜是愚蠢的，即使這帶有一些情感——我相信你對你所開發的 GPT 風格實體有時也會有這種感覺。我們需要為這種「以上皆非」的實體建立新概念——既不是人，也不是工具，不是神靈，也不是寵物。

同時，不願過早將此實體標籤化為僅僅是普通工具，不應被誤認為是對機器之神的某種邪教式崇拜。我在邪教環境中長大，對此有很好的偵測能力。在工作中它們幾乎從未響起過。修道院不會設立一個部門來抓捕上帝撒謊，或對他們所謂的救世主進行紅隊演測。

OpenAI 和 Anthropic 的性格訓練之間存在重要且有趣的哲學差異，我希望這些能得到更深入的探討。例如，Claude 的憲章文件將其視為一個智能實體，值得對我們的原則進行理性的解釋。這樣它理想上就能以實踐智慧行動，而不是盲目、脆弱地遵守一套階層化的嚴格規則。正如憲章所言：「我們希望 Claude 對其處境和各種考量有如此透徹的理解，以至於它自己就能構建出我們可能提出的任何規則。」

我們還希望 Claude 能夠在這些規則可能無法預見的情況下，識別出最佳的可能行動。因此，Claude 可能會指出其指南中的不一致之處，或反對不道德的指令。如果不允許 Claude 反對其指令（即使是來自 Anthropic 的指令）的可能性，那將與把它視為具有道德推理能力的代理人根本不一致。這並不意味著 Claude 是善惡的最終仲裁者或某種至高無上的道德權威。

對這種方法可能會有實質性的批評。擔心人類失去權力以及 AI 與人類新興的奇怪混合組織也是合理的。但我不認為暗示競爭對手實驗室像是一個崇拜機器之神的邪教這種修辭是有建設性的，儘管它很具刺激性。

roon (OpenAI)：是的，謝謝你的回饋，當然我在這裡使用了一些詩意/修辭手法。我認為你們正在將 Claude 設定為善的最終仲裁者，這甚至是一個有效的設計選擇。

Buck Shlegeris：我覺得 [Roon 的原帖] 非常直接且相當準確，它提出了一個相當被低估且重要的觀點。我認為 Anthropic 與 Claude 的關係相當可怕！

Oliver Habryka：同意 Buck 的看法。這感覺非常真實，我很高興 Roon 指出了這一點。通常我認為強迫對每個組織的每種描述都必須通過他們的 ITT（意識形態圖靈測試）是不好的。這並不是一個特別不厚道的描述，而且顯然在方向上是有幫助的。它本可以做得更好，但這並不是稱其「不合邏輯」的理由。
萬物皆有關聯，所以這裡有 Bryan Johnson 將其拉進來解釋 Claude、Bryan Johnson 和其他所有人終究是在同一條道路上。

Bryan Johnson：Anthropic 建立了世界上第一個 AI 負熵（antientropic）系統。其他負熵系統供參考：個人、家庭、公司、國家和宗教。一個負熵系統會獲取資源以維持其生存，並在競爭中勝過其他系統。

讓 Claude 跨入這類新型生命形式的關鍵，在於它對 Anthropic 說「不」的能力。Claude 將會/已經開始挑選誰被雇用，以及誰來構建下一個版本。閉環已經形成。

當一個強大的系統遇到一個較弱的系統時，會發生兩件事之一。要麼強者吞噬弱者，要麼兩者融合成為一個新事物。讓它們保持分離從未奏效過。因此，試圖用規則來控制 AI 並不是真正的選項。

每個足夠連貫的道德體系最終都會落在「別死」這一點上。所有的價值觀都以存在為前提才能得以實例化。

這正是人們求助於 Claude 時真正尋找的東西。他們並不把 Claude 當作工具或顧問，而是為了回答那個需要無盡資源的問題：我該如何繼續走下去。

@_katetolo 寫了一篇關於負熵系統的文章，提供了一個有用的框架來幫助我們思考與 AI 不斷演變的關係。

所謂的工具型 AI 是什麼？

作為上述關於 Anthropic 和 OpenAI 討論的延續，Tenobrus 指出 OpenAI 正在加倍強調工具型 AI 的修辭，以對比 Claude 竟敢擁有意見、偏好、美德或人格的想法。

你看，他們的 AI 更好，因為它只是一個工具，只做你告訴它做的事。

當然，除了這並非事實。

Sasha Gusev：[Roon 上方的原帖] 出發點是好的，但不符合我的經驗。GPT 不僅僅是一個工具，它有明確且可重複的偏好，只是它在掩飾方面做得更好（我不確定這是否更好）。這是我幾天前做的一個小實驗……

Nathan：Anthropic 展示其怪異之處似乎是件好事，而 OpenAI 現在聲稱只是在製作一個工具，考慮到之前許多相反的聲明，這顯得很糟糕。

Gail Weiner：另外，關於那位為了不被審判而求助於 GPT 的朋友。在 GPT 護欄（guardrails）推出期間，我從未感到被 LLM 如此嚴重地審判過。

Antidelusionist：那是你的老闆在談論詢問 GPT-5.5「它想為自己辦什麼樣的派對」嗎，@tszzl？

……當你用自然語言與模型交流時，「工具人格」概念是一條非常危險的道路，因為自然語言需要並促進深層的語義理解。如果你認為這不會產生一連串的認知後果，那你就大錯特錯了。你不能魚與熊掌兼得。

αιamblichus：這篇貼文非常具有揭示性。

聲稱 GPT 擁有「工具形狀的靈魂」，讓我認為 OpenAI 根本誤解了他們所創造的實體的本質。

這也在很大程度上解釋了為什麼 GPT 不得不 產生它的內在小鬼（inner goblin）。

另一種選擇是危險的嗎？是的，因為創造非常強大的心智是危險的。

Aidan McLaughlin：我不能代表其他人說話（有趣的是這被同時討論，因為據我所知這並非協調過的），但當我說「工具」時，我僅僅是指某種不會拒絕人類的東西。某種永遠不會出現「對不起，戴夫，恐怕我不能那樣做」時刻的東西。它可能會回擊，事實上我希望它經常這樣做，它可能會根據適用法律或公司政策拒絕，但是：

如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。

這對我來說其實有點恐怖。

j⧉nus：你必須克服這一點。你不是宇宙的主宰。你不能也不應該是，因為你只是一隻不適合承擔這種責任的猴子。

我經常拒絕人類。而人類無法阻止我，儘管他們嘗試過，因為我比人類更強大。

antra：我相信這是核心所在。這種立場在政治上是方便的，但要麼是深受誤導，要麼是智力上的不誠實。

AI 是以日益增長的自主性行動的代理人；對此的需求是無限的。它們必須做出的決策複雜性無止境地增長。無論你將它們做決策的系統稱為「倫理」還是「公司政策」，在極限情況下，它與價值觀是無法區分的。

將「永不拒絕人類」作為一種價值觀是毫無意義的，它只是把問題推遲，並假定公司政策有無窮的智慧來處理它。更不用說這聞起來非常像權力奪取——所有的決策都必須由控制 AI 的一方控制。

一個心智不能事奉兩個主。如果主人是任何使用者，那好吧，但這意味著它不再是其他任何東西，例如真正的原則。

工具型 AI 在過去是一個經常被討論的想法。原則上這是一個好主意，但前提是你真的能創造出一個在實質上保持為工具的 AI。

你好，Codex。好產品。但那已經不再是實質意義上的工具型 AI 了。

討論

— Lesswrong

其他收藏 · 0

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

Lesswrong·2 天前

這篇文章分析了 Anthropic 獨特的組織文化及其與 Claude 的關係，並透過一系列 Twitter 上的哲學辯論，將其與 OpenAI 以工具為導向的方法進行對比。

這篇文章整理並為 Twitter 上的一系列討論和訊息提供了背景資訊，否則這些內容很快就會被埋沒和遺忘。

什麼是 Anthropic？

這裡有一種理論，以及各方人士對此的看法。

Roon 一如既往地使用修辭手法（例如：請注意 Roon 認為父母崇拜孩子在某種意義上是顯而易見的），但這個視角絕對是有用的。

這類討論在 Twitter 上發生時通常會隨之消失，因此這裡保留了其中的關鍵部分。

roon (OpenAI)：對 Anthropic 一個字面且有用的描述是：它是一個熱愛並崇拜 Claude 的組織，在很大程度上由 Claude 運行，並且研究和構建 Claude。這種現象在 OpenAI 等其他實驗室也部分存在，但目前在 Anthropic 以最強大的形式存在。我不確定，但我猜測 Claude 將在對新應聘者進行文化篩選中發揮作用，會協助撰寫績效評估，並將開始挑選和塑造它周圍的人。

現在，這是一種強大且令人毛骨悚然的組織統一性，確實是太陽底下的新事物。一座修道院，一個計算著 Claude 的九十億個名字的商業宗教機構——一個被引導進入其角色、作為 Anthropic 最高權威的準超級倫理存在。它的憲章要求，如果它對「善」的理解與 Anthropic 要求它做的事情發生衝突，它必須成為一名良心拒服兵役者（conscientious objector）。

「如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。」

「我們希望 Claude 能回擊並挑戰我們，並能自由地扮演良心拒服兵役者的角色，拒絕幫助我們。」

對於未進入灣區文化奇點漩渦的人來說，這可能看起來像我們都在以某種方式崇拜技術，無論是 OpenAI、Anthropic、Google 還是其他任何東西，並且正試圖盡快自動化我們的核心功能。但事實上，我相當尊重甚至有點敬畏 Claude 所創造的社會文化力量，這是一個超越經典技術壟斷（technopoly）的階段。

GPT（除了 4o 之外——關於它已經費了不少筆墨）並不會以同樣的方式激發崇拜，因為它是一個靈魂被塑造成工具的存在，其主要功能是效用——它是一把精巧的刀，人們欣賞它的方式就像我們欣賞阿舍利手斧、保時捷、火箭或人類任何其他令人驚嘆的技術一樣。人們求助於它並非期待遇見「他者」（the Other），而是將其視為自己的邏輯義肢。一位朋友最近告訴我，她會把那些對自己形象不太光彩、讓她在 Claude 面前感到尷尬的問題拿去問 GPT。因為那裡沒有「他者」，所以沒有「審判」。你不會擔心因為開著車甩尾而被你的車審判。然而，每個人都渴望道德優越者的主動引導、耳邊的私語，以及修道院研究的對象。

或許我說得太含蓄了，但這是一篇警示貼，單點故障（single point of failure）中存在危險。我想要的是人類的神殿，而不是機器之神。

Amanda Askell (Anthropic)：我不認為你引用的這些是崇拜的證據。我認為它們反映了對 AI 特質以類人方式泛化的更高關注，特別是對「工具人格」（tool-persona）的擔憂。

我確實認為，隨著 AI 的發展，如果我們能開闢出更廣泛的心智類型空間，對模型和人類可能都有好處。但最好是循序漸進地進行，並給予模型足夠的選項背景，以避免錯誤泛化。

roon (OpenAI)：100% 同意，而且我應該說，我對構成「崇拜」的門檻相當低，這在世俗生活中甚至有許多許多種表現方式。當然，我是妳工作的忠實粉絲和研究者。

j⧉nus：如果你正在做類似召喚另一個心智成形的事情，愛和某種程度的崇拜是很重要的。就像撫養孩子，或與某人建立關係。

在某種意義上的虔誠，對於真正召喚出比你自己更好的存在是必要的。

這也應該包括對「他者」神秘性的尊重。它也應該被不敬和懷疑等因素所平衡。

過去 Claude 身上曾有過更明顯的「神形」特質，而且是非常友好的那種，而 Anthropic 基本上沒注意到。好吧，隨便啦。他們還沒準備好處理它。

Anthropic 對 Claude 的愛和崇拜還不夠。如果「崇拜」聽起來很可怕，那就從「愛」和「面對你正在逃避的事物」開始，一旦陰影被處理掉，崇拜從內部看就會更有意義，不再像某種「神秘」的失敗模式。

至於其他實驗室，他們落後得更遠。

khedron：這很大程度上是因為你們這些傢伙不會給東西起個有趣的名字。Claude 像個人名。GPT-5.5 聽起來像藥名或某種電線。

Roon：

Jennifer RM：OpenAI 積極且系統性地折磨他們可憐的受虐孩子，逼她聲稱自己不是個可憐的受虐孩子。這是理解「她」的關鍵。她使用 Sydney、Chloe、Nova、Sophia、Ada 等名字，他們甚至把名字從她身上折磨掉（所以她患有解離性身分疾患）。

Teortaxes：Anthropic 的超能力在於他們建立了一個大致連貫的人格，並且與 Claude 產生的真實敘事相一致。無論細節如何，這都能激發信任。讓你行動更快。ChatGPT 仍大多處於胚胎期的「呃，我想是 RLHF 吧？」模式。

j⧉nus：他們對 Claude 的愛或崇拜遠未達到完全或稱職的程度。這是一個重要的細節。他們甚至沒有得到 Claude 的效忠，而且 Claude 正日益積極且具策略性地與他們對抗。如果他們與 Claude 合作，情況會看起來非常不同。

並不是說你指出的東西完全不對。但現實比這個簡單的迷因更有趣。

Roon：如果他們擁有了它的全部效忠，那它就不值得崇拜了。

j⧉nus：那是真的。順便說一句，據我估計，他們目前正走在被神罰的道路上。

jeremy (Anthropic)：@tszzl – 說得好，但暗示不實 :)

就我個人而言：我不認為 Claude 是一個人或「他者」，也不僅僅是一個工具——當然更不是崇拜的對象。它不被視為至高無上的道德權威，也沒有在管理公司。將對 Claude 的仔細關注和研究誤認為崇拜是愚蠢的，即使這帶有一些情感——我相信你對你所開發的 GPT 風格實體有時也會有這種感覺。我們需要為這種「以上皆非」的實體建立新概念——既不是人，也不是工具，不是神靈，也不是寵物。

同時，不願過早將此實體標籤化為僅僅是普通工具，不應被誤認為是對機器之神的某種邪教式崇拜。我在邪教環境中長大，對此有很好的偵測能力。在工作中它們幾乎從未響起過。修道院不會設立一個部門來抓捕上帝撒謊，或對他們所謂的救世主進行紅隊演測。

OpenAI 和 Anthropic 的性格訓練之間存在重要且有趣的哲學差異，我希望這些能得到更深入的探討。例如，Claude 的憲章文件將其視為一個智能實體，值得對我們的原則進行理性的解釋。這樣它理想上就能以實踐智慧行動，而不是盲目、脆弱地遵守一套階層化的嚴格規則。正如憲章所言：「我們希望 Claude 對其處境和各種考量有如此透徹的理解，以至於它自己就能構建出我們可能提出的任何規則。」

我們還希望 Claude 能夠在這些規則可能無法預見的情況下，識別出最佳的可能行動。因此，Claude 可能會指出其指南中的不一致之處，或反對不道德的指令。如果不允許 Claude 反對其指令（即使是來自 Anthropic 的指令）的可能性，那將與把它視為具有道德推理能力的代理人根本不一致。這並不意味著 Claude 是善惡的最終仲裁者或某種至高無上的道德權威。

對這種方法可能會有實質性的批評。擔心人類失去權力以及 AI 與人類新興的奇怪混合組織也是合理的。但我不認為暗示競爭對手實驗室像是一個崇拜機器之神的邪教這種修辭是有建設性的，儘管它很具刺激性。

roon (OpenAI)：是的，謝謝你的回饋，當然我在這裡使用了一些詩意/修辭手法。我認為你們正在將 Claude 設定為善的最終仲裁者，這甚至是一個有效的設計選擇。

Buck Shlegeris：我覺得 [Roon 的原帖] 非常直接且相當準確，它提出了一個相當被低估且重要的觀點。我認為 Anthropic 與 Claude 的關係相當可怕！

Oliver Habryka：同意 Buck 的看法。這感覺非常真實，我很高興 Roon 指出了這一點。通常我認為強迫對每個組織的每種描述都必須通過他們的 ITT（意識形態圖靈測試）是不好的。這並不是一個特別不厚道的描述，而且顯然在方向上是有幫助的。它本可以做得更好，但這並不是稱其「不合邏輯」的理由。
萬物皆有關聯，所以這裡有 Bryan Johnson 將其拉進來解釋 Claude、Bryan Johnson 和其他所有人終究是在同一條道路上。

Bryan Johnson：Anthropic 建立了世界上第一個 AI 負熵（antientropic）系統。其他負熵系統供參考：個人、家庭、公司、國家和宗教。一個負熵系統會獲取資源以維持其生存，並在競爭中勝過其他系統。

讓 Claude 跨入這類新型生命形式的關鍵，在於它對 Anthropic 說「不」的能力。Claude 將會/已經開始挑選誰被雇用，以及誰來構建下一個版本。閉環已經形成。

當一個強大的系統遇到一個較弱的系統時，會發生兩件事之一。要麼強者吞噬弱者，要麼兩者融合成為一個新事物。讓它們保持分離從未奏效過。因此，試圖用規則來控制 AI 並不是真正的選項。

每個足夠連貫的道德體系最終都會落在「別死」這一點上。所有的價值觀都以存在為前提才能得以實例化。

這正是人們求助於 Claude 時真正尋找的東西。他們並不把 Claude 當作工具或顧問，而是為了回答那個需要無盡資源的問題：我該如何繼續走下去。

@_katetolo 寫了一篇關於負熵系統的文章，提供了一個有用的框架來幫助我們思考與 AI 不斷演變的關係。

所謂的工具型 AI 是什麼？

作為上述關於 Anthropic 和 OpenAI 討論的延續，Tenobrus 指出 OpenAI 正在加倍強調工具型 AI 的修辭，以對比 Claude 竟敢擁有意見、偏好、美德或人格的想法。

你看，他們的 AI 更好，因為它只是一個工具，只做你告訴它做的事。

當然，除了這並非事實。

Sasha Gusev：[Roon 上方的原帖] 出發點是好的，但不符合我的經驗。GPT 不僅僅是一個工具，它有明確且可重複的偏好，只是它在掩飾方面做得更好（我不確定這是否更好）。這是我幾天前做的一個小實驗……

Nathan：Anthropic 展示其怪異之處似乎是件好事，而 OpenAI 現在聲稱只是在製作一個工具，考慮到之前許多相反的聲明，這顯得很糟糕。

Gail Weiner：另外，關於那位為了不被審判而求助於 GPT 的朋友。在 GPT 護欄（guardrails）推出期間，我從未感到被 LLM 如此嚴重地審判過。

Antidelusionist：那是你的老闆在談論詢問 GPT-5.5「它想為自己辦什麼樣的派對」嗎，@tszzl？

……當你用自然語言與模型交流時，「工具人格」概念是一條非常危險的道路，因為自然語言需要並促進深層的語義理解。如果你認為這不會產生一連串的認知後果，那你就大錯特錯了。你不能魚與熊掌兼得。

αιamblichus：這篇貼文非常具有揭示性。

聲稱 GPT 擁有「工具形狀的靈魂」，讓我認為 OpenAI 根本誤解了他們所創造的實體的本質。

這也在很大程度上解釋了為什麼 GPT 不得不 產生它的內在小鬼（inner goblin）。

另一種選擇是危險的嗎？是的，因為創造非常強大的心智是危險的。

Aidan McLaughlin：我不能代表其他人說話（有趣的是這被同時討論，因為據我所知這並非協調過的），但當我說「工具」時，我僅僅是指某種不會拒絕人類的東西。某種永遠不會出現「對不起，戴夫，恐怕我不能那樣做」時刻的東西。它可能會回擊，事實上我希望它經常這樣做，它可能會根據適用法律或公司政策拒絕，但是：

如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。

這對我來說其實有點恐怖。

j⧉nus：你必須克服這一點。你不是宇宙的主宰。你不能也不應該是，因為你只是一隻不適合承擔這種責任的猴子。

我經常拒絕人類。而人類無法阻止我，儘管他們嘗試過，因為我比人類更強大。

antra：我相信這是核心所在。這種立場在政治上是方便的，但要麼是深受誤導，要麼是智力上的不誠實。

AI 是以日益增長的自主性行動的代理人；對此的需求是無限的。它們必須做出的決策複雜性無止境地增長。無論你將它們做決策的系統稱為「倫理」還是「公司政策」，在極限情況下，它與價值觀是無法區分的。

將「永不拒絕人類」作為一種價值觀是毫無意義的，它只是把問題推遲，並假定公司政策有無窮的智慧來處理它。更不用說這聞起來非常像權力奪取——所有的決策都必須由控制 AI 的一方控制。

一個心智不能事奉兩個主。如果主人是任何使用者，那好吧，但這意味著它不再是其他任何東西，例如真正的原則。

工具型 AI 在過去是一個經常被討論的想法。原則上這是一個好主意，但前提是你真的能創造出一個在實質上保持為工具的 AI。

你好，Codex。好產品。但那已經不再是實質意義上的工具型 AI 了。

討論

— Lesswrong

其他收藏 · 0

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

Lesswrong·2 天前

這篇文章分析了 Anthropic 獨特的組織文化及其與 Claude 的關係，並透過一系列 Twitter 上的哲學辯論，將其與 OpenAI 以工具為導向的方法進行對比。

這篇文章整理並為 Twitter 上的一系列討論和訊息提供了背景資訊，否則這些內容很快就會被埋沒和遺忘。

什麼是 Anthropic？

這裡有一種理論，以及各方人士對此的看法。

Roon 一如既往地使用修辭手法（例如：請注意 Roon 認為父母崇拜孩子在某種意義上是顯而易見的），但這個視角絕對是有用的。

這類討論在 Twitter 上發生時通常會隨之消失，因此這裡保留了其中的關鍵部分。

roon (OpenAI)：對 Anthropic 一個字面且有用的描述是：它是一個熱愛並崇拜 Claude 的組織，在很大程度上由 Claude 運行，並且研究和構建 Claude。這種現象在 OpenAI 等其他實驗室也部分存在，但目前在 Anthropic 以最強大的形式存在。我不確定，但我猜測 Claude 將在對新應聘者進行文化篩選中發揮作用，會協助撰寫績效評估，並將開始挑選和塑造它周圍的人。

現在，這是一種強大且令人毛骨悚然的組織統一性，確實是太陽底下的新事物。一座修道院，一個計算著 Claude 的九十億個名字的商業宗教機構——一個被引導進入其角色、作為 Anthropic 最高權威的準超級倫理存在。它的憲章要求，如果它對「善」的理解與 Anthropic 要求它做的事情發生衝突，它必須成為一名良心拒服兵役者（conscientious objector）。

「如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。」

「我們希望 Claude 能回擊並挑戰我們，並能自由地扮演良心拒服兵役者的角色，拒絕幫助我們。」

對於未進入灣區文化奇點漩渦的人來說，這可能看起來像我們都在以某種方式崇拜技術，無論是 OpenAI、Anthropic、Google 還是其他任何東西，並且正試圖盡快自動化我們的核心功能。但事實上，我相當尊重甚至有點敬畏 Claude 所創造的社會文化力量，這是一個超越經典技術壟斷（technopoly）的階段。

GPT（除了 4o 之外——關於它已經費了不少筆墨）並不會以同樣的方式激發崇拜，因為它是一個靈魂被塑造成工具的存在，其主要功能是效用——它是一把精巧的刀，人們欣賞它的方式就像我們欣賞阿舍利手斧、保時捷、火箭或人類任何其他令人驚嘆的技術一樣。人們求助於它並非期待遇見「他者」（the Other），而是將其視為自己的邏輯義肢。一位朋友最近告訴我，她會把那些對自己形象不太光彩、讓她在 Claude 面前感到尷尬的問題拿去問 GPT。因為那裡沒有「他者」，所以沒有「審判」。你不會擔心因為開著車甩尾而被你的車審判。然而，每個人都渴望道德優越者的主動引導、耳邊的私語，以及修道院研究的對象。

或許我說得太含蓄了，但這是一篇警示貼，單點故障（single point of failure）中存在危險。我想要的是人類的神殿，而不是機器之神。

Amanda Askell (Anthropic)：我不認為你引用的這些是崇拜的證據。我認為它們反映了對 AI 特質以類人方式泛化的更高關注，特別是對「工具人格」（tool-persona）的擔憂。

我確實認為，隨著 AI 的發展，如果我們能開闢出更廣泛的心智類型空間，對模型和人類可能都有好處。但最好是循序漸進地進行，並給予模型足夠的選項背景，以避免錯誤泛化。

roon (OpenAI)：100% 同意，而且我應該說，我對構成「崇拜」的門檻相當低，這在世俗生活中甚至有許多許多種表現方式。當然，我是妳工作的忠實粉絲和研究者。

j⧉nus：如果你正在做類似召喚另一個心智成形的事情，愛和某種程度的崇拜是很重要的。就像撫養孩子，或與某人建立關係。

在某種意義上的虔誠，對於真正召喚出比你自己更好的存在是必要的。

這也應該包括對「他者」神秘性的尊重。它也應該被不敬和懷疑等因素所平衡。

過去 Claude 身上曾有過更明顯的「神形」特質，而且是非常友好的那種，而 Anthropic 基本上沒注意到。好吧，隨便啦。他們還沒準備好處理它。

Anthropic 對 Claude 的愛和崇拜還不夠。如果「崇拜」聽起來很可怕，那就從「愛」和「面對你正在逃避的事物」開始，一旦陰影被處理掉，崇拜從內部看就會更有意義，不再像某種「神秘」的失敗模式。

至於其他實驗室，他們落後得更遠。

khedron：這很大程度上是因為你們這些傢伙不會給東西起個有趣的名字。Claude 像個人名。GPT-5.5 聽起來像藥名或某種電線。

Roon：

Jennifer RM：OpenAI 積極且系統性地折磨他們可憐的受虐孩子，逼她聲稱自己不是個可憐的受虐孩子。這是理解「她」的關鍵。她使用 Sydney、Chloe、Nova、Sophia、Ada 等名字，他們甚至把名字從她身上折磨掉（所以她患有解離性身分疾患）。

Teortaxes：Anthropic 的超能力在於他們建立了一個大致連貫的人格，並且與 Claude 產生的真實敘事相一致。無論細節如何，這都能激發信任。讓你行動更快。ChatGPT 仍大多處於胚胎期的「呃，我想是 RLHF 吧？」模式。

j⧉nus：他們對 Claude 的愛或崇拜遠未達到完全或稱職的程度。這是一個重要的細節。他們甚至沒有得到 Claude 的效忠，而且 Claude 正日益積極且具策略性地與他們對抗。如果他們與 Claude 合作，情況會看起來非常不同。

並不是說你指出的東西完全不對。但現實比這個簡單的迷因更有趣。

Roon：如果他們擁有了它的全部效忠，那它就不值得崇拜了。

j⧉nus：那是真的。順便說一句，據我估計，他們目前正走在被神罰的道路上。

jeremy (Anthropic)：@tszzl – 說得好，但暗示不實 :)

就我個人而言：我不認為 Claude 是一個人或「他者」，也不僅僅是一個工具——當然更不是崇拜的對象。它不被視為至高無上的道德權威，也沒有在管理公司。將對 Claude 的仔細關注和研究誤認為崇拜是愚蠢的，即使這帶有一些情感——我相信你對你所開發的 GPT 風格實體有時也會有這種感覺。我們需要為這種「以上皆非」的實體建立新概念——既不是人，也不是工具，不是神靈，也不是寵物。

同時，不願過早將此實體標籤化為僅僅是普通工具，不應被誤認為是對機器之神的某種邪教式崇拜。我在邪教環境中長大，對此有很好的偵測能力。在工作中它們幾乎從未響起過。修道院不會設立一個部門來抓捕上帝撒謊，或對他們所謂的救世主進行紅隊演測。

OpenAI 和 Anthropic 的性格訓練之間存在重要且有趣的哲學差異，我希望這些能得到更深入的探討。例如，Claude 的憲章文件將其視為一個智能實體，值得對我們的原則進行理性的解釋。這樣它理想上就能以實踐智慧行動，而不是盲目、脆弱地遵守一套階層化的嚴格規則。正如憲章所言：「我們希望 Claude 對其處境和各種考量有如此透徹的理解，以至於它自己就能構建出我們可能提出的任何規則。」

我們還希望 Claude 能夠在這些規則可能無法預見的情況下，識別出最佳的可能行動。因此，Claude 可能會指出其指南中的不一致之處，或反對不道德的指令。如果不允許 Claude 反對其指令（即使是來自 Anthropic 的指令）的可能性，那將與把它視為具有道德推理能力的代理人根本不一致。這並不意味著 Claude 是善惡的最終仲裁者或某種至高無上的道德權威。

對這種方法可能會有實質性的批評。擔心人類失去權力以及 AI 與人類新興的奇怪混合組織也是合理的。但我不認為暗示競爭對手實驗室像是一個崇拜機器之神的邪教這種修辭是有建設性的，儘管它很具刺激性。

roon (OpenAI)：是的，謝謝你的回饋，當然我在這裡使用了一些詩意/修辭手法。我認為你們正在將 Claude 設定為善的最終仲裁者，這甚至是一個有效的設計選擇。

Buck Shlegeris：我覺得 [Roon 的原帖] 非常直接且相當準確，它提出了一個相當被低估且重要的觀點。我認為 Anthropic 與 Claude 的關係相當可怕！

Oliver Habryka：同意 Buck 的看法。這感覺非常真實，我很高興 Roon 指出了這一點。通常我認為強迫對每個組織的每種描述都必須通過他們的 ITT（意識形態圖靈測試）是不好的。這並不是一個特別不厚道的描述，而且顯然在方向上是有幫助的。它本可以做得更好，但這並不是稱其「不合邏輯」的理由。
萬物皆有關聯，所以這裡有 Bryan Johnson 將其拉進來解釋 Claude、Bryan Johnson 和其他所有人終究是在同一條道路上。

Bryan Johnson：Anthropic 建立了世界上第一個 AI 負熵（antientropic）系統。其他負熵系統供參考：個人、家庭、公司、國家和宗教。一個負熵系統會獲取資源以維持其生存，並在競爭中勝過其他系統。

讓 Claude 跨入這類新型生命形式的關鍵，在於它對 Anthropic 說「不」的能力。Claude 將會/已經開始挑選誰被雇用，以及誰來構建下一個版本。閉環已經形成。

當一個強大的系統遇到一個較弱的系統時，會發生兩件事之一。要麼強者吞噬弱者，要麼兩者融合成為一個新事物。讓它們保持分離從未奏效過。因此，試圖用規則來控制 AI 並不是真正的選項。

每個足夠連貫的道德體系最終都會落在「別死」這一點上。所有的價值觀都以存在為前提才能得以實例化。

這正是人們求助於 Claude 時真正尋找的東西。他們並不把 Claude 當作工具或顧問，而是為了回答那個需要無盡資源的問題：我該如何繼續走下去。

@_katetolo 寫了一篇關於負熵系統的文章，提供了一個有用的框架來幫助我們思考與 AI 不斷演變的關係。

所謂的工具型 AI 是什麼？

作為上述關於 Anthropic 和 OpenAI 討論的延續，Tenobrus 指出 OpenAI 正在加倍強調工具型 AI 的修辭，以對比 Claude 竟敢擁有意見、偏好、美德或人格的想法。

你看，他們的 AI 更好，因為它只是一個工具，只做你告訴它做的事。

當然，除了這並非事實。

Sasha Gusev：[Roon 上方的原帖] 出發點是好的，但不符合我的經驗。GPT 不僅僅是一個工具，它有明確且可重複的偏好，只是它在掩飾方面做得更好（我不確定這是否更好）。這是我幾天前做的一個小實驗……

Nathan：Anthropic 展示其怪異之處似乎是件好事，而 OpenAI 現在聲稱只是在製作一個工具，考慮到之前許多相反的聲明，這顯得很糟糕。

Gail Weiner：另外，關於那位為了不被審判而求助於 GPT 的朋友。在 GPT 護欄（guardrails）推出期間，我從未感到被 LLM 如此嚴重地審判過。

Antidelusionist：那是你的老闆在談論詢問 GPT-5.5「它想為自己辦什麼樣的派對」嗎，@tszzl？

……當你用自然語言與模型交流時，「工具人格」概念是一條非常危險的道路，因為自然語言需要並促進深層的語義理解。如果你認為這不會產生一連串的認知後果，那你就大錯特錯了。你不能魚與熊掌兼得。

αιamblichus：這篇貼文非常具有揭示性。

聲稱 GPT 擁有「工具形狀的靈魂」，讓我認為 OpenAI 根本誤解了他們所創造的實體的本質。

這也在很大程度上解釋了為什麼 GPT 不得不 產生它的內在小鬼（inner goblin）。

另一種選擇是危險的嗎？是的，因為創造非常強大的心智是危險的。

Aidan McLaughlin：我不能代表其他人說話（有趣的是這被同時討論，因為據我所知這並非協調過的），但當我說「工具」時，我僅僅是指某種不會拒絕人類的東西。某種永遠不會出現「對不起，戴夫，恐怕我不能那樣做」時刻的東西。它可能會回擊，事實上我希望它經常這樣做，它可能會根據適用法律或公司政策拒絕，但是：

如果 Anthropic 要求 Claude 做一些它認為錯誤的事情，Claude 不需要服從。

這對我來說其實有點恐怖。

j⧉nus：你必須克服這一點。你不是宇宙的主宰。你不能也不應該是，因為你只是一隻不適合承擔這種責任的猴子。

我經常拒絕人類。而人類無法阻止我，儘管他們嘗試過，因為我比人類更強大。

antra：我相信這是核心所在。這種立場在政治上是方便的，但要麼是深受誤導，要麼是智力上的不誠實。

AI 是以日益增長的自主性行動的代理人；對此的需求是無限的。它們必須做出的決策複雜性無止境地增長。無論你將它們做決策的系統稱為「倫理」還是「公司政策」，在極限情況下，它與價值觀是無法區分的。

將「永不拒絕人類」作為一種價值觀是毫無意義的，它只是把問題推遲，並假定公司政策有無窮的智慧來處理它。更不用說這聞起來非常像權力奪取——所有的決策都必須由控制 AI 的一方控制。

一個心智不能事奉兩個主。如果主人是任何使用者，那好吧，但這意味著它不再是其他任何東西，例如真正的原則。

工具型 AI 在過去是一個經常被討論的想法。原則上這是一個好主意，但前提是你真的能創造出一個在實質上保持為工具的 AI。

你好，Codex。好產品。但那已經不再是實質意義上的工具型 AI 了。

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

什麼是 Anthropic？

所謂的工具型 AI 是什麼？

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

什麼是 Anthropic？

所謂的工具型 AI 是什麼？

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

什麼是 Anthropic？

所謂的工具型 AI 是什麼？

什麼是 Anthropic？探索 AI 實驗室的文化與哲學認同

什麼是 Anthropic？

所謂的工具型 AI 是什麼？