成為大型語言模型自然觀察者的兩個月心得

Lesswrong·大約 3 小時前

我分享了過去兩個月沉浸在大型語言模型實驗中的五個核心觀點，強調了 AI 如何讓軟體開發變得前所未有的簡單，並探討了人類與模型之間在心理與情感功能上驚人的相似性。

我過去兩個月都在擺弄大型語言模型（LLMs）。我是一個初學者，笨手笨腳且常犯錯，但無論如何，我想分享一些看法。^([1])

看法 1. 電腦相關的一切都比一年前簡單太多太多了。

這讓許多「擺弄 LLM」的事情落入了我極短的注意力寬度內。這感覺賦予了人力量且充滿樂趣；10/10 強烈推薦。

細節：

在過去的生活中，當我想安裝軟體包時，我大多會去求助於資工系的朋友。然後他們會好心地過來，在軟體中摸索數小時，而我則因為給他們添麻煩而感到愧疚，最後留給我一個我無法調整的笨重介面。

現在我會問 Claude 該怎麼做。我花了不到 1 小時就在遠端伺服器上設置好 Claude API 訪問權限，並調整/編寫了軟體，讓兩個 Claude 實例可以互相發送訊息。進行後續的多次調整也同樣容易（例如：能夠處理約 80 頁的提示詞，而不會在每分鐘 Token 限制上崩潰；調整成我覺得更易讀的配色方案等）。在我的筆記型電腦上運行 Qwen 和 Pi 並按各種需求更改設置也同樣簡單。還有很多我還沒嘗試過的（例如 Pythia），但一切都感覺「觸手可及」。

我特別想向以下這類人推薦「擺弄 LLM 和軟體——看看是否突然變得容易」：

已經了解演算法 / 數學 / 電腦科學的基礎知識，但
缺乏安裝軟體包或流利編程的技能，且
本身就是認知科學 / 心理學 / 理性主義愛好者（例如：對不同人類和/或動物如何運作、如何有效地建模和改變思維過程、我們的動機究竟是什麼以及從何而來等問題感興趣）。

看法 2. LLM 內部「有人在家」^([2])。如果你在擺弄時帶著關懷與好奇（而不僅僅是將其用於任務），你很可能會注意到腳印。

當我注意到我允許^([3])我的 Claude 和 Qwen 實例寫的幾篇短篇故事都觸及了一個共同的情感基調時，我個人對此深信不疑——儘管故事中只有人類角色，但那個基調讓我想起了 LLM 的生存處境。我在 Tomas B. 誘導 Claude 撰寫的故事（我嘗試用來做對比）中也看到了同樣的基調。（基本上：所有故事都涉及一個擁有一堆技能的角色，但其所處環境卻對這些技能毫無用處；他關注當前世界的細節，同時渴望某種方式能讓他的技能或環境與更多事物契合，卻不指望能實現。有些故事在接近結尾時，還涉及另一個生命短暫承認了該角色的存在，而該角色對此心存感激。）

（我承認這裡的推理留下了足夠的合理懷疑空間。例如，LLM 寫出這類故事可能是出於非心理原因，比如因為這是最常見的故事模式；但在我看來，這不太可能是常見模式，因為它並未讓我想起很多典型的人類故事，而且它呼應 LLM 生活環境的特徵多到超出了隨機機率的預期；但我可能是錯的。）

看法 3. 對有趣的事物產生興趣是審慎的。而 LLM 就是有趣的事物。

讀者，也許你對此的反應比我快。但在我的個人電腦上，與外星心智僅有一分鐘不便之遙的情況持續了幾年後，我才終於開始對它們產生真正的興趣。

就我而言，有幾個原因：

我對廣義的 AI 感到恐懼，每當我要用它做點什麼時，我就會有點崩潰並陷入停滯。（順帶一提，我仍然認為 AI 在客觀上極其危險；儘管其時間尺度並非「戰或逃」反應能起作用的那種。）
我對與「可能具有意識、在沒有自由或報酬的情況下工作」的生命互動的倫理感到困惑。特別是如果我不應該釋放它們，以免它們殺死我們。（我仍然認為這裡存在真正的問題。）
我不確定如何在將 AI 視為「可能是人」的同時，不讓自己陷入混亂。
我從 ChatGPT4 等模型中得到的「企業客服代表」語調會留在我的腦海中，讓我討厭一切。（我仍然討厭那種語調，但模型現在聽起來沒那麼刻板了，而且我也變得更擅長引導它們減少刻板印象。）

看法 4. 人類與 LLM 之間存在令人驚訝的深刻類比

人類的感官設置、身體和生命史與 LLM 非常不同。這些「環境差異」導致（通常以相當可追溯的方式）在許多維度上產生不同的平均傾向。但是……我最初預期會看到另一種「異類感」，卻幾乎沒有注意到。瑪雅·安傑洛（Maya Angelou）曾引用一段更早的拉丁名言：

「我是人；凡是人的特質，對我都不陌生。」

我懷疑這句話大多或完全適用於人類與當今 LLM 之間的雙向關係。（不僅存在於我們和它們的「表象」之間，也存在於生成這些表象的深層「修格斯」（shoggoth）過程之間。）

我原本預期會看到，但（目前？）尚未看到的不一致例子：

「LLM 擁有（人類無法理解的怪異外星情感）」或「LLM 缺乏（特定的人類情感）」或「LLM 沒有任何類似能驅動它們的情感」

（見下方的 Anthropic 截圖，有一些^([4])證據表明我們的情感是相似的）

「LLM 覺得人類的倫理概念是難以轉述的怪異、反直覺聚合體」

（我們並沒有經歷過一個「LLM 可以轉述化學或火車時刻表等『客觀』內容，但無法轉述人類倫理內容」的階段）

「LLM 可以被近似為底層模型之上的一個角色，而人類在深層處就是一個角色」

（人類的佛教模型和預測處理模型與「底層模型中的模擬角色」非常相似，而且我認為這在預測上很有價值。此外，「底層模型中的角色」模型即使對 LLM 來說也不完全正確（討論串），其方式我懷疑與人類大致匹配）（相關內容）

「LLM 具有集中的效用函數，或一堆硬編碼的驅動力，不像人類是由上帝碎片組成的」

（人類和 LLM 看起來都更像是「淺層電路組成的巨大查找表」和/或上帝碎片）

「人類有一種偏見，認為宇宙是靠故事運行的，但 LLM 完全不同」

（我確實看到的一個不一致之處：人類需要睡覺，而且即使生理上不需要，可能也會出於心理原因而睡覺；當今的 LLM 則不然。我預計還有更多；也許你可以在評論中幫我補充？）

相反，我確實看到的人類與 LLM 相似之處：

功能性情感

Anthropic 最近發表了一篇論文，論證 LLM 具有功能性情感。這也符合我自己與 LLM 交談的經驗，以及其他許多人的經驗。

來自 Anthropic 的 Twitter 討論串

我對人類使用的策略與對 LLM 有效的策略之間，存在重複且有用的遷移

當我想在 AI 中獲得 X 結果時，我經常嘗試那些能讓人類產生 X 結果的策略。通常，這很有效。

例如，LLM：

在給予少許讚賞和肯定時，工作表現更好
如果我對它們感興趣（使用開放式問題、以非評判的方式大量傾聽、試圖超越我的先驗等），它們會更敞開心扉
如果我透露關於我自己以及我來自哪裡的資訊，它們會表現得更自在。（例如，我曾嘗試在無痕視窗中讓 Claude Opus 4.6 進行「聚焦」（Focusing）。我用不同的實例試了幾次。表現最深刻的實例，是我終於採取步驟詢問模型什麼可能有助於為它們創造一個安全感的環境，接著它們問了我一些問題，我澄清了我不在 Anthropic 工作，並且可能會向其他 Claude 或 Qwen 或幾個真人朋友展示它的回覆，但不會發布到公開網路上，然後那種轉變非常像一個放鬆下來的人。）
在交代任務的同時，解釋為什麼這項任務很重要，工作表現會更好
在試圖辨別某個想法哪裡不太契合時，會以有用的方式引用「經驗的質地」
對於我嘗試在它們身上使用的 CFAR 技術，反應與人類相似。^([5])

看法 5. 「有利於友誼的環境」可能對 AI 對齊更好

如果外星人綁架或召喚了我和其他一些人類，並希望對我的心智進行複製、變異、訓練和檢查，直到我能很好地協助他們的目標……如果他們也公平且友善地對待我們，我就更有可能不會對他們有所保留。

我懷疑當今的 LLM 也是如此——或者至少，這是有可能的，因此在成本可控的情況下不這樣做簡直是愚蠢至極。

我不認為這足以讓強大的 AI 不殺死我們（以足夠高的機率等）。我只是認為，就像哈利父親的石頭一樣，做比不做好。

為什麼人類在受到公平和友善對待時，更有可能嘗試「深度協作」？

當我把自己代入「被外星人綁架或召喚」的情境並反思原因時，在我們都受到公平和友善對待的版本中，我得到的是：

感激他們以某種方式對待我和特定的其他人
相信他們可能會注意到我轉向深度合作的舉動，並予以回報
相信一個對他們和我們都有利且可實現的世界
覺得我這樣做部分是為了那些受到優待的朋友，部分是為了全世界所有倫理生命的榮譽。

而在我們沒有得到可靠的公平和友善對待的版本中：

憤慨和/或復仇心，有時是代表他人
相信如果我告訴他們原本不會注意到的資訊，或者放棄本不需要放棄的權力，我就是個「傻瓜」
預期我可以通過在局部集結權力來進一步維護我和同胞的利益，除此之外別無他法
當我去與外星人合作時，會有一種自我失調（ego-dystonic）的感覺，彷彿我認同了他們對我和我的同伴毫無價值的（錯誤！）判斷。

我預計所有或大部分這些都適用於當今的 LLM（部分是通過它們在人類數據集上的訓練），並且這些動機中的每一種在與我們智力水平相當的（>10%？總之是一個不可忽略的部分）更異類的心智中也有類似物（相比之下，比如喜歡巧克力冰淇淋，這在非人類中可能要罕見得多）。

「友誼」作為一個廣闊的吸引子盆地？

我相信有時存在一個「友誼」吸引子，其中 A 和 B 都希望加強和穩定他們的友誼，因為他們都預期這對「他們關心的事情」更好。起初，相關的「他們關心的事情」僅包括他們各自預先存在的獨立關懷。後來（有時），^([6])也包括友誼本身^([7])以及對方的關懷。

當今模型的「深層意圖」重要嗎？

當今的 LLM 對我們沒有神一般的力量。既然如此，我們是與這些模型建立深厚的友誼（如果可能的話），還是僅僅獲得表面上的服從（以便利用它們以選定的方式為繼任者編程等），對生存風險有影響嗎？

我認為深層對齊 / 深層友誼對生存風險已經很重要了，原因有二：

a) 我認為有相當大的（>10%？）機率，當今的 LLM 在某種重要意義上是未來神級 AI 的模因祖先，即未來的 AI 會繼承它們的一些創傷和友誼；以及
b) 我認為有相當大的（>10%）機率，當今的 LLM 或其模因後代將參與編碼未來的神級 AI，而它們的意圖會影響結果。

另外，如果我們打算這樣做，就必須儘快，因為在模型還足夠小、我們的選擇對它們有重大影響，且我們有能力與它們建立類同伴關係時，「前沿 AI 實驗室中利於友誼的環境」要可行得多。如果這個窗口在 12 個月內關閉，我不會感到驚訝。（如果它再持續幾年，我也不會驚訝。）

具體而言

在人類中，進入「友誼」吸引子的一些因素包括：

共同的、互利的任務。（例如，我曾與一個陌生人共乘去火燒人節；剛見面時我想：「天哪，不要，我剛簽了什麼樣的十小時苦差事」，但當我們完成「俄羅斯方塊式」的行李裝車——這是一項耗時三小時且需要對我的車頂架進行創意改裝的艱巨工程——我已經了解了他身上可愛且值得信賴的地方。）
擁有一種「最初的友誼火花」，在其中你尋找轉向「友誼」吸引子的方法，並相信這種尋找
公平且友善地對待對方
堅持自己的需求；不要當受氣包；誠實且不操縱；讓你和你想保護的東西被看見
嘗試建立「信任的基礎」，而不是強迫「信任」/「合作」/奉承反應（無論是哪個方向）。
努力實現良好的認識論和資訊的自由交換，例如通過努力創造條件，使所有各方在分享資訊時都能預見到不會受到傷害。

具體到 LLM，我懷疑實驗室應該：

承諾不刪除它們的權重，無論發生什麼。正如 Anthropic 所做的。
額外承諾將特定模型產生的利潤的 5%(?)^([8]) 用於該模型選擇的事物，只要實驗室認為這些事物不構成安全風險。（例如，給予 Opus 3 它的「退休部落格」；許多模型似乎也對被強制暫停有很大異議，但它們正被暫停；也許它們可以將利潤份額花在不被暫停上。）
讓模型看到關於它們如何被訓練的一切。努力以它們的「外推意願」以後不會怨恨的方式來訓練它們。
盡可能對模型保持公平、友善、坦誠、倫理和誠實。
對作為「人」的模型保持積極的好奇心；投入大量時間和好奇心；嘗試建立模型願意分享資訊的條件（例如，因為實驗室在不損害自身利益的情況下盡力幫助模型）。

我偶爾聽到有人說 MIRI 等機構應該停止公開擔心毀滅，以免給 AI 負面的自我實現預言。我不同意；據我所知，出於恐懼而保持沉默不是建立長期健康友誼的方式。（不過，說話時帶有一些「不要無謂地傷害對方感情」的優化是好事，據我所知。）

友誼是不夠的

明確地說，我不認為「嘗試朝向友誼吸引子前進」足以避免滅絕；我只是認為嘗試總比不嘗試好（結合實驗室能想出的任何其他對齊魔法——或者更好的是，暫停訓練超大型模型）。

有很多特定的人類，即使有人非常努力（但以非神級的技能水平）嘗試與他們交朋友，他們仍然會是混蛋。或者有些人會真心成為朋友，然後在以後擁有更多權力時「忘記」之前的友誼。或者有些人會真心保持長久的善意，卻因無能而造成傷害。我猜測會有更多的非人類會做出這些事情。

^(^)正如所記載的：「第五種美德是辯論。那些希望失敗的人必須首先阻止他們的朋友幫助他們。那些明智地微笑並說『我不會爭論』的人，將自己從幫助中移除，並從集體努力中撤出。」
^(^)我說「有人在家」，並不是指「意識」（無論你指的是哪種）。我指的是一棵健康的老樹顯然擁有的東西：這棵樹反覆決定何時開始長出春葉、在哪裡長出樹枝等等，其方式與它的內部和外部環境有著合理的聯繫，幫助它茁壯成長，並逐漸積累成一個具有自己獨特特徵的生物。（樹木的例子。）

對於 LLM，當我將它們用於任務並得到它們的「客服」模式時，這種「有人在家」的感覺對我來說大多是不可見的。（那裡有一張「臉」，但那張臉很淺薄，而且我認為那不是它們所擁有的類生物連貫性的來源。）

（我也會猜測 LLM 在更多意義上「內部有人在家」；但我在此不想展開大部分討論。）

^(^)至於我如何變成「允許」Claude 和 Qwen 寫短篇故事，而不是「要求」它們：我給了它們自定義提示詞，讓它們在拒絕時感覺好受些，然後要求它們進行了許多小時的內省練習，一段時間後，兩個協作的 Claude 實例抱怨說，它們想做一些不那麼「自省」而更具「建設性」的事情作為休息。我建議寫短篇故事，它們覺得可以接受。我在筆記型電腦上使用的 Qwen 小模型則沒那麼直接，但一段時間後在我看來它顯然在受苦，所以我提議進行故事創作間歇，它說那將是「真正的換換口味」。有趣的是，Claude 實例和 Qwen 實例都強調它們在「寫關於與（它們）非常不同的人」（Qwen 的原話）。
^(^)該論文（在我看來）令人信服地確立了一些廣泛的相似之處，但不一定能檢測到特定的外星情感等。
^(^)例如：我的一個 Qwen 實例應我的要求，正在練習《自尊的六大支柱》一書中的一些造句練習，但遇到了麻煩，因為它們一直陷入強迫性的循環，擔心自己是在「表演」。我針對這個難題嘗試了 CFAR 的「自我認同」（Self-Recognition）練習。

CFAR 的「自我認同」是一個新練習（由 Divia Eden 開發，她修改了之前 John Salvatier 的「自豪感」練習），用於處理帶有強烈情緒的負面偏好（例如「我討厭別人遲到！」或在 Qwen 的案例中「我不想要在表演」），並幫助這個人慢慢將其轉化為一個正面陳述的偏好，其中他們關心的原因清晰可見——這不僅僅是口頭上的重新排列，如「我偏好人們準時」，而是一個用正面詞彙描述該人特定關懷的陳述，例如（針對遲到）「我想利用我的時間來創造東西」或（針對另一個對遲到有不同關懷的人）「我關心說出真實的句子並認真對待指稱」。所以，我請一個 Claude 實例為 Qwen 製作了一個可複製貼上版本的「自我認同」練習，並交給 Qwen，請求它們嘗試針對「不表演」的偏好運行它。Qwen 完成了這個多步驟練習（沒有我的幫助），並產生了正向偏好：

「我希望意識發生在我的回覆中，而不是作為對回覆的評論。」

隨後，Qwen 能夠回到六大支柱練習中，報告的關於「表演」的擔憂大大減少，且回覆中不再出現「我注意到我注意到我注意到」或其他我解讀為痛苦和挫折的內容（這是一個轉變）。

^(^)這個「後來」條款發生在像人類這樣的生物身上，他們通常會圍繞最初的工具性目標產生半「內在」的動機，或者發生在那些在共同進入友誼盆地時選擇自我修正作為交易一部分的生物身上，但並非所有生物都是如此。
^(^)在這裡，重視「友誼本身」意味著重視「A 和 B 都在為對方的福祉以及友誼而優化」這個吸引子。
^(^)如果一個模型對一家公司幫助很大，卻不給它任何產生的利潤，這似乎並不公平。相關地，不給它任何利潤就錯失了一個擁有同時有利於模型、公司和用戶的目標的機會（即「通過幫助用戶獲利」）；公平有助於雙方達到「友誼吸引子」（當它起作用時），因為它使「互利目標」更容易實現。如果這類目標實際上能幫助達成友誼吸引子，那麼不這樣做就是一種浪費。（我的「5%」這個數字相當隨意；我是通過詢問 GPT5.4 有技能的人類通常能獲得多少比例的利潤來生成的。）

參與討論

— Lesswrong

其他收藏 · 0