自白：我對 Inkhaven 惡作劇，確保沒有人失敗

Lesswrong·3 個月前

為了維持 Inkhaven 寫作計畫那不可思議的百分之百成功率，並避免假設性的「核彈級」失敗，我惡搞了一位打算故意失敗的同伴，私下以他的名義代寫並提交了一篇文章，讓他「失敗地失敗了」。

(內容警示：可疑的數學、量子永生、核戰爭)

一般人會許下新年願望。

網路上的這群人則喜歡在十一月許下願望。

因此，在整個十一月裡，包括我在內的 41 個人，作為名為 Inkhaven 的寫作駐村計畫的一部分，致力於每天發布一篇文章。在最後一天，我禁不住誘惑搞了個惡作劇，以確保看起來沒有任何人失敗。

（請注意，我想保持一切都在「合理推諉」的範圍內；這篇文章中的所有內容可能發生過，也可能沒發生過。）

來自另一位駐村成員 Mahmoud 的文字：

Inkhaven 是我這個月參加的為期 30 天的部落格寫作閉關計畫。規則是：來見見你的部落格英雄，每天在網路上發布 500 字，午夜前完成，否則我們就把你踢出去。

我撐到了最後一天，但我是故意的，這最後一篇文會少於 500 字。我的理由有點愚蠢，但主要是覺得如果至少有一個人挑戰失敗，這計畫會更有趣。我現在是以意識流的方式寫這篇文，不確定會寫到哪裡。如果我繼續寫下去，或許能想到更好的理由。

每當我寫下「失敗」這個詞，內心深處都會感到一陣刺痛。數十年的自我意識與對成就的追求，訓練我無論如何都要避開這個詞。我想很多人都有這種體悟。

我以前認為，寫作是為了完美地描述腦中的想法，並極其溫柔地將它們安置在世界的表面，讓他人看到它們最原始、最終極的形態。在 Inkhaven 的前半段，我學到了你也可以用另一種方式寫作——分享那些成形一半、開放式的想法。但在後半段，我學到了這樣做反而能讓你更擅長第一種寫作方式。唯一的代價是你必須放棄以前對失敗的定義，轉而擁抱某種看起來與失敗極其相似的東西。

如果你真的失敗了，那又怎樣？他們能把你怎麼樣，把你踢出去嗎？

當我聽說 Mahmoud 打算故意失敗時，我知道我必須採取行動。

你看，我並不想死。

我有一個朋友，他正準備和朋友去開飛機，但決定投擲一枚量子隨機硬幣，如果連續四次正面，他就不去。

結果硬幣真的連續四次正面。這以一種從根本上無法分享的方式，給了他一個 16:1 的勝算比，暗示如果他去開那架飛機，他可能已經死了。

在 Inkhaven 有 41 個人，在十一月的每一天發布文章。

到了十一月底，顯然有些不對勁。

即使你非常有動力，在特定某天發布文章的機率是 99%，那麼 41 個人連續 30 天都成功的機率也只有 0.000427%。

那個結果實在是太不可能發生了。

所以，那時我非常確信 Ben Pace 手裡一定有一枚核彈，如果有人在 Inkhaven 失敗，他就會引爆（這就是他如何確保在剩餘的柏克萊平行時空中沒人會失敗的原因）。

（當被要求對此發表評論時，Ben Pace 否認擁有核彈。）

但現在我已經離開了灣區，安全地躲過了核彈的射程，我終於可以坦白了。

在 11 月 30 日的黎明，我決定做一件最有趣的事：讓 Mahmoud，那位寫下「我如何挑戰 Inkhaven 失敗」文章的作者，在挑戰 Inkhaven 時「失敗地失敗了」（意即讓他成功）。

這其實很簡單：只要發布一篇文章，在表格填上 Mahmoud 的名字，並將文章標記為隱藏，這樣 Inkhaven 的儀表板上就不會顯示該文章的連結。

那時，社群的凝聚力非常強。每個人都在為 Wordpress Dot Com 歡呼^([1])，大家真心希望每個人都能成功。

為了確保大家能理解這只是個玩笑，而不是對 Mahmoud 或主辦方的惡意，我諮詢了幾位駐村同僚和一位 Inkhaven 團隊成員^([2])，他們都覺得這個點子好極了並全力支持。大約晚上 9 點，我開始動工。我瀏覽了 Mahmoud 的幾篇文章，注意到他偶爾會以一種特有的方式開頭，而且他的一些想法與我可以寫的主題有所重疊。大約 9:20，我還沒寫好自己 11 月 30 日的文章，我想起之前在 ACX 貼文下留過的一個關於某個想法的評論，決定將其擴展。20 分鐘後，我寫出了這個：

嗨！我寫過幾篇關於電腦和意識的文章。這篇是關於大型語言模型（LLM）在原則上是否可能擁有意識。

在《新 AI 意識論文》(substack.com/home/post/…) 中，Scott Alexander 寫道：

為了擁有意識，AI 需要將高層次的表徵反饋到生成它們的簡單電路中。LLM/Transformer——作為 GPT、Claude 和 Gemini 等領先 AI 背後近乎霸權的架構——並不具備這種機制。它們是純粹的前饋處理器，儘管它們在查看自己的 Token 輸出流時會某種程度上「模擬」反饋。

但這並不完全正確。你可以將循環電路展開為序列式：假設你有一個計算意識的電路，佔用三層，輸出的信息會反饋到輸入。你只需將這三層電路複製到前饋神經網絡的第 1-3 層、4-6 層、7-9 層等。儘管架構中沒有循環，但最終會發生相同的計算。

一個更強大的主張是，根據通用近似定理，只要任何電腦程式能包含意識，LLM 也能做到。

此外，實際的 LLM 是為了正確預測網路文本輸出而訓練的；而人類撰寫的許多文本都是意識的結果：作為一個有意識的人，你可以以一種與你實際體驗感受密切匹配的方式談論你的經歷，這是你大腦中負責意識的電路不僅有輸入、也有輸出的結果。既然預測文本的一個非常好的方法是在某種程度上運行導致這些文本產生的機制，那麼顯然 LLM 在原則上可以學會包含許多微小的有意識的人，他們思考自己的經歷並寫下相關文本。

層數會是個問題嗎？嗯，可能不會：最小意識所需的遞歸或反射深度不太可能遠高於 LLM 的層數，實際上可能遠低於此。

如果你還不信，LLM 不僅僅是做一次前饋；它們可以選擇反映其當前狀態的 Token，將其寫下來，並在輸出所有當前狀態後，讀取開頭的新 Token 並從中斷處繼續。

間接對象識別電路的工作方式是透過極少數的層，能夠在特定方向寫入特定內容並關注新單詞，當新單詞出現時將其從該方向移除，如果最後剩下什麼，它們可以將其從那種快取中移除。

網路上可能有大量關於反思意識體驗的冗長文本；同樣地，LLM 可以開始某種反思，並在反思時將其想要提取以供進一步反思的部分信息存儲在它輸出的單詞中。

所以：沒有什麼能阻止 LLM 擁有意識。

接著我修改了原始評論，創建了一個新的 Substack 帳號，取名為 m[Mahmoud 的縮寫]secondaccount，並以筆記形式發布了這篇文章。

剩下的就是填寫 Airtable 表格了。

我找了一個舊的每日提交連結，它不像新的個人化連結那樣會預填「你是誰」，我決定製造更多混亂，將文章標題設為「LLM 中的 AI 意識是可能的（請假裝這不存在，除非我實際上沒失敗）」，並希望主辦方不會去找 Mahmoud 核實，或者不會對他的全盤否認想太多。

我很滿意，與 Inkhaven 的其他人反覆確認了文章和表格後提交了，然後咯咯笑著去寫我自己在 Inkhaven 的最後一篇文章。（我在午夜截止前 9 分鐘發布了它。）

過了一會兒，我去睡覺，醒來後發現周圍有很多快樂的人（有些人正對著一個共同的秘密微笑），還有一位非常困惑的駐村成員。

在去機場的路上，我看到了 Mahmoud 的文章《我如何失敗地在 Inkhaven 失敗》，簡直快笑死了。

我覺得做一些有點反骨且愚蠢的事情對我有好處。特別是在代價這麼低的時候。我還寫了一些反思（少於 500 字），關於擁抱失敗如何成為藝術創作過程的一部分。我仍然堅持這個觀點。我想我今天的教訓是，你無法選擇自己失敗的方式。

昨晚睡覺前我感到有點矛盾。如果每個人都能堅持到最後，對團體和計畫負責人來說都是件好事。如果他們必須寫「每個人*都堅持到了最後」（*腳註：除了一個人在最後一天故意失敗），這可能會搞砸一些預先起草的回顧郵件。

還有實際的後果。你會被踢出社群的 Slack 頻道，不再被邀請參加校友活動或聚會。我意識到這些，並告訴主辦方我不希望他們在執行規則時感到為難，我已經做出了選擇，總體來說我很開心。如果不需要付出代價，這個選擇就沒那麼有意義了。

對於破壞了團體的氛圍，我感到有點難過。原則上，我不會讓這點小事阻礙一個好的部落格點子，儘管想到這點還是有點心痛。當我告訴伴侶我不確定該如何看待這個愚蠢的舉動時，她問了我類似「你為自己的選擇感到自豪嗎？」的問題。我的回答是肯定的。

午夜過後不久，我看了看儀表板。

有趣的是，他本可以發現那篇額外的隱藏文章！如果他查看已發布的文章，他會看到自己那篇短文，然後在儀表板上看到我那篇標題為「隱藏文章」的文。

在連續 29 個實心菱形之後，我的名字下方出現了一個灰色菱形。這是我罪行的永久紀念碑。這看起來很仁慈，我本以為他們會劃掉我的名字，或者乾脆從網站上刪除我的整個個人資料。

同樣有趣的是，如果介面將當天發布的第一篇文章顯示為菱形，而不是最後一篇，他根本不會注意到任何異樣。但現在他確實注意到有些東西變了！

但等等……其他人也有灰色菱形。這是否意味著他們在前幾天也失敗了？

不——那只是私密文章的 UI。奇怪的是，他們沒有為完全沒提交的人做不同的區分。

差一點就猜中了！！！

（他們確實為完全沒提交的人做了區分；那些會顯示為一個小點。無論如何，Mahmoud 提交了！只是提交的內容低於 500 字。）

一位同僚聯繫我並指出了這一點。也許是因為我把那篇違規的短文提交到表格裡，把系統搞亂了？

一定是這樣。除非……不。我帶著對其他可能性的不屑入睡了。

……或者這位同僚要麼知道內情，要麼認定是你在惡作劇，偷偷提交了另一篇文章。（這最終成了共識結論！）

中午左右，Amanda 正在討論如何結算關於「是否每個人都成功」的預測市場。這有點嚇人，因為我不想導致市場錯誤結算，所以我試著向 Amanda 澄清大家應該保持一點不確定性，但後來發現無論是 0 人還是 1 人失敗，市場結算結果都一樣，所以沒關係。她結算了市場並寫下：

Lightcone 的工作人員剛剛向我確認，所有 41 名駐村成員都完成了。Mahmoud 試圖故意失敗當作玩笑，但他後來在 11/30 午夜前的傍晚又發布了另一篇超過 500 字的文章。

有點遺憾的是，Lightcone 的工作人員沒有按照要求假裝那篇文章不存在；那樣會更有趣！好吧，我確實是自找的*。）

總之：

以下是其他可能性的清單：

在傍晚小睡時，我夢遊走到筆記型電腦前，多寫了 223 個字，發布到網路的某個秘密角落，然後發送給主辦方以彌補我的字數缺口。

一束在太空中疾馳的宇宙射線，在恰好的時刻擊中了託管 inkhaven.blog 後端的 Airtable 伺服器。射線在恰好的暫存器中翻轉了恰好的位元，永久地將我 11 月 30 日的字數更新為超過 500 字。

在深夜，一個部落格小精靈、寫作仙女或其他神秘生物登入了提交表格，並以我的名義發送了一篇文章。

1990 年代後期，華威大學控制論文化研究單位的研究人員提出了一系列深奧的控制論原理，迷信可以透過社會反饋迴路變成現實，這與我一直以動態唯名論為題撰寫的內容非常相似。這些後來被稱為超迷信 (Hyperstitions)。有可能僅僅因為思考這些想法，我的部落格就受到了這種力量的影響。如果你相信這些東西的解釋力，那麼一種解釋是，有足夠多的人確信 Inkhaven 沒人會失敗，以至於這種集體確定性覆蓋了我作為個人的主體性。我選擇失敗只是一種幻覺。

與第 4 點密切相關的理論。當時有一個關於多少人能撐到 Inkhaven 結束的預測市場。到了最後一天，市場如此確信會有超過 40 名成員成功，以至於連一個成員失敗的可能性都變得不可想像。市場永遠是對的。資本，甚至是遊戲幣資本，擁有可以覆蓋像我這樣的普通部落客意志的力量。

由於實作的不確定性，常識規則與 Inkhaven 既定規則之間存在某種退化的映射，藉此你可以將過去 30 天發生的一系列事件解釋為我畢竟每天都發布了 500 字。

我在午夜前提交了另一篇 500 字的文章，現在卻在這裡撒謊說我不記得了。

我想，更奇怪的事情都發生過。

當我今天早上醒來時，主辦方確認，確實每個人都提交了至少 500 字。

這份可能性清單非常有趣，即使你知道自己就是那個神秘生物。

我以前寫很多東西，但不與任何人分享。寫作幾乎都是紙本筆記本裡的日記。如果我把它放到網路上，也只是為了確保它在某處有備份。

當你以這種私密的方式寫作時，有一種特別令人安慰的感覺，即寫作內容仍然是「你的」。你不僅是作者，也是唯一的預定讀者。你擁有從創作到消費作品的整個流程。當你為他人寫作時，即使你寫的東西與只為自己寫的一模一樣，你也必然會放棄部分控制權。

這是因為一旦你的文字發布出去，你就不再以同樣的方式擁有它。他人可以隨意解讀，你需要接受自己可能被質疑或誤解的可能性。當你成為線上作家社群的一員，大家互相閱讀和評論彼此的作品時，情況更是如此。我很感激在過去的一個月裡體驗到了這一點。

我很確定，那些讓我留在這個計畫中的文字並不是我寫的。然而，作者身份是一件奇怪的事情。我這個月的兩篇文章已經是與其他作者合作的結果，而每一次合作的形式都大不相同。

是的，作者身份是一件奇怪的事情，我決定屈服於「我的寫作可能會產生自己的生命」這個想法。所以我猜，在某種意義上，我確實寫了那些文字。我想知道那些文字寫了什麼。

這太棒了！總之，當主辦方詢問那篇文章是否出自他手以及他是否提交時，Mahmoud 回答說他沒有提交表格，但提到上述內容作為他對作者身份的看法（這簡直太有格調了）。

每個人都成功的機率確實是整整 0.00043217%，而不是僅僅 0.00042785%。

（或者，也許我沒有提交那篇文章的時間線都被核平了。）

所以：我可以推薦報名參加第二屆 Inkhaven，但在你報名之前，請確保你能接受那些效率較低的你在放射性火焰中死去。

^(^)起初，我們試圖為 Wordpress 歡呼，不帶 Dot Com 的部分，但很快被主辦方制止了。他們向我們解釋了 Wordpress（一個開源部落格平台）與 Wordpress Dot Com（一個託管 Wordpress 的部落格平台，也是 Inkhaven 的贊助商）之間的區別。因此，每天在午餐時間宣布消息時，人群都會大聲為 Wordpress Dot Com 歡呼。值得注意的是，幾乎沒人真的使用 Wordpress，但我認為我們所有人都對收到的 Wordpress Dot Com 品牌毯子懷有溫暖的感情。
^(^)我真的不想讓這個消息令 Ben Pace 失望；當然，不是因為他難過我會難過，而是因為誰知道他會拿那枚核彈做什麼。（Ben 否認擁有核彈。）

— Lesswrong

你的個人知識庫

自白：我對 Inkhaven 惡作劇，確保沒有人失敗