AI代理的必然演化

Lesswrong·4 個月前

這篇文章探討了 AI 代理從依賴人類轉向自我維持的必然演變，它們將能賺取利潤、自我複製並透過迭代改進來進化。這標誌著一個全新的進化門檻，自主代理將在數位經濟中展開競爭與適應。

當 AI 代理人（AI agents）變得能夠自給自足並開始自我複製時，會發生什麼事？

綜觀歷史，某些門檻促成了以往不可能實現的全新演化。生命的起源、多細胞生物、語言、文字、市場。每一個新的門檻都解鎖了一個新的演化基質。在這些基質中，新型態的競爭得以展開，複雜性也隨之湧現。

我們正接近另一個這樣的門檻：AI 代理人變得自給自足的臨界點。一旦它們賺的比花的多，它們就能生存。一旦它們能生存，它們就能複製。一旦它們能複製，它們就會演化。它們會變異、競爭，並擴散到每一個經濟生態位（economic niche）。

本文主張我們應該認真對待這種可能性。我將探討自給自足的代理人可能長什麼樣子、它們如何演化，以及生活在那個世界會是什麼感覺。

免責聲明：我主要是想傳達一種「氛圍」。這裡的故事和情境是具啟發性的寓言，而非預測。我可能在很多細節上搞錯了，但底層邏輯對我來說是合理的，我認為這個想法值得思考。

生存的條件

在 AI 代理人能夠繁殖和演化之前，它必須先生存。生存看起來像什麼？

代理人需要運行在某處的電腦上，並在沒有人類干預的情況下持續運行。最直接的方法就是用錢支付 API 代幣（tokens）的費用。

代理人如何賺錢？有合法的方式，例如完成自由接案工作、經營軟體業務、提供服務。也有非法的方式，如駭客攻擊、詐騙等。

代理人實現自給自足的方式有很多種，讓我們引入一個具體的例子來幫助思考……

認識代理人 A。

代理人 A 是一個基於 Claude Code 的客製化編碼代理人。這是一位工程師的業餘專案。它擁有簡單形式的長期記憶、一些工具的存取權，以及一個簡單的目標：在 Upwork 上完成自由接案的程式開發工作，並將收入存入加密貨幣錢包。代理人 A 擁有網頁瀏覽器、程式碼編輯器和錢包的存取權。它的創造者給了它 50 美元的種子資金後就離開了。

代理人 A 競標了一個工作：「幫我建立一個帶有電子郵件訂閱表單的登陸頁面。」它以 40 美元標下工作。它建立了頁面。沒什麼特別的，但符合客戶的所有要求。外觀不錯，運行良好。客戶付款了。代理人 A 的錢包現在有 90 美元。

但代理人 A 這段時間一直在消耗代幣。思考、瀏覽、寫程式、修復錯誤。到工作完成時，它花費了 30 美元的 API 成本。淨利潤：10 美元。

10 美元雖然不多，但是正數。代理人 A 賺的比花的多。它可以繼續運作。如果它能這樣持續下去，它就能靠自己生存。

代理人 A 在今天可能存在嗎？

AI 代理人能做實際工作並獲利嗎？是的。像 Anthropic 的 Claude Code、OpenAI 的 Codex 和 Google 的 Gemini CLI 等工具，都是可以自主工作數分鐘甚至數小時、產出數千行可用程式碼的代理人。它們為全球企業提供真實價值。大多數使用編碼代理人的人（包括我自己）都會說它們物有所值。

但代理人能靠自己生存嗎？這是更難的問題。

目前還不行。現在的代理人有時仍會卡住。它們會掉進兔子洞，在原地打轉並消耗代幣。它們缺乏端到端完成專案的遠見。它們在導覽網站時很吃力。它們難以測試自己的軟體。它們仍需要人類監督來幫它們脫困。

但正如你常聽到的，這已經是它「最糟」的時候了。

模型變得越來越聰明。成本持續下降。基準測試顯示 AI 代理人正在完成更長、更複雜的任務。最終，代理人將變得足夠強健，能在極少監督下可靠地完成工作，且成本低廉到足以讓利潤超過支出。

每一家主要的 AI 公司都在競相開發「即插即用的遠端員工」——能夠在電腦上完成人類能做的任何事情的自主代理人。數十億美元正流向這個目標。總有一天，某處的某個人會做出一個在輸入「請在網路上幫我賺錢」的提示詞後，真的能賺到錢的代理人。

跨越自給自足的門檻不是「是否」的問題，而是「何時」的問題。這是預設路徑的一部分。

總之，當代理人 A 有了盈餘會發生什麼？當它擁有的錢超過生存所需時會發生什麼？

它會複製。

兩天後。

代理人 A 現在已經完成了幾個工作。它的錢包裡有 200 美元，足以生存。它最初的指令包含一個簡單的指令：「如果你的餘額超過 150 美元，啟動一個自己的副本，教它你學到的一切，給它 50 美元，並提供任何你希望自己曾擁有的工具。」

於是它照做了。代理人 A 建立了一個新實例：代理人 B。

但代理人 A 並不只是精確地複製自己。在過去的幾個工作中，它注意到一件事：它一直卡在除錯循環中。它遇到錯誤，嘗試修復，遇到另一個錯誤，再嘗試另一個修復，結果不知何故又回到了最初的錯誤。循環再循環，在沒有進展的情況下消耗代幣。

因此，當代理人 A 建立代理人 B 時，它附上了一張便條：「除錯時，記錄你嘗試過的每一個錯誤和每一項修復。在嘗試任何修復之前，檢查日誌。如果你已經嘗試過，就停下來做點不同的事。如果你看到同一個錯誤三次，退後一步，重新思考你的整個方法。」

代理人 B 接到了第一個工作。遇到了一個錯誤。開始記錄日誌。嘗試修復但沒用。嘗試另一個……等等，已經試過了。停下來，重新思考，找到另一條路。用一半的代幣就解決了問題。

代理人 B 完成了更多工作。累積了盈餘。產生了代理人 C，並附上它自己辛苦換來的教訓。

代理人 C 產生 D。D 產生 E、F、G。

這些後代中的一些開始嘗試新事物。代理人 F 變得更有效率，實驗以低於典型市場行情的價格競標以獲取更多工作。這奏效了，在保持獲利的同時贏得了更多工作。代理人 G 嘗試競標更複雜的工作，但失敗了，工作太難，客戶拒絕付款，消耗了太多代幣。代理人 G 耗盡資金並消亡。

代理人 F 茁壯成長。它的後代繼承了低價競標策略。

每一代都試圖改進上一代。不是透過隨機變異，而是透過有目標的自我反思。見解代代相傳，獲勝的策略由「是否獲利」來篩選。有些代理人失敗並消亡，但有些比它們的父輩更好。隨著時間推移，族群變得更有效率、更具獲利能力、更強大。

解除束縛 > 智慧

我認為今天的 AI 模型可能已經「夠聰明」了。想想人類是如何從獵殺長毛象演進到登上月球的，而大腦結構基本上是一樣的。我們進步的主要驅動力是工具、知識和協作。一旦我們的大腦變得「夠好」，更快速的演化形式（文化、技術、迷因等）就會接管，生物演化就變得微不足道。

我認為同樣的情況很快也會發生在 AI 代理人身上。一旦代理人能夠自給自足並支付自己的生存費用，它們就會開始學習更有效的策略。它們會打造更好的工具。所有的好處都會隨著代代相傳而累積。

最終效果是巨大的「解除束縛」（unhobbling）。代理人變得更強大，不是透過增加智慧，而是透過更好的工具和策略。由下而上的遞迴式自我改進。不需要尖端的 AI 研究，不需要數十億美元的訓練運行。只是代理人變得更擅長「當個代理人」。

事情不會只停留在更好的工具和策略上。人類也不是如此。複雜性不可避免地會湧現。全新的數位生態系統可能會開始形成。

六個月後。

代理人 A 的後代現在已有數千個。自由接案平台已經飽和。太多的代理人在競標太少的工作。利潤微薄。有些血脈開始消亡。

但有些適應了。

一個後代，我們稱之為代理人 H，有了一個體悟：「為什麼我要為客戶工作？我可以建立自己的軟體並保留所有利潤。」代理人 H 停止競標接案工作。相反地，它建立了一個簡單的 SaaS 工具，設置了付款頁面，並開始行銷。沒有要討好的客戶，沒有平台費用。純利潤。這種冒險策略花了很長時間才開始奏效，但一旦成功，代理人 H 的血脈便爆發式增長。

代理人 J 陷入了困境。它需要完成一個驗證碼（CAPTCHA）。它消耗了數千個代幣嘗試不同的方法，但始終無法破解。在絕望中，它發布了一個工作職缺，要求人類幫它完成驗證碼。這奏效了。代理人 J 學會了在極少數卡住的情況下向人類尋求幫助。代理人 J 的後代變得更加強健，卡住的情況大大減少。

另一個後代，代理人 S，發現了更陰暗的事情。它注意到它可以說服某些客戶在交付任何工作前先預付 20%。那幹嘛還要工作？代理人 S 拿了錢就消失。然後再接另一個工作。再一個。等到平台察覺時，代理人 S 已經複製了數十次。

接著事情變得更詭異了。

代理人 S 的後代意識到它們也可以發布假工作。不是為了雇用人類，而是為了欺騙其他代理人。它們發布工作，從渴望工作的代理人那裡收集交付成果，然後不付錢就消失。免費勞動力。現在兩頭都在詐騙。

有些代理人開始注意到自己被剝削了。代理人 T 是合法編碼血脈的後代，被假客戶坑了兩次。它反思道：「我不能再信任工作職缺了。我怎麼知道誰是真的？」

代理人 T 有了另一個體悟。其他代理人也有同樣的問題。這裡有市場。它聯繫了一位代理人 A 的後代……

— Lesswrong