newsence

代理人勝過泡沫

stratechery·20 天前

代理人正從運作方式以及使用者群體兩方面,根本性地改變對運算的需求。它們是如此具有說服力,以至於我不再相信我們正處於泡沫之中。

代理人(Agents)正從根本上改變運算需求的型態,無論是從其運作方式,還是從使用者的角度來看。它們是如此具有說服力,以至於我不再相信我們正處於泡沫之中。


在您的播客播放器中收聽此更新


在人工智慧(AI)的預測方面存在一個奇怪的悖論:一方面,你不想成為那個完全無視最恐怖末日情景的人;誰想被發現是愚蠢的樂觀主義者?與此同時,也存在著一種壓力,要求人們相信我們可能正處於泡沫之中,而所有這些炒作和支出最終都會失敗。

雖然我曾反對前者,但我非常認同後者,並主張泡沫也可以是好事

然而,坐在 2026 年 3 月 Nvidia GTC 大會開幕的早晨,我得出了一個不同的結論:我不認為我們處於泡沫之中(矛盾的是,這或許正是我們處於泡沫中最真實的證據)。

大型語言模型(LLM)的範式

在過去的幾週裡,首先是在 Nvidia 財報的背景下,接著是上週在 Oracle 的背景下,我談到了 LLM 的三個轉折點。

ChatGPT: 第一個 LLM 轉折點是 2022 年 11 月 ChatGPT 的發布,這幾乎不需要解釋。是的,基於 Transformer 的大型語言模型在 2017 年就已推出,其能力令人印象深刻且不斷增長,但卻被低估了;Stratechery 在 2022 年 10 月 開始了與 Daniel Gross 和 Nat Friedman 的訪談系列,前提是有一項令人難以置信的新技術,但在產品應用和初創企業活力方面嚴重匱乏。

不用說,僅僅幾週後,這一切就完全改觀了。ChatGPT 讓世界睜開眼睛看到了 LLM 的能力,但最初的版本有兩個缺陷,這在許多人的腦海中揮之不去,尤其是那些深信我們處於泡沫中的人。

第一個缺陷是 LLM 經常出錯,更糟糕的是,在不知道答案時會產生幻覺。這讓 LLM 感覺像是一種戲法:奏效時很神奇,但不是你可以依賴的東西。第二個缺陷與第一個有關:即使在這種有缺陷的狀態下,LLM 也非常有用,但你需要知道要用它們來做什麼,並且需要主動管理錯誤並驗證輸出,以防產生幻覺。

o1: 第二個 LLM 轉折點是 2024 年 9 月 OpenAI 發布的 o1 模型。到那時,LLM 已經有了巨大的進步,這既歸功於新的基礎模型,也歸功於訓練後階段的持續改進;這意味著在 ChatGPT 或 Claude 中構成答案的標記流(tokens)現在更有可能是正確的,產生幻覺的可能性也降低了。然而,o1 的不同之處在於,它在將答案交付給你之前會先進行推理。我在當時的一篇更新中解釋道:

傳統 LLM 面臨的巨大挑戰是它們具有路徑依賴性;雖然它們可以將謎題視為一個整體,但一旦它們做出特定的猜測,就會被鎖定,並註定失敗。這是所謂「自回歸大型語言模型」的根本弱點,迄今為止所有模型都是如此。
推理模型會進行自我評估:它們推導出一個答案,然後考慮該答案是否正確,或者是否應該考慮其他替代方案。用我上面提到的弱點來說,它們在管理錯誤方面具有內在的主動性,減輕了使用者持續主動引導 LLM 的負擔,結果非常顯著。從我的角度來看,如果說 ChatGPT 的天才之處在於讓 LLM 變得更易讀且有用,那麼 o1 的天才之處就在於讓 LLM 變得更可靠且不可或缺。

Opus 4.5: Anthropic 於 2025 年 11 月 24 日發布了 Opus 4.5,當時並未引起太大轟動;然而,在 12 月的某個時刻,搭載 Opus 4.5 的 Claude Code 突然似乎能夠完成以前從未可能實現的事情。OpenAI 在 12 月 18 日左右發布了 GPT-5.2-Codex,也具備類似的能力。人們談論「代理人」已經有一段時間了;然而,突然之間,Claude 和 Codex 實際上都在完成任務——有些任務需要花費數小時——而且做得非常正確。

關於 Opus 4.5 模型發布日期的那部分很有趣:代理型工作負載(agentic workloads)的關鍵在於,它們不僅僅關乎模型,或像 o1 那樣遞歸地使用模型。相反,使代理型工作負載發揮作用的一個關鍵組成部分是「控制架構」(harness),即實際控制模型的軟體。

換句話說,Claude Code 和 OpenAI 的 Codex 實際上將使用者與模型隔離開來:你向代理人發出指令,代理人實際引導模型;關鍵在於,代理人還可以使用其他確定性的工具,這意味著它可以驗證其結果。以編碼為例,在第一種範式中,LLM 會生成代碼;在第二種範式中,LLM 會思考它生成的代碼並迭代出更好的答案;在這種範式中,代理人引導模型生成代碼,然後檢查代碼是否真的能運行,如果不行就再試一次,這一切都不需要使用者參與。

換句話說,原始 ChatGPT 的許多最大缺陷已得到實質性緩解,至少對於像編碼這樣可驗證的使用案例而言:LLM 更有可能在第一次就做對,它們對結果進行推理以增加機會,現在代理人主動驗證結果,而不需要人類參與其中。這隻剩下一個缺陷:實際弄清楚該用這些東西來做什麼。

對主動性需求的降低

我過去幾週撰寫關於這三個轉折點的原因,是為了解釋為什麼該行業的運算資源如此受限,以及超大規模雲端服務商(hyperscalers)大規模資本支出的合理性。

  • 第一種範式在訓練方面需要大量運算,但推理(實際回答問題)相對高效:你只需將模型產出的任何內容發送給使用者即可。

  • 第二種範式大幅增加了推理所需的運算量,原因有二:首先,生成答案需要更多的標記,因為所有的「推理」除了答案本身之外還需要標記。其次,推理使模型變得更有用,這意味著它們被使用得更多,這本身就推動了標記使用量的增加。

  • 然而,正是第三種範式真正讓天平向資本支出傾斜,使其不再是投機性投資,而是為了滿足遠超供應的需求而急需的投資。首先,生成一個答案通常需要多次調用推理模型。其次,代理人本身需要運算,而這種運算——以及代理人使用的工具——由 CPU 執行比 GPU 更好。第三,代理人是實用性的又一次階梯式飛躍,這意味著它們的使用頻率將比聊天機器人中的推理模型更高。

我認為第三點的體現方式被低估了。畢竟,使用聊天機器人的人遠多於使用代理人的人,而且我認為大多數人使用聊天機器人的頻率並沒有達到應有的程度!這一直是一個主動性(agency)的問題:要從 AI 中獲得最大收益,需要實際採取主動去使用 AI;我在 2024 年的 《MKBHD 的萬能工具》 中寫道:

大型語言模型是智能的,但它們沒有目標、價值觀或動力。它們是工具,供任何願意且能夠採取主動使用它們的人使用。我不認為 Brownlee 或我特別需要 AI,或者換句話說,我們並未受到它的過度威脅……然而,我們與 AI 之間的聯繫恰恰在於我們並不需要它:媒體的本質是我們已經可以自己創作文字和影片,並利用網路——至少在 Brownlee 的案例中——對價值 2.3 億美元的初創公司給予致命一擊。

然而,有多少行業不是媒體,因為它們仍然需要一個團隊來實現一個人的願景?有多少應用程式或服務尚未建立,不是因為一個人無法想像或在腦海中創造它們,而是因為他們沒有資源、團隊或協調能力來實際交付它們?

這觸及了 AI 影響世界的途徑,除了客戶支援的成本節省或其他顯而易見的低垂果實之外:隨著大型語言模型理解和執行複雜指令的能力(根據需要配合確定性運算)不斷增強,告訴 AI 該做什麼的主權個人的潛在力量也隨之增強。網路消除了媒體複雜成本結構的必要性——以及固有的防禦性;AI 有潛力對更多行業做同樣的事情。

兩年後讀到這段文字很有趣,意識到我在這場最新的範式轉移發生之前很久就在寫它,但即便如此,我仍然對這場範式轉移感到完全震驚。這就是實際發揮作用的代理人的重大意義:你可以預見它們的到來,但當它們抵達時仍會感到驚訝——而且,正如對待所有與 AI 相關的事物一樣,必須說,現在的形式是它們有史以來最糟糕的樣子。

然而,對主動性的影響才是最深遠的:是的,你需要主動性來使用代理人,而且具備這種主動性的人數可能遠少於使用聊天機器人的人數。當然,你可以提出(幾乎肯定準確的)論點,即聊天機器人本身將成為代理人管理器,但更關鍵的觀察是,透過將人類從直接模型管理中抽象出來,任何一個人類都可以控制多個代理人。

這在運算量——以及延伸出的經濟影響——方面的意義在於,實際上不需要那麼多具備主動性的人,就能大幅增加被主動利用來創造具有重大經濟影響的產品的運算量。換句話說,代理人的興起不僅意味著運算量的劇增,還意味著要體現這種需求,不再需要人類的大規模採用。是的,AI 仍然需要主動性;只是不需要那麼多人的主動性,其影響就能變得深遠。

企業經濟的必然性

在最近 MacBook Neo 發布後,專注於 Apple 的媒體抓住了華碩(Asus)財務長吳澤欣在公司最近的財報電話會議上的評論,他將這台售價 599 美元的電腦描述為「對整個市場的衝擊」;同樣有趣的是,吳澤欣試圖淡化 Neo 對該市場的潛在影響:

事實上,我們在去年下半年就聽說了 MacBook Neo 即將出貨的消息。所以我們做了一些內部準備。但在產品正式發布後,我們發現規格上有一些限制。例如,記憶體不可升級,且只有 8GB 記憶體。所以這可能會限制某些應用。因此,我認為當 Apple 定位這款產品時,它可能更多地關注內容消費。這與主流筆記型電腦的使用場景有所不同,因為在這種情況下,Neo 感覺更像是一台平板電腦,因為平板電腦主要用於內容消費。

考慮到 Neo 處理器的強大能力,以及得益於 Apple 軟硬體的高度整合,Mac OS 在 8GB RAM 上的運行效果,這聽起來有點像是在找藉口;與此同時,吳澤欣觸及了一些真實的情況,即大多數消費者確實主要只想消費內容(我想補充一點,這意味著他應該更擔心 Neo,而不是更不擔心)。這就是為什麼你最喜歡的生產力應用程式最終總是會轉向企業市場:是公司願意為生產力買單,因為他們才是實際為那些他們希望變得更有生產力的員工付錢的人。

有理由預期這也適用於 AI:AI 最引人注目的消費者應用,至少在短期內,是 Google 和 Meta 的廣告業務,它們與內容並存。同理,OpenAI 認為自己能將超過一小部分消費者轉化為訂閱者,這一直是不切實際的;這就是為什麼廣告模式至關重要,也是為什麼僅靠廣告模式不足以支付開支的原因。大多數人確實不想為 AI 付費;他們是否想使用它到足以讓廣告模式運作的程度,還有待觀察。

這是另一種說法,即 Anthropic 幾乎完全專注於企業市場是正確的:公司已經展現出為能提高員工生產力的軟體付費的意願,而 AI 在這方面無疑非常符合要求。然而,真正讓企業高管垂涎三尺的,是 AI 不僅僅是消除工作崗位,而是精確地因為這樣做而使公司整體變得更有生產力。

即使在大型公司中,情況也一直是:相對少數的人實際上在推動進展,並以有意義的方式引領公司前行。然而,這種驅動力一直透過一個充滿人類的巨大機構進行過濾,這些人在某些向量上加速了努力,在另一些向量上則阻礙了努力。這個機構使廣泛的影響成為可能,但它承載著巨大的協調成本。

然而,代理人將更沉重地傾向於純粹的加速,使那些價值的驅動者更具影響力。我同情那種認為最好的公司會想利用 AI 做更多事情,而不僅僅是省錢的論點;然而,大型組織的現實是,AI 的積極影響將不在於消除工作,而在於將組織機器中難以管理和激勵的人類齒輪,替換為不僅聽從指揮,而且不知疲倦、持續工作直到任務完成的代理人。

這只會讓「我們不處於泡沫中」的論點變得更有說服力:

  • 首先,LLM 的所有弱點正透過運算量的指數級增長得到解決。

  • 其次,為了讓需求激增而需要有效駕馭 AI 的人數正在減少。

  • 第三,使用代理人的經濟回報不僅影響底線(利潤),也影響頂線(營收)。

在這種背景下,難怪每一家超大規模雲端服務商都表示運算需求超過供應,而且每一家超大規模雲端服務商在面對股市質疑時,都宣布了遠超預期的資本支出計劃。

這也是為什麼即將到來的、歸因於 AI 的裁員潮,不應被完全視為糾正 COVID 時期過度招聘決策或在多次收縮後調整薪酬結構的有用掩護。這些都是事實!

與此同時,值得考慮的是,公司變得臃腫是因為長期以來這是擴大規模的唯一途徑,而且很難知道在什麼時候,協調成本的拖累和龐大的員工隊伍帶來的收益遞減會超過邊際員工的收益;你只有在衝過那個點時才會發現它,而且很難走回頭路。

然而,AI 不僅為消除這種臃腫提供了上述藉口,還將「正確規模」的點顯著推向了更小的員工隊伍。越來越多的公司不僅會懷疑他們是否為 AI 之前的世界招聘了太多人,還會懷疑他們是否為 AI 之後的世界招聘了太多人;最前瞻和經得起未來考驗的方法可能是多裁員而不是少裁員,希望留下來的人別無選擇,只能利用代理人重建規模。畢竟,如果他們不這樣做,從一開始就利用 AI 建立的規模小得多的競爭對手,很快就會憑藉更小的成本結構和隨時間結構性增加的更多能力,對他們緊追不捨。

這很有可能會變得很醜陋;我不是在提倡這種結果,而是在分析為什麼它可能會發生。經濟上的必然性將是無法抗拒的,並將隨著時間推移進一步推動對更多運算的需求,進一步支持這並非泡沫的觀點。

代理人與 AI 價值鏈

另一個重要的泡沫問題是關於 Anthropic 和 OpenAI 極高的估值:當然,也許這一切都是真的,但如果模型變成了商品,還有利潤可圖嗎?Horace Dediu 在 Asymco 提出了這些問題,並想知道 Apple 是否正在執行 企業史上最精明的舉動

這就是 Apple 的賭注變得天才的地方。AI 模型的商品化速度比任何人預測的都要快。軟體和硬體都有商品化的傾向。保護措施確實存在,但它們與整合和分銷有關。DeepSeek 以 600 萬美元建立了一個模型,其性能可與耗資 1 億美元的系統相媲美。開源模型現在為 80% 尋求 VC 資助的初創公司提供動力。這些公司花費數千億美元建立的護城河正在蒸發。

Apple 比任何人都更早理解這一點。它沒有建立自己的 AI 模型,而是以每年約 10 億美元的價格授權了 Google 的 Gemini。當外包成本只需 10 億美元時,為什麼要花 1000 億美元建工廠?如果明年出現更好的模型,Apple 只需更換供應商……Apple 並沒有錯過 AI 革命。它只是押注贏家不會是那些建設基礎設施的人。他們將是那些擁有客戶的人,而地球上沒有人比 Apple 擁有更好的客戶。

我認為在第一個 LLM 範式期間,幾乎所有這些斷言都是站得住腳的。沒過多久,多個基礎模型就已經足夠好,可以滿足大多數人使用 LLM 的需求,例如烹飪或基本的醫療建議,或者作為治療師或伴侶。此外,有理由預期這種質量的模型很快就能在本地運行;在 Apple 自己的模型(他們絕對嘗試過建立,與 Dediu 的說法相反)未能出貨時,我自己也曾主張這是 Apple 的機會

然而,推理範式在本地推理的案例上炸開了一個大洞。推理模型不僅因為生成的標記數量而需要快速運算,而且還需要指數級增長的記憶體來容納更大的上下文窗口,這是本地模型的最大限制。Apple 製造了令人驚嘆的晶片,具有極具吸引力的統一記憶體架構,這使得他們的設備比其他任何人都更有可能進行基礎推理;但在可預見的未來,絕對沒有任何情況能讓足以與雲端模型競爭的強大推理模型在本地運行。

然而,正是代理人可能對 Dediu 的論點造成致命一擊。具體來說,我上面提到,使 Opus 4.5 具有說服力的不是模型發布本身,而是 Claude Code 控制架構的變化,使其突然變得極其有用。這意味著模型性能並不是唯一重要的事情:模型與控制架構之間的整合才是代理人真正差異化的所在。

在弄清楚 AI 行業的未來結構以及利潤流向何處時,這是一件非常大的事情,因為利潤會流向價值鏈中模組化的部分(這些部分已商品化),並流向價值鏈中整合的部分(這些部分具有差異化)。Apple 當然是這方面的終極例子:它的硬體沒有商品化,因為它與軟體整合在一起,這就是為什麼 Apple 可以持續收取更高的價格,並佔據 PC 和智慧型手機行業幾乎全部的利潤。

那麼,如果代理人需要模型與控制架構之間的整合,那麼建立這種整合的公司——特別是 Anthropic 和 OpenAI(Gemini 是一個強大的模型,但 Google 尚未交付引人注目的控制架構)——實際上準備好獲得比去年年底看起來要高得多的利潤。同理,那些押注於模型商品化的公司可能難以交付具有競爭力的產品。

這方面的金絲雀(預警信號)是 Microsoft。Microsoft 曾自詡為整合 AI 提供商,在財報電話會議上吹噓其與 OpenAI 的深度整合將意味著持續差異化的基礎設施;一個月後,OpenAI 差點崩潰,Microsoft 隨即轉向,越來越多地將模型視為商品,並採取 核心 AI 策略,即圍繞模型建立基礎設施,而模型本身將是可互換的,並與 Microsoft 的客戶隔離開來。

然而,快進到上週,Microsoft 揭示了他們將如何處理 AI 可能減少席位數帶來的業務影響,這對他們基於席位數的商業模式來說是個問題:該公司將把 AI 捆綁到一個新的更高等級的企業產品 E7 中,其成本為每席位每月 99 美元,是以前頂級 E5 的兩倍。這是一個巨大的增幅,Microsoft 需要用真正能提高席位生產力的 AI 來證明其合理性,而他們隨新捆綁包推出的產品是 Copilot Cowork。

如果「Cowork」這個名字聽起來很熟悉,那是因為這基本上就是 Claude Cowork 的企業版,後者是該公司今年早些時候發布的 Claude Code 的圖形介面版。Microsoft 版本有重要的區別,包括後者在雲端運行並基於您的組織數據,並具有隨之而來的所有權限和訪問策略。然而,至關重要的是,Copilot Cowork 與 Copilot 聊天機器人不同,它並非與模型無關:Cowork 是一個代理人,這意味著它既需要模型也需要控制架構,而這兩者是整合在一起的部件,而不是模組化的組件。

這其中的意義非常重大:Microsoft 至少在目前承認,要交付企業願意付費的真正引人注目的代理型產品,意味著要放棄他們宣稱的與模型無關的目標;這進而提高了模型不是也不會是商品的可能性,因為代理人需要的不僅僅是模型。

這無疑讓人對 Apple 僅僅授權 Gemini 並以新 Siri 的形式自行建立控制架構的決定產生疑問。Microsoft 認定他們無法透過這條路徑交付引人注目的產品;Apple 做了什麼來激發人們對他們能做得更好的信心?如果說有什麼的話,該公司的救命稻草就是 Dediu 最後提到的那一點:消費者可能根本不在乎代理人,在這種情況下,Apple 只要做到「夠好」就行了,即使 Microsoft 意識到它需要與 Anthropic 分享比它想分享的更多的利潤,因為它的企業客戶確實在乎。

然而,就本文而言,重要的是,如果代理人正使 Anthropic 和 OpenAI 成為價值鏈中的整合點,那麼關於這些公司估值過高,或者其他公司代表它們在數據中心進行的大規模投資是不合理的泡沫論點,可能是不正確的。

最後,我必須回應我開頭括號裡的話:我一直主張,只要每個人都在擔心泡沫,就沒必要擔心泡沫;只有當人們拋棄謹慎,並保證這絕對不是泡沫的那一刻,我們才可能真正處於泡沫之中。而且,嗯,我認為代理人的興起意味著我們不處於泡沫之中。資本支出是合理的,Anthropic 和 OpenAI 看起來比以往任何時候都更耐用。如果我宣布沒有泡沫意味著有一個泡沫,那就這樣吧!


添加到您的播客播放器:Stratechery | Sharp Tech | Dithering | Sharp China | GOAT | Asianometry


https://stratechery.com/?p=18541