Apple Intelligence 與 AI 極大主義
蘋果展示了一系列酷炫的生成式 AI 想法,但更重要的是,它指出了大多數大問題並提出了一個不同的答案:大語言模型是商品化的基礎設施,而非平台或產品。
目前為止,蘋果公司以外還沒有人真正使用過任何 Apple Intelligence 功能。它要到秋季才會分階段推出,而且即便屆時推出,也無法在 80% 或 90% 的現有 iPhone 上運行,因為它需要僅在 iPhone 15 Pro 上才有的裝置端處理能力。沒有什麼東西能像演示(Demo)那樣完美(除了初代 iPhone),蘋果可能會再次搞砸開發者激勵機制,而且一切可能並不像看起來那麼美好。我們拭目以待。
但與此同時,如果你從演示和截圖中退一步,審視其策略,會發現蘋果正指向生成式 AI 的大多數關鍵問題和槓桿點,並提出了一個關於這項技術將如何運作的論點,這與目前所有的炒作和宣揚截然不同。
「AI 極大化主義者」的觀點是:具有多模態和「多代理(multi-agentic)」能力的通用聊天機器人,將能夠接管廣泛的複雜多階段任務和問題,而這些問題在今天需要許多不同的專門軟體;同時,它還能自動化處理一整類以前軟體無法完成的複雜任務,且同樣是在單一的通用界面中完成。聊天機器人可能會用一個提示詞(prompt)取代所有軟體——「軟體已死」。我對此持懷疑態度,正如我在此所寫,但蘋果提出的是相反的觀點:生成式 AI 是一項技術,而不是一個產品。
我認為,蘋果正在釋放一個信號,即生成式 AI 以及 ChatGPT 本身,是一種商品化技術(commodity technology),只有在以下情況下才最有用:
-
嵌入在一個能提供關於用戶更廣泛情境(context)的系統中(這可能是搜尋、社交、設備作業系統或垂直應用程式);並且
-
拆解成單獨的功能(同上),這些功能本質上更容易作為小型節能模型,在邊緣端的小型節能設備上運行(由用戶買單,而不是你的資本支出預算)——這也正好,因為……
-
如果用戶每次按下「確定」我們都有邊際成本,且需要一整支核能發電廠艦隊來運行這一切,這東西永遠無法在主流市場普及。
首先:蘋果構建了一個沒有聊天機器人的大型語言模型(LLM)。蘋果開發了自己的基礎模型,根據其發布的基準測試,這些模型與市場上任何其他模型不相上下,但你無法在任何地方直接將原始提示詞輸入模型並獲得原始輸出——總會有一組按鈕和選項來塑造你的請求,並以不同的方式呈現給用戶以實現不同的功能。在大多數這些功能中,根本看不到機器人的影子。你不是提出問題並獲得回覆,而是:你的電子郵件被排定了優先順序,或者你按下「摘要」,摘要就會出現。你可以向 Siri 輸入請求(而 Siri 本身只是使用蘋果模型的眾多功能之一),但即便如此,你得到的也不是原始的模型輸出:你得到的是圖形用戶界面(GUI)。LLM 被抽象化為一個 API 調用。
這意味著蘋果的基礎模型不會建議你在披薩上塗膠水,就像 Gemini 著名的案例那樣,原因很簡單:你根本無法讓它回答這類開放式問題。蘋果將其視為一種賦能新類別功能和能力的技術,由設計和產品管理來塑造技術的行為以及用戶看到的內容,而不是將其視為一個供你諮詢萬事的「神諭(oracle)」。
相反,「神諭」只是一個功能,蘋果正在將「情境模型(context model)」和「世界模型(world model)」區分開來。蘋果的模型可以訪問手機中關於你的所有情境,為這些功能提供動力,而且這一切都是私密的,無論是在設備上還是在蘋果的「私有雲」中。但如果你詢問如何處理一張雜貨購物照片的創意,這就不再關乎你的個人情境,蘋果會提議將其發送給第三方世界模型——目前是 ChatGPT。世界模型確實有開放式提示詞並提供原始輸出,它可能會告訴你在披薩上塗膠水,但這被明確劃分為不同的體驗,你應該有不同的預期;當然,這也是 OpenAI 的品牌風險,而不是蘋果的。同時,該世界模型不會獲得你的任何情境,只會收到你那次性的提示詞。
我們尚未看到蘋果的情境模型實際效果如何,但原則上它看起來相當具有防禦性。OpenAI 或其他新公司的雲端模型(Anthropic、Mistral 等)都沒有你的電子郵件、訊息、位置、照片、文件等。Google 確實既有世界模型,如果你使用 Android,也能訪問你的情境,但在美國這顯然是少數(而且 Android 用戶群中能本地運行這些功能的比例比 iPhone 用戶群更低)。微軟的 AI PC 擁有部分情境,特別是在工作情境下,但對現在大多數人來說,智慧型手機才是擁有所有真實情境的主要設備,而不是 PC。Meta 有這些情境嗎?可能有一部分。在某個時點,這裡會有一場有趣的演算法反壟斷對話。但關鍵的槓桿點在於,你必須已經擁有自己的十億級平台才能構建這一切:你無法從零開始通過一個網站實現它。
另一方面,OpenAI 在這種關係中的地位有多穩固?並非十分穩固。
去年五月,一份洩漏的 Google 備忘錄聲稱 LLM 沒有護城河,因為每個人獲得訓練數據的管道基本相同,且會出現優秀的開源模型。這基本上就是現狀:唯一的護城河是資本和獲取 Nvidia 晶片的管道(目前而言),根據計算方式的不同,市場上有六到十二個頂級模型,OpenAI 雖然領先,但領先幅度不夠大。蘋果並不聲稱其新的基礎模型在所有方面都是最好的,但它似乎足以提供其想要的功能。這不會像搜尋引擎或作業系統那樣發展——目前還沒有明顯的「贏家通吃」效應。蘋果可以建立自己的基礎模型——這只是錢的問題。
因此,OpenAI 被給予了(顯然是)向數億蘋果用戶「免費」分發的機會,並為此承擔所有推理成本,以換取向高級訂閱用戶追加銷售的機會(儘管看過蘋果所有的 WWDC 演示後,還不清楚它會如何做到這一點)。但它也被視為一個可更換的插件。這裡有一個非常明顯的類比:Google 每年向蘋果支付 200 億美元以成為預設搜尋引擎。蘋果的 AI 主管 John Giannandrea 在本週活動後明確做了這個比較——「我覺得這有點像 Safari 處理搜尋引擎的方式」——而 Craig Federighi 則表示,他認為不同的問題可能會使用不同的「世界模型」。暗示之下,蘋果可能會將航班問題發送給一個世界模型,而將烹飪查詢發送給另一個。
但網頁搜尋是正確的類比嗎?還是我們應該看看地圖(Maps)?蘋果認定嘗試建立一個像 Google 一樣好的搜尋引擎是沒有意義的,而且確實也沒有其他人成功過。另一方面,蘋果確實建立了地圖,雖然一開始搞得很砸,但現在 Apple Maps 至少「夠好了」,因為同樣地,除了資本之外沒有真正的護城河。現在已經很清楚,OpenAI 不是新的 Google:不會只有一個贏家。
而且,毫無疑問,蘋果為了在其私有雲中運行而構建的基礎模型本身就是一個「世界模型」,你可以向它詢問披薩食譜——只是到目前為止,蘋果決定不提供那個 UI。蘋果讓 OpenAI 承擔創造披薩膠水食譜的品牌風險,讓錯誤率和濫用成為別人的問題,而蘋果則在安全距離觀察。下一步,可能是接受 Bing 和 Google 對預設位置的競標,但與此同時,越來越多的使用場景將悄悄地從第三方轉移到蘋果自己的模型上。畢竟,是蘋果自己的軟體決定了查詢的去向,以及哪些查詢根本需要第三方介入。
當然,這些都不是新鮮事——當 Llama 3 出現時(如果不是更早的話),LLM 將成為按邊際成本銷售的商品就很明顯了,問題在於你在其之上構建了什麼產品——因此 OpenAI 聘請了 Kevin Weil 擔任產品負責人。但蘋果還主張,一整類 LLM 產品將在雲端 LLM 無法觸及的地方,或者在它們僅作為 API 調用的地方被構建出來。
這帶我進入一個更廣泛的觀點。科技界有一句老話:每個人都想把別人的產品商品化,或者免費提供,或者兩者兼施。Meta 免費提供 Llama(包括模型和權重,目前甚至在應用程式中嵌入免費查詢),而超大規模雲端運算商則想對模型收費,因為 Meta 希望這成為廉價的商品化基礎設施,並通過其上的服務和功能來實現差異化。蘋果也在做非常類似的事情。運行 Apple Intelligence 的大量計算是在由用戶支付的終端設備上完成的,而不是蘋果的資本支出預算,而且 Apple Intelligence 是免費的。(我們還不知道蘋果私有雲將花費多少,也不知道本地與雲端查詢的可能比例。)Nvidia 上季度銷售了 250 億美元的 AI 晶片,超大規模雲端運算商今年可能會在數據中心上花費約 1500 億美元,但全球智慧型手機市場超過 4000 億美元,PC 市場超過 2000 億美元,而這些是由你的用戶買單的。這些數字(顯然!)不能直接比較,但這是一個相關的比較。沒人能確定幾年後會是什麼樣子——模型會變得更大但也更高效,邊緣端會變得更快——但將盡可能多的東西轉移到設備上存在著非常強大的激勵因素。
商品化通常也意味著整合。曾幾何時,「拼寫檢查」是一個需要花費數百美元購買的獨立產品,市場上有數十種競爭產品,但隨著時間推移,它首先被整合到文字處理器中,然後是作業系統中。上一波機器學習也發生了同樣的事情——風格遷移或圖像識別曾是五分鐘的產品,然後變成了功能。今天,「摘要此文件」是 AI,你需要每月花費 20 美元的雲端 LLM,但明天作業系統將免費完成這項工作。「AI 就是那些還沒法正常運作的東西。」
1987年:拼寫檢查器作為獨立軟體。Spellwell 售價 74 美元,經通貨膨脹調整後約為 200 美元。
2024年:摘要和重寫功能被整合進作業系統中。
我也很好奇這對 Nvidia 意味著什麼。正如我經常且謹慎地指出的,我不是晶片分析師,而真正的晶片和數據中心分析師經常談論 Nvidia 的護城河,無論是在矽片本身還是在其為開發者構建的軟體層。蘋果強大到足以走自己的路,就像它將 Mac 轉向自家晶片一樣:它控制著矽片之上的軟體和 API,這是開發者網絡效應的基礎,它擁有一流的晶片團隊和對台積電的優先訪問權。今天還有誰能與之相比?Google 的 TPU?似乎不太可能有許多其他科技公司,甚至是巨頭,會構建自己完全定制的從矽片到 GUI 的 AI 堆疊。改變發生的地方在於模型在哪裡運行:完整的基礎模型目前還塞不進手機,但如果真實的使用案例越多來自於將該模型和「神諭」拆解成功能,推理轉向邊緣端的速度就可能快得多。蘋果再次指出了這個問題。
最後,所有這些目前仍只是論點。這一切在 18 個月前都還行不通,我們還沒有達到產品市場匹配(product-market fit)。許多發達國家高達一半的人口已經嘗試過生成式 AI,但其中一半的人從未嘗試第二次。對於如此新穎的事物來說,這是有很高的知名度,但並非牽引力(traction)。我們不知道產品會是什麼,市場會是什麼,科學會是什麼,一切仍在飛速變化。代理(agents)或錯誤率方面可能會出現新的突破,從而完全改變使用場景。
與此同時,既得利益者總是試圖將新事物變成一項功能。Google 和微軟在過去 18 個月裡將 LLM 灑滿了他們的產品,每家企業 SaaS 公司也是如此:我的前同事 Steven Sinofsky 說「互聯網上的每個文本框都將獲得一個 LLM」。蘋果正在做一些略有不同的事情——它提議為你在手機上做的所有事情提供一個單一的情境模型,並以此驅動功能,而不是在公司的各個角落添加互不相連的 LLM 驅動功能。但它仍然試圖將這種「顛覆性」的新技術變成一項功能,並試圖將 ChatGPT 關進盒子裡,限制在相當狹窄的使用場景中,並使其可與 Anthropic 或 Gemini 互換。
正如我在開頭所說,這確實是關於生成式 AI 未來的核心問題——這是一個新的通用工具,由一家公司的一個產品取代數百家公司的數百個軟體,還是一項通用技術,將賦能成千上萬家公司產品內部的功能?
相關文章