AI 衡量指標：衡量下一個平台轉型的困惑

Benedict Evans·11 個月前

每當平台發生轉移時，我們都想衡量其增長，但卻對該衡量什麼感到困惑。這部分是數據和定義的問題，但本質上是關於這項技術最終會演變成什麼樣的問題。

在消費級網路的早期，到處充斥著大量的指標，沒人清楚該衡量什麼，或者這些指標代表什麼意義。瑪麗·米克（Mary Meeker）在 1995 年發布的第一份《網路趨勢報告》中，第一個圖表是「網路主機數」，接著是全球 PC 用戶數、網路骨幹流量以及 AOL 的訂閱人數。隨著全球資訊網（Web）的興起，我們開始討論「點擊量（hits）」——對於年輕讀者來說，這意味著計算從網頁伺服器傳輸的文件數量，所以如果你在導覽列增加更多按鈕，就會有更多 GIF 需要下載，點擊量也就隨之增加。社群媒體的指標則從「註冊用戶」演變為 MAU（月活躍用戶），接著是 DAU（日活躍用戶）以及 MAU/DAU 的比率。當智慧型手機普及時，人們對銷量、裝機量和使用量之間的區別，以及這些與 ASP（平均售價）和 ARPU（每用戶平均收入）的關係感到困惑。當然，每個人都會挑選讓自己看起來最好的指標，或者以他們想要的方式重新定義市場。蘋果大談 App Store 上有多少應用程式，而 Google 則談論 Android 的「累計啟用量」。你可以看到聯邦貿易委員會（FTC）現在也在玩這種遊戲，聲稱 Instagram 並未與 TikTok 競爭：正確的衡量指標應該是花費的時間、觀看的影片數，還是與現實世界朋友的連結？這取決於你的立場。

自然地，所有這些問題在生成式 AI 領域再次出現。OpenAI 偶爾會報告「週活躍用戶（WAU）」的整數，儘管山姆·阿特曼（Sam Altman）作為前社群媒體創辦人，完全清楚 WAU 是一個相當薄弱的指標（如果你每週只使用一次，它並未改變你的生活）。

儘管如此，WAU 至少是一個具體且明確的指標：仍有太多人向消費者和企業詢問諸如「你是否使用 AI？」甚至「你在過去一年中是否使用過 AI？」之類的問題。這裡存在定義問題——你問的是像 ChatGPT、Claude 和 Gemini 這樣的東西，還是也包括 Snapchat 濾鏡和 Alexa？後兩者都是由機器學習驅動的，而我們以前肯定稱之為「AI」。你指的是哪一種，而被詢問的人指的又是哪一種？即使你們在定義上達成共識，誰會在乎某人是否只用過一次 ChatGPT？如果你問一家巨型企業「你們是否使用 AI？」，而他們回答是，他們的意思是正在圍繞大語言模型（LLM）重建發票處理流程，還是行銷部門的某人偶爾會用 MidJourney 做草圖？

Google 和微軟提供了「生成的 Token 數量」圖表，甚至標註了軸線，但這非常像是在 1996 年報告頻寬增長：它看起來很棒，確實告訴我們某些東西正在增長，但變數太多，無法得知那具體是什麼。使用量和用戶確實在增長，是的，但與此同時，一方面模型變得更加高效，另一方面代理（agents）和媒體創作在處理特定請求時會消耗更多 Token，當然，Google 還向所有人展示「AI 概覽（AI Overviews）」。如果你在 20 年前看到 YouTube 頻寬的這張圖表，你會問這在多大程度上代表了更多用戶、每位用戶更多觀看次數、更長的影片、更高的完成率或更高畫質的影片。事實上，鑑於目前大部分 Token 生成來自企業 API 調用，這有點像試圖透過測量 AWS 和 Azure 的頻寬傳輸來理解雲端運算的普及程度。

接著，我看到了一些關於 DAU 使用時長的調查數據，這似乎更有用，但缺乏時間線，且第三方很難在行動裝置上收集這些數據。瑪麗·米克的 30 週年報告中有一張比較 Google 和 ChatGPT 留存率的圖表，這讓我感到困惑：從數學上講，即使在用戶群縮小的情況下，忠誠度難道不能提高嗎？

相反地，當你進入像 Meta 或 Google 這樣運作良好的超高速成長公司內部時，你會看到大量非常具體、嚴格收集且定義明確的二階和三階指標，這些指標能真實反映產品的運作狀況以及用戶的行為。Google 以優化回應時間著稱，當時沒人認為這很重要，而且 Google 的目標是讓用戶快速離開網站，這在當時被其他人認為是壞事。許多這類指標也可以形成正向回饋循環，讓產品本身變得更好：當你重新輸入 Google 搜尋詞並再次嘗試，或者點擊第三個連結後決定是否返回，你都在向 Google 提供信號使其變得更好，這是一種強大的網路效應。目前還不清楚是否有任何 LLM 提供商能夠真正利用這種機制，以及他們會衡量什麼：如果我問了一個問題後沒有再次嘗試，那是因為得到了正確結果，還是結果錯誤但我以為是對的，又或者是我放棄了並轉向 Google？

在另一個極端，我認為將生成式 AI 的用戶增長與網路或智慧型手機等事物進行比較的圖表需要謹慎對待，或至少需要背景資訊。最初的 Macintosh 售價為 7850 美元，最初的 iPhone 售價為 800 美元（通膨調整前分別為 2450 美元和 499 美元），而生成式 AI（就用戶體驗而言）「僅僅」是一個網站或應用程式。你不需要購買設備，也不需要等待電信商建設寬頻或 3G 網路，與此同時，現在有數十億人上網，而不是當年的數千萬或數億人。所以，是的，它的增長規模更大、速度更快：我們是站在巨人的肩膀上。（這也是為什麼輝達的銷售額能增長得如此之快——它搭上了過去幾十年建立的合約製造基礎的便車）。這並不意味著這是一個糟糕的比較：正如我很久以前寫過的，不公平的比較往往是最好的那種，但你確實需要知道這是不公平的。

退一步看，艾瑞克·施密特（Eric Schmidt）曾告訴雪柔·桑德伯格（Sheryl Sandberg），當你登上火箭時，不要爭論座位在哪，而這無疑是一枚火箭。奧卡姆剃刀定律告訴我們，最終所有這些指標都會轉化為金錢和時間。但今日的模糊性也反映了這一切是多麼早期且不明朗。我們還不知道未來的業務和產品會是什麼樣子，而正確的指標將隨之成型。瑪麗·米克 1995 年的報告分別預測了電子郵件和網頁的使用情況，她認為電子郵件的規模會更大，但事實並非如此。

因此，正如我多次暗示過的，真正的問題在於，LLM 在多大程度上會作為面向用戶的通用聊天機器人存在，還是會被嵌入到其他事物中。如果是後者，試圖衡量其使用情況就像試圖衡量機器學習或 SQL 的使用一樣（你一天使用幾次資料庫？誰在乎？）。相反地，我們也在思考 LLM 是否會達到 Google 的查詢量（今年早些時候艾迪·柯爾（Eddie Cue）的一句隨口評論曾讓 Google 股價飆升），或者加速智慧型手機的換機週期，或改變電子商務的購買行為。此外，針對 LLM 的 SEO 指標又是什麼？

— Benedict Evans

你的個人知識庫

AI 衡量指標：衡量下一個平台轉型的困惑