深度研究的難題

Benedict Evans·大約 1 年前

OpenAI 的 Deep Research 是為我量身打造的，但我卻無法使用。這又是另一個令人驚艷的展示，直到它以非常有趣的方式出錯為止。

我職業生涯的大部分時間都在從事研究與分析。我會構思想要看的數據並去尋找它；我編譯並整理數據、製作圖表，若覺得無聊就推倒重來，尋找新的方法和數據來理解並解釋問題，最後產出試圖表達我想法的文字與圖表。接著，我會去向人們解說這些內容。

這通常涉及大量的體力活——每張圖表之下都有一座冰山——而 OpenAI 的 Deep Research 看起來簡直是為我量身打造的。那麼，它真的適用嗎？

我本可以用一個新問題來親自測試，但在耗費時間和額度之前，湊巧 OpenAI 自己的產品頁面上就有一個關於我非常了解的領域——智慧型手機——的範例報告。讓我們來看看。

這張表格看起來很棒——機器幫我完成了需要數小時才能整理好的數據。但在我們把它交給客戶之前，先來檢查幾件事。首先，來源是什麼？

啊。

我們有兩個來源：Statista 和 Statcounter。Statcounter 作為衡量「普及率」（adoption）的指標是有問題的——它衡量的是「流量」，而眾所周知，不同裝置的使用方式不同，高階裝置的使用頻率更高，而 iPhone 偏向高階且使用量也偏高。你不能真的把它用於此目的，正如我會向實習生解釋的那樣（我經常將 AI 比作實習生）。與此同時，Statista 則是匯集他人的數據，確保自己在 SEO 中排名靠前，然後試圖讓你註冊或付費查看結果。我認為 Google 應該將這家公司從索引中剔除，但即使你不同意，說這是來源就像在說來源是「Google 搜尋結果」一樣。同樣地，這也是實習生等級的問題。

撇開這些不談，讓我們進一步挖掘，看看其中一個數字——日本。Deep Research 稱日本智慧型手機市場的比例為 69% iOS 和 31% Android。這引發了兩個問題：那是這些來源所說的嗎？以及，它們是對的嗎？這是兩種截然不同的問題。

首先，儘管如前所述 Statcounter 過度加權了 iPhone，但它實際上並沒有說 69%，或者至少在一年多內都沒有這麼說過。嗯。

若我們檢查 Statista，必須經過重重關卡，但最終會發現實際來源是研究機構 Kantar Worldpanel，而它給出的數字與 Deep Research 所聲稱的幾乎完全相反——63% Android 和 36% iOS。噢。

View fullsize

我們可以繼續挖下去。Kantar 的數字每月波動高達 20 個百分點，這並非硬體裝機量（installed bases）通常運作的方式，這讓我對它究竟在追蹤什麼感到不確定。我們也可以去檢查其他數字，但如果我必須檢查表格中的每一個數字，那它就沒有幫我節省任何時間——我還不如自己動手。順帶一提，日本監管機構在這裡（第 25 頁）對我們正在尋找的實際數字進行了調查，顯示裝機量約為 53% Android 和 47% iOS。啊。

我們對此有何看法？

大型語言模型（LLM）不是資料庫：它們不進行精確、確定性、可預測的數據檢索，像測試資料庫那樣測試它們是沒有意義的。但這並非我們在這裡嘗試做的事——這是一個更複雜且有趣的測試。

首先，OpenAI 的範例使用了一個不精確的問題：它要求提供「普及率」，但那是什麼意思？我們是在問出貨量、裝機量、使用份額，還是應用程式支出份額？這些是不同的東西。你想要哪一個？其次，尋找其中任何一個答案也是不精確的——沒有單一的來源可以參考，你需要一些判斷力或專業知識來決定使用哪個來源——如上所述，你應該採用 Statcounter、Statista、Kantar 本身，還是其他來源？

也就是說，這兩者實際上都不是簡單的「資料庫查詢」類型的問題——OpenAI 是在向模型提出一個機率性問題，而非確定性問題。但該問題的答案「是」確定性的——在弄清楚你真正想要什麼以及選擇哪種答案後，你需要的是實際的數字。我們是在向機率性問題尋求確定性的答案，而在這一點上，模型似乎在它自己的邏輯上失敗了。依我之見，或根據我的專業知識，它不應該使用 Statcounter 或 Statista，但即便它應該使用，它也沒有從中提取正確的數字。

這讓我想起幾年前的一個觀察：LLM 擅長電腦不擅長的事，而不擅長電腦擅長的事。OpenAI 試圖讓模型弄清楚你「可能」是什麼意思（電腦對此很不在行，但 LLM 很擅長），然後讓模型進行高度特定的資訊檢索（電腦很擅長，但 LLM 很不擅長）。而這行不通。請記住，這不是我的測試——這是 OpenAI 自己的產品頁面。OpenAI 承諾這款產品能做到它做不到的事，或者至少如其行銷所示，做得不夠好。

現階段，顯而易見的回應是說模型會不斷進步，但這忽略了重點。你是要告訴我，今天的模型能讓這張表格達到 85% 的正確率，而下一個版本將達到 85.5% 或 91% 嗎？這對我沒有幫助。如果表格中有錯誤，有多少個錯誤並不重要——我無法信任它。另一方面，如果你認為這些模型將達到 100% 的正確率，那將改變一切，但那也將是這些系統本質上的二元變革，而非百分比的變化，而且我們甚至不知道這是否可能。

同時，要說明的是，我專注於一個數字是因為它易於檢查和測試，但同樣的概念問題也適用於十頁的文字：以同樣的方式，Deep Research 將會「大部分」正確，但僅僅是大部分。

退一步說，寫這篇文章時我感到很矛盾，因為我已經說過太多次這些系統很神奇，但總是在關鍵的地方出錯，因此目前最好的使用案例是那些錯誤率無關緊要或錯誤顯而易見的情況。如果只是說這些系統很神奇且一直在進步，然後就此打住，或者聲稱錯誤率意味著它們是自 NFT 以來最大的時間和金錢浪費，那會容易得多。但探索這種困惑（正如我現在所做的）似乎更有趣。

而且這些東西「確實」有用。如果有人要求你針對一個你擁有深厚專業知識的領域撰寫一份 20 頁的報告，而你手頭上還沒有現成的資料，那麼這可以將幾天的工作縮短為幾小時，然後你可以修正所有的錯誤。我總稱 AI 為「無限的實習生」，在我剛寫的內容中，對任何實習生來說都有很多值得教導的時刻，但也有史蒂夫·賈伯斯（Steve Jobs）那句名言：電腦是「大腦的自行車」——它讓你花更少的力氣走得更遠、更快，但它無法自己去任何地方。

再退一步看，我認為這裡有兩個潛在問題。第一，重複一遍，我們不知道錯誤率是否會消失，因此我們不知道應該構建「假設模型有時會出錯」的產品，還是在一兩年內構建「假設可以獨立依賴模型」的產品。這與其他重要技術（從 PC 到網路再到智慧型手機）的局限性截然不同，在那些技術中，我們原則上知道什麼可以改變，什麼不能。我剛才談到的 Deep Research 的問題會得到解決嗎？這個問題的答案將產生兩種截然不同的產品。

第二，OpenAI 和所有其他基礎模型實驗室除了資本獲取能力外，沒有護城河或防禦力，他們在程式碼編寫和行銷之外並沒有真正的產品市場媒合度（product-market fit），他們也沒有真正的產品，只有文字框——以及供「其他人」構建產品的 API。Deep Research 是眾多嘗試中的一種，既是為了創造具有黏性的產品，也是為了實例化一個使用案例。但一方面 Perplexity 聲稱幾天後也推出了同樣的東西，另一方面，目前管理錯誤率的最佳方式似乎是將 LLM 抽象化為軟體內部的 API 調用，由軟體來管理它，這當然使得基礎模型本身更加商品化。這會是最終的結局嗎？我們不得而知。

— Benedict Evans

你的個人知識庫

深度研究的難題