打造 AI 產品：在機率性系統的限制中尋求突破

Benedict Evans·將近 2 年前

我們該如何圍繞著一個會出錯的技術，打造出改變世界的福斯市場產品？我將探討錯誤的本質，以及如何透過產品設計將這種不確定性轉化為實用的工具。

我將在週一飛往印度進行短暫旅行，因此剛剛花了一個小時在非常不穩定的線上簽證申請流程中掙扎。完成後，既然我已經知道流程涉及哪些內容，我便就此詢問了 ChatGPT 4o。結果顯示，其中的大部分觀點部分或完全錯誤。

這是一個「不公平」的測試。這是一個使用大型語言模型（LLM）的「錯誤」方式的典型案例。它們不是資料庫。它們不會對問題產生精確的事實性答案，且它們是機率系統，而非確定性系統。現今的 LLM 無法針對這個問題給我一個完全且精確準確的答案。答案「可能」是對的，但你無法保證。

現在有一種趨勢（通常與加密貨幣和 NFT 類比），推定這意味著這些東西是無用的。這是一種誤解。相反地，思考生成式人工智慧模型的一個有用方式是：它們極其擅長告訴你，像那樣的問題的一個「好答案」「大概」會長什麼樣子。在某些使用場景中，「看起來像個好答案」正是你想要的；但在另一些場景中，「大致正確」就是「精確錯誤」。

事實上，進一步推敲，我們可以說完全相同的提示詞（prompt）和完全相同的輸出，根據你為何需要它，可能是一個好結果，也可能是一個壞結果。

儘管如此，在這種情況下，我確實需要一個精確的答案，而 ChatGPT 在原則上是無法被依賴來提供精確答案的，它反而給了我一個錯誤答案。我要求它做一件它做不到的事，所以這是一個不公平的測試，但這是一個具相關性的測試。答案依然是錯的。

有兩種方法可以嘗試解決這個問題。第一種是將其視為科學問題——這還處於早期階段，模型會變得更好。你可以不斷提到「RAG」（檢索增強生成）和「多代理」（multi-agentic）。模型肯定會變得更好，但會好到什麼程度？你可以花上幾週的時間觀看機器學習科學家對此爭論不休的 YouTube 影片，最後只學到他們其實也不真正知道。說到底，這是「LLM 是否會產生通用人工智慧（AGI）？」爭論的一個版本，因為對我來說，一個能完全正確回答「任何」問題的模型，聽起來至少是某種 AGI 的良好定義（但同樣地，沒人知道答案）。

但另一條路徑是將其視為產品問題。我們該如何圍繞著那些我們應預設其會出錯的模型，來打造實用的、面向大眾市場的產品？

AI 圈的人對我這種例子的典型反應是說「你拿的方式不對」——我問了：1. 錯誤類型的問題，以及 2. 我提問的方式不對。我應該做一堆提示工程（prompt engineering）！但過去 50 年消費級運算的啟示是，你不能透過強迫用戶學習指令列來推動技術普及——你必須向用戶靠攏。

（圖片說明：早期的提示工程（WordPerfect 紙板鍵盤覆蓋圖）。這並非未來。）

我認為我們可以進一步將其拆解為兩種產品問題。

一方面，截圖中的產品設計在模型本身本質上具有不確定性時，卻傳達了確定性。Google 給你（通常是）十個藍色連結，這傳達了「答案可能是其中之一」的信息，但在這裡，我們被給予了一個「正確」答案。這誤導了很多人，特別是因為文本生成（與實際答案不同）幾乎是完美的。事實上，德勤（Deloitte）這項引人入勝的調查顯示，一旦人們使用了這些系統，他們反而「更容易」被這種表面的確定性所誤導。

但問題的另一半在於，產品甚至在我得到「答案」之前，並沒有告訴我可以問什麼。我給了一個「糟糕」的查詢（一個它無法真正回答好的查詢），但產品中沒有任何東西告訴我這一點。相反地，它被呈現為一個通用工具。如果「產品」必須嘗試回答任何問題，這會讓「模型」更難出錯，但也會讓「介面」更難傳達什麼才是好的問題。

我為將在印度進行的演講製作了下面這張投影片，試圖捕捉這背後所暗示的替代方案。

最激進的方法是完全通用的「聊天機器人即產品」，其挑戰我剛才已經討論過了。但至少還有另外兩種方法。

第一種是將產品限制在狹窄的領域內，這樣你就可以圍繞輸入和輸出建立自定義 UI，以傳達它能做什麼、不能做什麼以及你可以問什麼，或許還能聚焦模型本身（即 RAG）。這催生了過去 12 個月中爆發的程式碼助手和行銷工具，以及知識管理工具的初步嘗試。WPP 建立了一個內部儀表板，讓員工引導模型朝向特定的品牌語氣或目標受眾。因此，「要求這個工具為品牌 Y 的產品 X 針對演示 Z 建議 50 個創意——但如果你得了闌尾炎，不要問它。」你將提示詞包裝在按鈕和 UI 中——包裝在「產品」中。

但另一種方法是用戶永遠看不到提示詞「或輸出」，甚至根本不知道這是生成式 AI，輸入和輸出都被抽象化為其他事物內部的功能。模型實現了某種能力，或者即使你以前也能做到，它讓建立該能力的過程變得更快、更容易。這就是上一波機器學習被吸收到軟體中的方式：出現了新功能，或者功能運作得更好，或者能以更快、更便宜的方式建立，但用戶永遠不知道它們是「AI」——它們不是紫色的，也沒有小星星圖示。這就是那個老笑話：AI 就是那些還不能運作的東西，因為一旦它能運作，它就只是軟體。

從另一個軸向來看：面對任何新技術，我們一開始都試圖讓它適應我們已有的問題，而既有者則試圖將其變成一項功能（例如 Google 和微軟在過去一年中將 LLM 撒滿了他們的產品）。接著，新創公司利用它來拆解既有者（拆解搜尋、Oracle 或電子郵件），但與此同時，其他新創公司則試圖找出我們可以建立哪些真正屬於新技術「原生」的東西。這分階段進行。起初，Flickr 有一個 iPhone App，但隨後 Instagram 利用了智慧型手機相機，並利用本地運算加入濾鏡，再往後，Snap 和 TikTok 利用觸控螢幕、影片和定位，創造出真正屬於該平台的原生產品。那麼，我們能利用這種技術建立什麼樣的原生體驗，而不是聊天機器人本身，或者是「錯誤率」無關緊要，但以某種方式抽象化了這種新能力的產品？

這當然提出了一個我以前談過的悖論：我們擁有一項通用技術，然而部署它的方式卻是將其拆解為單一用途的工具和體驗。然而，將其視為悖論可能只是放錯了抽象層級。電動馬達是通用技術，但你不會去特力屋買一箱電動馬達——你買的是電鑽、洗衣機和果汁機。通用技術是透過使用場景來實例化的。PC 和智慧型手機是取代了單一用途工具（打字機、計算機、錄音機和音樂播放器）的通用工具，但其中的每一項功能都是透過單一用途的軟體實現的：大多數人不會把 Excel 當作文書處理軟體。有些人對 LLM 如此興奮的原因之一，是它們「可能」不會遵循那種模式：它們可能會跨越所有這些抽象層級直達頂端。那樣的話，就沒有「薄薄的 GPT 包裝層」的生存空間了。然而，我不認為它們現在真的能做到那點，所以我剛才寫的一切，其實只是在思考即使那種情況永遠不會發生，你還能建立什麼來改變世界。

— Benedict Evans

你的個人知識庫

打造 AI 產品：在機率性系統的限制中尋求突破