打造 AI 產品:在機率性系統的限制中尋求突破
我們該如何圍繞著一個會出錯的技術,打造出改變世界的福斯市場產品?我將探討錯誤的本質,以及如何透過產品設計將這種不確定性轉化為實用的工具。
我將在週一飛往印度進行短暫旅行,因此剛剛花了一個小時在非常不穩定的線上簽證申請流程中掙扎。完成後,既然我已經知道流程涉及哪些內容,我便就此詢問了 ChatGPT 4o。結果顯示,其中的大部分觀點部分或完全錯誤。
這是一個「不公平」的測試。這是一個使用大型語言模型(LLM)的「錯誤」方式的典型案例。它們不是資料庫。它們不會對問題產生精確的事實性答案,且它們是機率系統,而非確定性系統。現今的 LLM 無法針對這個問題給我一個完全且精確準確的答案。答案「可能」是對的,但你無法保證。
現在有一種趨勢(通常與加密貨幣和 NFT 類比),推定這意味著這些東西是無用的。這是一種誤解。相反地,思考生成式人工智慧模型的一個有用方式是:它們極其擅長告訴你,像那樣的問題的一個「好答案」「大概」會長什麼樣子。在某些使用場景中,「看起來像個好答案」正是你想要的;但在另一些場景中,「大致正確」就是「精確錯誤」。
事實上,進一步推敲,我們可以說完全相同的提示詞(prompt)和完全相同的輸出,根據你為何需要它,可能是一個好結果,也可能是一個壞結果。
儘管如此,在這種情況下,我確實需要一個精確的答案,而 ChatGPT 在原則上是無法被依賴來提供精確答案的,它反而給了我一個錯誤答案。我要求它做一件它做不到的事,所以這是一個不公平的測試,但這是一個具相關性的測試。答案依然是錯的。
有兩種方法可以嘗試解決這個問題。第一種是將其視為科學問題——這還處於早期階段,模型會變得更好。你可以不斷提到「RAG」(檢索增強生成)和「多代理」(multi-agentic)。模型肯定會變得更好,但會好到什麼程度?你可以花上幾週的時間觀看機器學習科學家對此爭論不休的 YouTube 影片,最後只學到他們其實也不真正知道。說到底,這是「LLM 是否會產生通用人工智慧(AGI)?」爭論的一個版本,因為對我來說,一個能完全正確回答「任何」問題的模型,聽起來至少是某種 AGI 的良好定義(但同樣地,沒人知道答案)。
但另一條路徑是將其視為產品問題。我們該如何圍繞著那些我們應預設其會出錯的模型,來打造實用的、面向大眾市場的產品?
AI 圈的人對我這種例子的典型反應是說「你拿的方式不對」——我問了:1. 錯誤類型的問題,以及 2. 我提問的方式不對。我應該做一堆提示工程(prompt engineering)!但過去 50 年消費級運算的啟示是,你不能透過強迫用戶學習指令列來推動技術普及——你必須向用戶靠攏。
(圖片說明:早期的提示工程(WordPerfect 紙板鍵盤覆蓋圖)。這並非未來。)
我認為我們可以進一步將其拆解為兩種產品問題。
一方面,截圖中的產品設計在模型本身本質上具有不確定性時,卻傳達了確定性。Google 給你(通常是)十個藍色連結,這傳達了「答案可能是其中之一」的信息,但在這裡,我們被給予了一個「正確」答案。這誤導了很多人,特別是因為文本生成(與實際答案不同)幾乎是完美的。事實上,德勤(Deloitte)這項引人入勝的調查顯示,一旦人們使用了這些系統,他們反而「更容易」被這種表面的確定性所誤導。
但問題的另一半在於,產品甚至在我得到「答案」之前,並沒有告訴我可以問什麼。我給了一個「糟糕」的查詢(一個它無法真正回答好的查詢),但產品中沒有任何東西告訴我這一點。相反地,它被呈現為一個通用工具。如果「產品」必須嘗試回答任何問題,這會讓「模型」更難出錯,但也會讓「介面」更難傳達什麼才是好的問題。
我為將在印度進行的演講製作了下面這張投影片,試圖捕捉這背後所暗示的替代方案。
最激進的方法是完全通用的「聊天機器人即產品」,其挑戰我剛才已經討論過了。但至少還有另外兩種方法。
第一種是將產品限制在狹窄的領域內,這樣你就可以圍繞輸入和輸出建立自定義 UI,以傳達它能做什麼、不能做什麼以及你可以問什麼,或許還能聚焦模型本身(即 RAG)。這催生了過去 12 個月中爆發的程式碼助手和行銷工具,以及知識管理工具的初步嘗試。WPP 建立了一個內部儀表板,讓員工引導模型朝向特定的品牌語氣或目標受眾。因此,「要求這個工具為品牌 Y 的產品 X 針對演示 Z 建議 50 個創意——但如果你得了闌尾炎,不要問它。」你將提示詞包裝在按鈕和 UI 中——包裝在「產品」中。
但另一種方法是用戶永遠看不到提示詞「或輸出」,甚至根本不知道這是生成式 AI,輸入和輸出都被抽象化為其他事物內部的功能。模型實現了某種能力,或者即使你以前也能做到,它讓建立該能力的過程變得更快、更容易。這就是上一波機器學習被吸收到軟體中的方式:出現了新功能,或者功能運作得更好,或者能以更快、更便宜的方式建立,但用戶永遠不知道它們是「AI」——它們不是紫色的,也沒有小星星圖示。這就是那個老笑話:AI 就是那些還不能運作的東西,因為一旦它能運作,它就只是軟體。
從另一個軸向來看:面對任何新技術,我們一開始都試圖讓它適應我們已有的問題,而既有者則試圖將其變成一項功能(例如 Google 和微軟在過去一年中將 LLM 撒滿了他們的產品)。接著,新創公司利用它來拆解既有者(拆解搜尋、Oracle 或電子郵件),但與此同時,其他新創公司則試圖找出我們可以建立哪些真正屬於新技術「原生」的東西。這分階段進行。起初,Flickr 有一個 iPhone App,但隨後 Instagram 利用了智慧型手機相機,並利用本地運算加入濾鏡,再往後,Snap 和 TikTok 利用觸控螢幕、影片和定位,創造出真正屬於該平台的原生產品。那麼,我們能利用這種技術建立什麼樣的原生體驗,而不是聊天機器人本身,或者是「錯誤率」無關緊要,但以某種方式抽象化了這種新能力的產品?
這當然提出了一個我以前談過的悖論:我們擁有一項通用技術,然而部署它的方式卻是將其拆解為單一用途的工具和體驗。然而,將其視為悖論可能只是放錯了抽象層級。電動馬達是通用技術,但你不會去特力屋買一箱電動馬達——你買的是電鑽、洗衣機和果汁機。通用技術是透過使用場景來實例化的。PC 和智慧型手機是取代了單一用途工具(打字機、計算機、錄音機和音樂播放器)的通用工具,但其中的每一項功能都是透過單一用途的軟體實現的:大多數人不會把 Excel 當作文書處理軟體。有些人對 LLM 如此興奮的原因之一,是它們「可能」不會遵循那種模式:它們可能會跨越所有這些抽象層級直達頂端。那樣的話,就沒有「薄薄的 GPT 包裝層」的生存空間了。然而,我不認為它們現在真的能做到那點,所以我剛才寫的一切,其實只是在思考即使那種情況永遠不會發生,你還能建立什麼來改變世界。
相關文章