我們升級到頂尖模型後,成本反而下降了
我們透過採用 Opus 與 Haiku 的多層級代理架構,利用廉價模型過濾雜訊並委派特定任務,成功降低了大型語言模型的成本。藉由讓昂貴模型擔任協調者,而讓小型模型處理數據檢索與初步篩選,我們在獲得更強大性能的同時,支付的費用反而比以前更低。
背景
這篇文章探討了 Mendral 團隊如何透過架構優化,在升級至更強大的 Claude 3 Opus 模型後,反而降低了處理海量 CI 日誌的成本。其核心策略在於建立一套分層代理機制,利用廉價的 Haiku 模型擔任「分診員」過濾八成重複問題,並讓昂貴的 Opus 模型僅負責高層次的規劃與決策,而非直接讀取原始日誌。
社群觀點
Hacker News 的討論首先聚焦於標題的真實性。部分讀者認為「升級模型反而省錢」的說法帶有標題黨色彩,指出成本下降的主因並非模型本身的效能提升,而是引入了分層過濾的架構。對此,Mendral 的共同創辦人親自回應,承認標題是為了總結架構演進的成果,並強調 Opus 的推理能力與 Haiku 在特定範疇下的高效率,才是讓這套「L1 與 L2 支援系統」得以運作的關鍵。
在技術實作層面,社群對「代理人是否過度設計」產生了激烈的辯論。有觀點質疑,像「檢查是否重複」或「寫入資料庫」這類基礎功能,是否真的需要動用 LLM,而非使用正規表達式或傳統函數調用。針對此點,開發者解釋 CI 日誌的複雜度極高,涉及多種語言與框架,傳統的確定性匹配難以應對 E2E 測試中變幻莫測的錯誤模式。不過,他們也同意對於已知的穩定模式,應逐漸轉向確定性匹配以進一步節省開支。
關於 RAG(檢索增強生成)的存廢也引發了高度關注。原文提到的「RAG 已死」觀點在留言區激起迴響,支持者認為與其預先塞入大量背景資訊,不如給予代理人強大的原始工具(如 SQL 或 Bash),讓具備推理能力的模型自行按需索取資料,這更符合當前如 Claude Code 等先進工具的趨勢。然而,也有技術專家持保留態度,認為 SOTA 嵌入模型在特定檢索任務上仍具備成本與效能優勢,未必會被純推理模式完全取代。
此外,不少開發者分享了類似的實踐經驗。有人提到使用極廉價模型作為「規劃代理人」來產出任務清單,再根據任務難度指派對應模型的做法。這種將複雜任務拆解並按需升級模型的思維,已成為社群處理高昂 LLM 成本的共識。同時,也有人提議將此模式應用於開源模型,例如利用 Qwen 等模型自行託管分診層,以達成更極致的成本控制。
延伸閱讀
在討論中,開發者提到了 Anthropic 推出的 Claude Code,這是一個體現了「給予代理人原始工具而非預填背景」理念的實例。另外,留言中也提及了 pgvector 在處理語義搜索時的實用性,以及如何利用 ClickHouse 的物化視圖來優化代理人對海量數據的查詢效率。
相關文章
其他收藏 · 0