我們升級到頂尖模型後，成本反而下降了

Hacker News·大約 7 小時前

我們透過採用 Opus 與 Haiku 的多層級代理架構，利用廉價模型過濾雜訊並委派特定任務，成功降低了大型語言模型的成本。藉由讓昂貴模型擔任協調者，而讓小型模型處理數據檢索與初步篩選，我們在獲得更強大性能的同時，支付的費用反而比以前更低。

frontier model lower costs

背景

這篇文章探討了 Mendral 團隊如何透過架構優化，在升級至更強大的 Claude 3 Opus 模型後，反而降低了處理海量 CI 日誌的成本。其核心策略在於建立一套分層代理機制，利用廉價的 Haiku 模型擔任「分診員」過濾八成重複問題，並讓昂貴的 Opus 模型僅負責高層次的規劃與決策，而非直接讀取原始日誌。

社群觀點

Hacker News 的討論首先聚焦於標題的真實性。部分讀者認為「升級模型反而省錢」的說法帶有標題黨色彩，指出成本下降的主因並非模型本身的效能提升，而是引入了分層過濾的架構。對此，Mendral 的共同創辦人親自回應，承認標題是為了總結架構演進的成果，並強調 Opus 的推理能力與 Haiku 在特定範疇下的高效率，才是讓這套「L1 與 L2 支援系統」得以運作的關鍵。

在技術實作層面，社群對「代理人是否過度設計」產生了激烈的辯論。有觀點質疑，像「檢查是否重複」或「寫入資料庫」這類基礎功能，是否真的需要動用 LLM，而非使用正規表達式或傳統函數調用。針對此點，開發者解釋 CI 日誌的複雜度極高，涉及多種語言與框架，傳統的確定性匹配難以應對 E2E 測試中變幻莫測的錯誤模式。不過，他們也同意對於已知的穩定模式，應逐漸轉向確定性匹配以進一步節省開支。

關於 RAG（檢索增強生成）的存廢也引發了高度關注。原文提到的「RAG 已死」觀點在留言區激起迴響，支持者認為與其預先塞入大量背景資訊，不如給予代理人強大的原始工具（如 SQL 或 Bash），讓具備推理能力的模型自行按需索取資料，這更符合當前如 Claude Code 等先進工具的趨勢。然而，也有技術專家持保留態度，認為 SOTA 嵌入模型在特定檢索任務上仍具備成本與效能優勢，未必會被純推理模式完全取代。

此外，不少開發者分享了類似的實踐經驗。有人提到使用極廉價模型作為「規劃代理人」來產出任務清單，再根據任務難度指派對應模型的做法。這種將複雜任務拆解並按需升級模型的思維，已成為社群處理高昂 LLM 成本的共識。同時，也有人提議將此模式應用於開源模型，例如利用 Qwen 等模型自行託管分診層，以達成更極致的成本控制。

延伸閱讀

在討論中，開發者提到了 Anthropic 推出的 Claude Code，這是一個體現了「給予代理人原始工具而非預填背景」理念的實例。另外，留言中也提及了 pgvector 在處理語義搜索時的實用性，以及如何利用 ClickHouse 的物化視圖來優化代理人對海量數據的查詢效率。

— Hacker News

其他收藏 · 0

你的個人知識庫

我們升級到頂尖模型後，成本反而下降了

背景

社群觀點

延伸閱讀