如何優化使用體驗：最佳AI模型指南（3.0版）

Hacker News·4 個月前

這篇來自Hacker News AI的Cursor社群論壇文章，提供了最新的（3.0版）AI模型使用優化指南，並介紹了最佳的選擇。

2025年12月9日，下午12:59 1

指南的先前版本：

我目前的堆疊：
Opus 4.5 $$> GPT-5.1 High >= GPT-5.1 Codex Max XHigh >?$ Gemini 3 Pro Preview $$>> GPT-5 Mini $>=$ Grok Code Fast

主要模型簡介

Opus 4.5

比任何其他模型更能深入理解提供的上下文，這在處理文件時尤其明顯。
我喜歡 Claude 系列的溝通風格。
比其他模型貴很多倍。我推薦給預算龐大的團隊。
根據我的使用情況推斷，單線程代理編碼每月可能高達 5,000 美元。
對於其他人來說，它最適合在重要的文檔編輯期間或規劃重構時一次性使用。
在大型文件/項目上，您可能會發現它會貪婪地填滿其上下文窗口，這可能很快且頻繁地溢出，導致其壓縮並可能降低輸出質量。

Gemini 3 Pro Preview

在所有基準測試中都勝過所有人，除了 Opus 4.5；
在某些方面，Opus 4.5 略好一些。
比 Opus 4.5 便宜。
它很混亂，這使得它難以作為主要模型來依賴。
最初，它在與文件正確交互方面存在問題：它會以一種只能通過 git revert 恢復的方式刪除文件（代理聊天中的撤銷操作並未撤銷文件刪除）。

我 30 天的使用量來自 cursortokens.vercel.app

GPT-5.1 High

您可以忽略其他子版本——降低模型級別不會帶來任何好處。
一個優秀、穩定、便宜且智能的模型。
與 GPT-5 相比，GPT-5.1 變得更加“溫和”，使其溝通起來更令人愉快，閱讀其報告也更方便。
有傳言稱即將發布 GPT-5.2：改進可能不會很顯著——最重要的是他們不要搞砸。

GPT-5.1 Codex Max Extra High (Codex Max XHigh)

我非常不喜歡 GPT-5 Codex 和 GPT-5.1 Codex。
據說它們在 Codex CLI 中比在 Cursor 中明顯更好。在 Cursor 中，它們太混亂了，我甚至沒有嘗試馴服它們。
我嘗試了 GPT-5.1 Codex Mini High 作為 GPT-5 Mini 的潛在替代品，但沒有成功。
Codex Max XHigh 是一個相當令人愉快且穩定的模型。
它非常經濟地填充其上下文。
您可以忘記那些具有不同“思考”級別的子版本——您選擇這個模型是為了複雜的任務，並且您希望它能解決它們。
由於其經濟性、強大功能和速度，它可以被認為是簡單任務的理想模型。
免費至 12 月 11 日；之後，其成本將大致等於 GPT-5.1 High。
我不確定在促銷周結束後是否會將其保留為我的主要模型，但您可以自行比較 5.1 Codex Max 和常規 GPT-5.1 在您的任務和提示風格上的性能。
Gemini 3 Pro Preview 將其在聊天中處理文檔的工作評估為一個簡潔的技術主管——總體而言，我同意。
由於其經濟性，它“思考”的內容很少——一個從相對智能的模型中快速獲得答案的好選擇，但您可能不喜歡它的風格和簡潔性。

GPT-5 Mini / Grok Code Fast

兩個用於簡單任務的廉價模型：搜索存儲庫（與存儲庫對話）、小幅編輯。
Mini 稍微聰明一些，GCF 稍微快一些。
GCF 是免費的，非常感謝埃隆·馬斯克。
以下是它們不應被用於所有任務的原因：

嘗試使用 GCF 完成任務列表；一次回滾；一次使用 GPT-5 成功完成。很明顯，GCF 生成的 token 遠多於 GPT-5，但未能完成任務，儘管它獲得了更多時間和開發者的額外提示。

其他模型

Claude Sonnet 4.5

它並不比 GPT-5.1 聰明多少，不足以證明其更高的價格是合理的。Gemini 3 Pro 相當或也略便宜。
可以用作 Opus 4.5 的經濟型替代品。
非常適合 QA。

Claude Haiku 4.5

比 GPT-5.1 更貴且更笨。如果您需要 Claude，請使用 Sonnet 或 Opus。

GPT-5 Pro

智力與 GPT-5.1 相當，但價格高出 10 倍。

Grok

Grok 4：自發布以來在 Cursor IDE 中表現不佳。
Grok 4 Fast：一個非常懶惰的模型。同樣，可能是由於 Cursor 的原因，而不是模型本身不好。
Grok 4.1：在 Cursor 中不可用。我希望 Grok 4.2 在發布後會被添加，並且比 Grok 4 工作得更好。

中文模型

Kimi K2：自發布以來，其響應在聊天中的顯示一直損壞；它們開箱即用提供了過時的模型版本。
DeepSeek：DeepSeek-V3.2，可以被認為是簡單任務的模型，但開箱即用不可用；其他模型已經過時。

Composer 1

Cursor IDE 開發人員的專有模型。我只在公開測試期間嘗試過。根據我的經驗，它的感覺比 GPT-5 笨，但價格稍高。

補充材料

我建議在 Cursor IDE 中使用我的 Agent Compass 作為您的用戶規則——這是一套用戶-AI 交互規則，為雙方分配角色。我將很快更新它，並將我的提示建議添加到存儲庫中。我還不能確定這個“很快”是何時！:eyes:

3 個讚

Artemonim (Artemonim) 2025年12月15日，晚上11:34 2

我嘗試了 GPT-5.2 - GPT-5.2 XHigh 非常出色。
我嘗試了 Cursor 中的 Codex CLI 擴展：
- 我感覺由於更方便的上下文工程，任務通過 Cursor Agent 解決得更快。僅僅因為在 Codex 中總是鏈接，而在 Cursor 中至少一些文件會立即發送到上下文，
- 而且，您可以立即指定文件的單獨片段。
- 用戶界面比 Cursor Chat 顯著不方便且視覺上不直觀。

3 個讚

Per_Jonsberg (Per Jonsberg) 2025年12月16日，早上7:29 3

非常感謝，非常欣賞這個指南！！

1 個讚

Artemonim (Artemonim) 2025年12月18日，下午4:36 4

只有當您沒有錢購買 Cursor Ultra 但有很多時間時，才使用 Codex CLI。它會積極地削減上下文，並且工具的集合或質量比 Cursor Agent 差。我沒有在相同的任務上測試它，但我相信在 Cursor 中 GPT-5.2 XHigh 會花費更少的時間來完成相同的任務。

Codex CLI 可能更適合常規的 Codex 模型，但如果您使用的是 Codex Max XHigh — 它在 Cursor Agent Chat 中表現出色。

Artemonim (Artemonim) 2025年12月21日，上午10:49 5

我目前的堆疊：
GPT-5.2 XHigh > GPT-5.1 Codex Max XHigh $>> GPT-5 Mini >= Grok Code Fast

1 個讚

Naufaldi_Rafif (Naufaldi Rafif) 2025年12月21日，上午10:54 6

為什麼您不嘗試 Gemini 3 Flash？根據我的經驗，它快速、便宜，而且智能。

Artemonim (Artemonim)

2025年12月21日，上午11:27 7

我嘗試了兩三次，結果令人失望。

下面是我最後一次嘗試的截圖。處理界面。第一個簡單的請求由 Gemini 3 Flash 處理，但當需要更複雜的菜單時，即使是 GPT-5.2 XHigh 也沒有完美完成（Codex Max 的嘗試也被回滾了），但它比其他模型更能理解我。

Gemini 3 Pro 在第一次嘗試時就失去了連接，第二次嘗試時進入了循環。