
如何優化使用體驗:最佳AI模型指南(3.0版)
這篇來自Hacker News AI的Cursor社群論壇文章,提供了最新的(3.0版)AI模型使用優化指南,並介紹了最佳的選擇。
2025年12月9日,下午12:59 1
指南的先前版本:
我目前的堆疊:
Opus 4.5 $$> GPT-5.1 High >= GPT-5.1 Codex Max XHigh >?$ Gemini 3 Pro Preview $$>> GPT-5 Mini $>=$ Grok Code Fast
主要模型簡介
Opus 4.5
- 比任何其他模型更能深入理解提供的上下文,這在處理文件時尤其明顯。
- 我喜歡 Claude 系列的溝通風格。
- 比其他模型貴很多倍。我推薦給預算龐大的團隊。
根據我的使用情況推斷,單線程代理編碼每月可能高達 5,000 美元。 - 對於其他人來說,它最適合在重要的文檔編輯期間或規劃重構時一次性使用。
- 在大型文件/項目上,您可能會發現它會貪婪地填滿其上下文窗口,這可能很快且頻繁地溢出,導致其壓縮並可能降低輸出質量。
Gemini 3 Pro Preview
- 在所有基準測試中都勝過所有人,除了 Opus 4.5;
在某些方面,Opus 4.5 略好一些。 - 比 Opus 4.5 便宜。
- 它很混亂,這使得它難以作為主要模型來依賴。
- 最初,它在與文件正確交互方面存在問題:它會以一種只能通過
git revert恢復的方式刪除文件(代理聊天中的撤銷操作並未撤銷文件刪除)。
我 30 天的使用量來自 cursortokens.vercel.app
GPT-5.1 High
- 您可以忽略其他子版本——降低模型級別不會帶來任何好處。
- 一個優秀、穩定、便宜且智能的模型。
- 與 GPT-5 相比,GPT-5.1 變得更加“溫和”,使其溝通起來更令人愉快,閱讀其報告也更方便。
- 有傳言稱即將發布 GPT-5.2:改進可能不會很顯著——最重要的是他們不要搞砸。
GPT-5.1 Codex Max Extra High (Codex Max XHigh)
- 我非常不喜歡 GPT-5 Codex 和 GPT-5.1 Codex。
據說它們在 Codex CLI 中比在 Cursor 中明顯更好。在 Cursor 中,它們太混亂了,我甚至沒有嘗試馴服它們。
我嘗試了 GPT-5.1 Codex Mini High 作為 GPT-5 Mini 的潛在替代品,但沒有成功。 - Codex Max XHigh 是一個相當令人愉快且穩定的模型。
- 它非常經濟地填充其上下文。
- 您可以忘記那些具有不同“思考”級別的子版本——您選擇這個模型是為了複雜的任務,並且您希望它能解決它們。
- 由於其經濟性、強大功能和速度,它可以被認為是簡單任務的理想模型。
- 免費至 12 月 11 日;之後,其成本將大致等於 GPT-5.1 High。
- 我不確定在促銷周結束後是否會將其保留為我的主要模型,但您可以自行比較 5.1 Codex Max 和常規 GPT-5.1 在您的任務和提示風格上的性能。
- Gemini 3 Pro Preview 將其在聊天中處理文檔的工作評估為一個簡潔的技術主管——總體而言,我同意。
- 由於其經濟性,它“思考”的內容很少——一個從相對智能的模型中快速獲得答案的好選擇,但您可能不喜歡它的風格和簡潔性。
GPT-5 Mini / Grok Code Fast
- 兩個用於簡單任務的廉價模型:搜索存儲庫(與存儲庫對話)、小幅編輯。
- Mini 稍微聰明一些,GCF 稍微快一些。
- GCF 是免費的,非常感謝埃隆·馬斯克。
- 以下是它們不應被用於所有任務的原因:
嘗試使用 GCF 完成任務列表;一次回滾;一次使用 GPT-5 成功完成。很明顯,GCF 生成的 token 遠多於 GPT-5,但未能完成任務,儘管它獲得了更多時間和開發者的額外提示。
其他模型
Claude Sonnet 4.5
- 它並不比 GPT-5.1 聰明多少,不足以證明其更高的價格是合理的。Gemini 3 Pro 相當或也略便宜。
- 可以用作 Opus 4.5 的經濟型替代品。
- 非常適合 QA。
Claude Haiku 4.5
比 GPT-5.1 更貴且更笨。如果您需要 Claude,請使用 Sonnet 或 Opus。
GPT-5 Pro
智力與 GPT-5.1 相當,但價格高出 10 倍。
Grok
- Grok 4:自發布以來在 Cursor IDE 中表現不佳。
- Grok 4 Fast:一個非常懶惰的模型。同樣,可能是由於 Cursor 的原因,而不是模型本身不好。
- Grok 4.1:在 Cursor 中不可用。我希望 Grok 4.2 在發布後會被添加,並且比 Grok 4 工作得更好。
中文模型
- Kimi K2:自發布以來,其響應在聊天中的顯示一直損壞;它們開箱即用提供了過時的模型版本。
- DeepSeek:DeepSeek-V3.2,可以被認為是簡單任務的模型,但開箱即用不可用;其他模型已經過時。
Composer 1
Cursor IDE 開發人員的專有模型。我只在公開測試期間嘗試過。根據我的經驗,它的感覺比 GPT-5 笨,但價格稍高。
補充材料
我建議在 Cursor IDE 中使用我的 Agent Compass 作為您的用戶規則——這是一套用戶-AI 交互規則,為雙方分配角色。我將很快更新它,並將我的提示建議添加到存儲庫中。我還不能確定這個“很快”是何時!:eyes:
3 個讚
Artemonim (Artemonim) 2025年12月15日,晚上11:34 2
- 我嘗試了 GPT-5.2 - GPT-5.2 XHigh 非常出色。
- 我嘗試了 Cursor 中的 Codex CLI 擴展:
-
- 我感覺由於更方便的上下文工程,任務通過 Cursor Agent 解決得更快。僅僅因為在 Codex 中總是鏈接,而在 Cursor 中至少一些文件會立即發送到上下文,
-
- 而且,您可以立即指定文件的單獨片段。
-
- 用戶界面比 Cursor Chat 顯著不方便且視覺上不直觀。
3 個讚
Per_Jonsberg (Per Jonsberg) 2025年12月16日,早上7:29 3
非常感謝,非常欣賞這個指南!!
1 個讚
Artemonim (Artemonim) 2025年12月18日,下午4:36 4
只有當您沒有錢購買 Cursor Ultra 但有很多時間時,才使用 Codex CLI。它會積極地削減上下文,並且工具的集合或質量比 Cursor Agent 差。我沒有在相同的任務上測試它,但我相信在 Cursor 中 GPT-5.2 XHigh 會花費更少的時間來完成相同的任務。
Codex CLI 可能更適合常規的 Codex 模型,但如果您使用的是 Codex Max XHigh — 它在 Cursor Agent Chat 中表現出色。
Artemonim (Artemonim) 2025年12月21日,上午10:49 5
我目前的堆疊:
GPT-5.2 XHigh > GPT-5.1 Codex Max XHigh $>> GPT-5 Mini >= Grok Code Fast
1 個讚
Naufaldi_Rafif (Naufaldi Rafif) 2025年12月21日,上午10:54 6
為什麼您不嘗試 Gemini 3 Flash?根據我的經驗,它快速、便宜,而且智能。
Artemonim (Artemonim)
2025年12月21日,上午11:27 7
我嘗試了兩三次,結果令人失望。
下面是我最後一次嘗試的截圖。處理界面。第一個簡單的請求由 Gemini 3 Flash 處理,但當需要更複雜的菜單時,即使是 GPT-5.2 XHigh 也沒有完美完成(Codex Max 的嘗試也被回滾了),但它比其他模型更能理解我。
Gemini 3 Pro 在第一次嘗試時就失去了連接,第二次嘗試時進入了循環。
Artemonim (Artemonim)
2025年12月21日,下午2:22 8
相關文章






