如何優化使用體驗:最佳AI模型指南(3.0版)

如何優化使用體驗:最佳AI模型指南(3.0版)

Hacker News·

這篇來自Hacker News AI的Cursor社群論壇文章,提供了最新的(3.0版)AI模型使用優化指南,並介紹了最佳的選擇。

2025年12月9日,下午12:59 1

指南的先前版本:


2025-12-08_23-12-46

我目前的堆疊:
Opus 4.5 $$> GPT-5.1 High >= GPT-5.1 Codex Max XHigh >?$ Gemini 3 Pro Preview $$>> GPT-5 Mini $>=$ Grok Code Fast


主要模型簡介

Opus 4.5

  • 比任何其他模型更能深入理解提供的上下文,這在處理文件時尤其明顯。
  • 我喜歡 Claude 系列的溝通風格。
  • 比其他模型貴很多倍。我推薦給預算龐大的團隊。
    根據我的使用情況推斷,單線程代理編碼每月可能高達 5,000 美元。
  • 對於其他人來說,它最適合在重要的文檔編輯期間或規劃重構時一次性使用。
  • 在大型文件/項目上,您可能會發現它會貪婪地填滿其上下文窗口,這可能很快且頻繁地溢出,導致其壓縮並可能降低輸出質量。

Gemini 3 Pro Preview

  • 在所有基準測試中都勝過所有人,除了 Opus 4.5
    在某些方面,Opus 4.5 略好一些。
  • Opus 4.5 便宜。
  • 它很混亂,這使得它難以作為主要模型來依賴。
  • 最初,它在與文件正確交互方面存在問題:它會以一種只能通過 git revert 恢復的方式刪除文件(代理聊天中的撤銷操作並未撤銷文件刪除)。

2025-12-08_22-34-42

我 30 天的使用量來自 cursortokens.vercel.app

GPT-5.1 High

  • 您可以忽略其他子版本——降低模型級別不會帶來任何好處。
  • 一個優秀、穩定、便宜且智能的模型。
  • GPT-5 相比,GPT-5.1 變得更加“溫和”,使其溝通起來更令人愉快,閱讀其報告也更方便。
  • 有傳言稱即將發布 GPT-5.2:改進可能不會很顯著——最重要的是他們不要搞砸。

GPT-5.1 Codex Max Extra High (Codex Max XHigh)

  • 我非常不喜歡 GPT-5 CodexGPT-5.1 Codex
    據說它們在 Codex CLI 中比在 Cursor 中明顯更好。在 Cursor 中,它們太混亂了,我甚至沒有嘗試馴服它們。
    我嘗試了 GPT-5.1 Codex Mini High 作為 GPT-5 Mini 的潛在替代品,但沒有成功。
  • Codex Max XHigh 是一個相當令人愉快且穩定的模型。
  • 它非常經濟地填充其上下文。
  • 您可以忘記那些具有不同“思考”級別的子版本——您選擇這個模型是為了複雜的任務,並且您希望它能解決它們。
  • 由於其經濟性、強大功能和速度,它可以被認為是簡單任務的理想模型。
  • 免費至 12 月 11 日;之後,其成本將大致等於 GPT-5.1 High
  • 我不確定在促銷周結束後是否會將其保留為我的主要模型,但您可以自行比較 5.1 Codex Max 和常規 GPT-5.1 在您的任務和提示風格上的性能。
  • Gemini 3 Pro Preview 將其在聊天中處理文檔的工作評估為一個簡潔的技術主管——總體而言,我同意。
  • 由於其經濟性,它“思考”的內容很少——一個從相對智能的模型中快速獲得答案的好選擇,但您可能不喜歡它的風格和簡潔性。

2025-12-08_23-13-25
2025-12-08_23-13-45

GPT-5 Mini / Grok Code Fast

  • 兩個用於簡單任務的廉價模型:搜索存儲庫(與存儲庫對話)、小幅編輯。
  • Mini 稍微聰明一些,GCF 稍微快一些。
  • GCF 是免費的,非常感謝埃隆·馬斯克。
  • 以下是它們不應被用於所有任務的原因:

2025-11-06_17-32-08

嘗試使用 GCF 完成任務列表;一次回滾;一次使用 GPT-5 成功完成。很明顯,GCF 生成的 token 遠多於 GPT-5,但未能完成任務,儘管它獲得了更多時間和開發者的額外提示。

其他模型

Claude Sonnet 4.5

  • 它並不比 GPT-5.1 聰明多少,不足以證明其更高的價格是合理的。Gemini 3 Pro 相當或也略便宜。
  • 可以用作 Opus 4.5 的經濟型替代品。
  • 非常適合 QA。

Claude Haiku 4.5

GPT-5.1 更貴且更笨。如果您需要 Claude,請使用 SonnetOpus

GPT-5 Pro

智力與 GPT-5.1 相當,但價格高出 10 倍。

Grok

  • Grok 4:自發布以來在 Cursor IDE 中表現不佳。
  • Grok 4 Fast:一個非常懶惰的模型。同樣,可能是由於 Cursor 的原因,而不是模型本身不好。
  • Grok 4.1:在 Cursor 中不可用。我希望 Grok 4.2 在發布後會被添加,並且比 Grok 4 工作得更好。

中文模型

  • Kimi K2:自發布以來,其響應在聊天中的顯示一直損壞;它們開箱即用提供了過時的模型版本。
  • DeepSeekDeepSeek-V3.2,可以被認為是簡單任務的模型,但開箱即用不可用;其他模型已經過時。

Composer 1

Cursor IDE 開發人員的專有模型。我只在公開測試期間嘗試過。根據我的經驗,它的感覺比 GPT-5 笨,但價格稍高。


補充材料

我建議在 Cursor IDE 中使用我的 Agent Compass 作為您的用戶規則——這是一套用戶-AI 交互規則,為雙方分配角色。我將很快更新它,並將我的提示建議添加到存儲庫中。我還不能確定這個“很快”是何時!:eyes:

3 個讚

Artemonim (Artemonim) 2025年12月15日,晚上11:34 2

  • 我嘗試了 GPT-5.2 - GPT-5.2 XHigh 非常出色。
  • 我嘗試了 Cursor 中的 Codex CLI 擴展:
    • 我感覺由於更方便的上下文工程,任務通過 Cursor Agent 解決得更快。僅僅因為在 Codex 中總是鏈接,而在 Cursor 中至少一些文件會立即發送到上下文,
    • 而且,您可以立即指定文件的單獨片段。
    • 用戶界面比 Cursor Chat 顯著不方便且視覺上不直觀。

3 個讚

Per_Jonsberg (Per Jonsberg) 2025年12月16日,早上7:29 3

非常感謝,非常欣賞這個指南!!

1 個讚

Artemonim (Artemonim) 2025年12月18日,下午4:36 4

只有當您沒有錢購買 Cursor Ultra 但有很多時間時,才使用 Codex CLI。它會積極地削減上下文,並且工具的集合或質量比 Cursor Agent 差。我沒有在相同的任務上測試它,但我相信在 Cursor 中 GPT-5.2 XHigh 會花費更少的時間來完成相同的任務。

Codex CLI 可能更適合常規的 Codex 模型,但如果您使用的是 Codex Max XHigh — 它在 Cursor Agent Chat 中表現出色。

Artemonim (Artemonim) 2025年12月21日,上午10:49 5

我目前的堆疊:
GPT-5.2 XHigh > GPT-5.1 Codex Max XHigh $>> GPT-5 Mini >= Grok Code Fast

1 個讚

Naufaldi_Rafif (Naufaldi Rafif) 2025年12月21日,上午10:54 6

為什麼您不嘗試 Gemini 3 Flash?根據我的經驗,它快速、便宜,而且智能。

Artemonim (Artemonim)

2025年12月21日,上午11:27 7

我嘗試了兩三次,結果令人失望。

下面是我最後一次嘗試的截圖。處理界面。第一個簡單的請求由 Gemini 3 Flash 處理,但當需要更複雜的菜單時,即使是 GPT-5.2 XHigh 也沒有完美完成(Codex Max 的嘗試也被回滾了),但它比其他模型更能理解我。

2025-12-21_00-12-46

Gemini 3 Pro 在第一次嘗試時就失去了連接,第二次嘗試時進入了循環。

2025-12-21_00-03-12

Artemonim (Artemonim)

2025年12月21日,下午2:22 8

2025-12-21_17-24-27

Hacker News

相關文章

  1. AI #147:快閃前瞻

    Lesswrong · 4 個月前

  2. Claude Opus 4.5:模型卡、對齊與安全分析

    Lesswrong · 5 個月前

  3. Claude Opus 4.5 是目前最佳模型

    Lesswrong · 5 個月前

  4. Claude Opus 4.6 快速升級

    Lesswrong · 2 個月前

  5. OpenAI 推出 GPT-5.4 mini 與 nano 模型

    OpenAI · 大約 1 個月前