Kimi K2 Thinking：新型開源思考代理模型

Lesswrong·5 個月前

Kimi K2 Thinking 是一款擁有兆級參數的新型開源思考代理模型，在推理、工具調用和創意寫作方面表現出色，儘管其與頂尖閉源模型相比的實際任務表現仍存在爭議。

我之前曾報導過 Kimi K2，現在它推出了全新的思考版本。正如我在七月時所說，思考版本的到來已在預料之中。

它是真材實料嗎？

這取決於你對「真材實料」的定義。從各方面來看，先生，這是一個優秀的模型。但與其重要性相比，相關的討論卻比預期的要少，而且它並不符合我的任何使用場景。

K2 Thinking 簡介

Kimi.ai：你好，Kimi K2 Thinking！

開源思考智能體模型正式登場。

在 HLE (44.9%) 和 BrowseComp (60.2%) 上達到 SOTA（當前最佳）

無需人工干預即可執行多達 200 – 300 個連續工具調用

擅長推理、智能體搜索和程式編寫

256K 上下文窗口

K2 Thinking 作為思考智能體構建，標誌著我們在測試時擴展（test-time scaling）方面的最新努力——同時擴展思考 Token 和工具調用輪次。

K2 Thinking 現已在 http://kimi.com 的對話模式上線，完整的智能體模式即將推出。同時也可通過 API 訪問。

API 點此，技術博客點此，權重與代碼點此。
(Pliny 越獄版本點此。)

它擁有 1 兆（1T）參數，且 Kimi 和 Kimi K2 擁有良好的往績，因此它有可能與頂尖模型一較高下。儘管在推出推理模型上延遲了五個月，這讓人懷疑它是否具備競爭力。

一如既往，內部基準測試分數可能與外部基準測試分數大相徑庭，尤其是對於開源模型。有時這是因為外部人員配置不當，但內部的測量結果也需要反覆核實。

關於「人類最後的考試」（Humanity’s Last Exam），我看到外部來源稱截至 11 月 9 日，它以 23.9% 的成績位居第二，這與 44.9% 相去甚遠，但仍然非常優秀。

寫作質量

在寫作質量方面，Kimi K2 已經獲得了一段時間的認可。

Rohit：Kimi K2 的寫作能力出奇地好，而且與其他模型不同，思考模式並沒有讓它的寫作能力退化。

Morgan：如果我沒記錯，發佈時 GPT-5 是唯一一個寫作質量隨思考投入增加而提升的模型。

Rohit：唉。

Gary Fung：Kimi 在創意寫作方面一直是一朵奇葩。

這裡有部分解釋說明他們是如何讓寫作能力變得如此之好，其中涉及自我排序的強化學習（RL）和寫作自我博弈，並暗示與 Claude 3 Opus 的訓練方式有些相似。從某種意義上說，這看起來像是「嘗試做得更好，不惜一切」。

智能體工具使用

至於智能體工具使用和通用智能？我持保留態度。

Artificial Analysis 將 Kimi K2 Thinking 列為其智能體工具使用排名的首位，領先幅度為 93% 對 87%，在上下文處理（其最強項）中這是一個巨大的差距。

正如人們比較開源與閉源模型時常發生的情況，這是該開源模型表現最好的基準測試，所以不要過於激動。但總體而言，它在 Artificial Analysis 上的表現確實不錯，甚至考慮到討論熱度如此之低，好得令人起疑。

對於開源模型來說，其工具調用能力令人興奮，儘管這在閉源模型中已是標準配置。這是一個很好的例子，說明我們如何尋找開源模型在局部能力上追平閉源模型以令人驚豔的方式，而且這確實非常實用。

總體評價

Artificial Analysis 總體智能指數將 Kimi K2 Thinking 定位在 67 分，僅落後 GPT-5 一分，並領先於其他所有模型。Kimi 使用的 Token 數量是所有模型中最多的，但總成本低於頂尖閉源模型，儘管差距並非天壤之別（GPT-5 為 829-913 美元，Sonnet 為 817 美元，Kimi K2 為 380 美元），因為其成本為每百萬 Token 0.6/2.5 美元，而 GPT-5 為 1.25/10 美元，Sonnet 為 3/15 美元。

Nathan Lambert 對此印象深刻，他依賴於二手信息（「似乎使用起來很愉快」），並分享了他的看法。

他指出，實驗室起初會針對基準測試進行優化，然後轉向針對真正有用的事物。例如 K2 Thinking 是在 4 位精度下進行後訓練，以應對現實任務，並以同樣方式進行基準測試。我同意這相當酷。

是否在針對基準測試進行優化？

Kimi K2 在大多數領域似乎仍處於「針對基準測試優化」的階段，儘管在創意寫作方面並非如此。默認情況下，我預計這類模型在實際任務中的表現會「低於其基準測試所暗示的實力」。

目前我們沒有太多其他的外部評分可以參考，反饋也較少。

Simeon：Kimi K2 是在刷榜，還是他們真的在用簡陋的資源訓練出了 SOTA？

Prinz：在我的測試中（針對與數學和編程無關的使用場景），K2-Thinking 明顯不如 GPT-5 Thinking，但差距相對較小。如果我無法使用其他模型，我會很樂意使用 K2-Thinking，且不會覺得有巨大的降級感。

ahtoshkaa：我有一個相當複雜的伴侶應用，使用大約 5-10K 多樣且信息密集的上下文。模型必須正確解析這些信息並具備極佳的寫作技巧。Kimi-k2-thinking 簡直爛透了。類似於 OpenAI 的新模型——Polaris Alpha。

「一樣好」綜合症

目前存在一種日益增長的修辭壓力或營銷風格的壓力，即「基準測試差距」正在縮小。中國實驗室可以拿出數據證明他們「一樣好」或幾乎一樣好，對於許多用途來說，「夠好」就足夠了。許多人（包括 David Sacks 之流）指出 GPT-5 等模型顯示進步並不令人驚訝或恐懼。但正如 Nathan 所指出的，我們現在看到的發佈（如 Claude 4），其基準測試增益看起來很小，但現實世界的增益卻很大，我也會將 GPT-5（和 Sonnet 4.5）歸入這一類。

各方反應

Teortaxes：它很耗 Token，速度較慢，有時細節處理較粗糙。但總體而言，它是開源/中國模型的一個飛躍，與 Sonnet 4.5 和 GPT-5（視任務而定可能是 -mini）處於同一梯隊，且是一個真正強大的 SWE（軟件工程）智能體。它是合法的替代方案，而不僅僅是「看看這價格」。

開源替代方案幾乎總是會在細節上顯得粗糙，並主要根據其巔峰相對表現領域進行評估，這已是常態。這仍然是高度評價，將 Kimi 置於與當前兩大巨頭並駕齊驅的距離內。

Havard Isle 在 WeirdML 上的評分為 42.1%，與 Opus 4.1 持平。

這裡有一些酷的東西：

Pawal Azczesny：Kimi K2 Thinking 系統地（自發地，無需提示）使用了一些認知科學中已知的去偏見策略。非常令人印象深刻。我沒見過其他模型這樣做。做得好 @Kimi_Moonshot。

它超越了「一步步思考」。例如，它應用了預演分析（pre-mortem analysis），這並不常用。或者它會誇大主張，以觀察整個結構是否依然成立。非常巧妙。其他模型需要被指令才會這樣做。

[Steve Hsu 得到了一些不錯的數學結果。](http://Caught it hallucinating sources on Deep Research)

其他筆記：

MinusGix：我發現它在理解和解釋類型論概念方面比 GPT-5 更好。雖然像往常一樣，Kimi 寫得非常雄辯，以至於與 GPT-5 相比，更難察覺它何時在胡說八道。

Emerson Kimura：做了幾次快速的文本測試，看起來與 GPT-5 相當。

Ian Pitchford：非常詳盡；幻覺很少。

FredipusRex：在深度研究（Deep Research）中發現它偽造來源。

Lech Mazur：很遺憾地報告，Kimi K2 Thinking 在許多 Extended Connections 基準測試問題中陷入推理循環，無法給出答案（已通過 https://platform.moonshot.ai/playground 雙重檢查，因此不是 API 調用問題）。

安全協議？那是什麼？

David Manheim：它非常願意提供詳細的化學武器合成指令和建議，包括擴大生產規模和提高純度，以及如何將其武器化用於火箭的幫助——而我只需花極少的力氣就能繞過拒絕機制。

對此的三個回應中有兩個是「好消息」和「太棒了。我是認真的。」所以，沒錯，AI 的發展會非常順利，我看得出來。

此外，情況一直異常安靜

我說「異常」，是因為從各方面來看，這是最強的開源模型、最強的中國模型，也是最強智能體或工具使用模型的有力競爭者。然而，我並未看到太多的興奮情緒，甚至連正面或負面的反饋都很少。

毫無疑問，Kimi K2 令人印象深刻，Kimi K2 Thinking 同樣是一個令人印象深刻的模型，即便假設其實際表現低於其數據。它足夠優秀，通常值得在你的使用場景中進行測試，看看它是否適合你。我的猜測是，除非你對價格極度敏感，否則它很少會是首選，但我們拭目以待。

— Lesswrong