Victor Taelin 對 Gemini 3 的筆記

Lesswrong·

Gemini 3 在 λ-演算和除錯等複雜計算機科學任務中創下了新的技術標竿,但在創意寫作和推斷用戶意圖方面仍然表現不佳。

Higher Order Company 的 Victor Taelin 擁有一些大型語言模型(LLM)極可能從未見過的、最艱難的電腦科學問題,並以此評估了 Gemini 3。以下是他的推文全文轉錄。

簡短版本

首先:你們都看過基準測試了,所以我認為你們不需要我來評判這個。儘管如此,根據我的測試,這是貨真價實的,我想聊聊它。在我最難的問題上,這個模型的表現遠超 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。

它是以下領域的新 SOTA(當前最佳):
→ 調試複雜的編譯器錯誤 (compiler bugs)
→ 在沒有邏輯錯誤的情況下重構文件
→ 解決困難的 λ-演算 (λ-calculus) 問題
→ ASCII 藝術(現在幾乎算是不錯了!)
→ 競技型 Gen 3 OU(不細說了 😭)

不過,它仍然是一個 LLM。它具有類似的失敗模式,且在某些場景下比 Sonnet / GPT-5 差。

它似乎非常不擅長:
→ 推斷意圖
→ 適可而止(容易做得過頭)
→ 一次性(one-shot)氛圍編碼 (vibe coding)
→ 創意寫作
→ 健康問題

此外,我懷疑這個檢查點(checkpoint)並不是 Google 擁有的最強版本。

現在,進入完整的手打 Gemini 3 概覽。


詳細版本

1. 氛圍測試:λ-演算編程

我喜歡這個氛圍測試,因為它是防作弊的:一旦模型解決了我最難的問題,我就會創建一個更難的問題,稍微移動一下目標。

目前的紀錄:
→ n-tuple-map:由 Grok 3 解決(2025 年 2 月)
→ n-tuple-fold:由 GPT-5 解決(2025 年 8 月)
→ n-tuple-rotl:由 Gemini 3 解決(今天!)

實現 rotl 令人印象深刻,因為:
→ 沒有其他模型能接近解決它
→ Gemini 的解決方案比我自己的簡單 2 倍
→ Gemini 3 解決它的速度比我快 5 倍

事實上,它的解決方案非常短,只需一行:

λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(r s))))λu.λf.(f x)λu.u k))

很漂亮,不是嗎?這個微小的函數是 λ 編碼元組(tuples)的通用旋轉器。相比之下,其他所有模型都會創建一個大 5 倍的項……而且還不能運行。完全沒有其他模型能創造出類似的東西。那個答案對我來說是一個瞠目結舌的時刻。

我會發布一個包含提示詞和可運行解決方案的 Gist。

2. 現實世界調試

幾週前,我被困在一個棘手的 HVM4 錯誤中。我在這裡發帖,哀嘆沒有 AI 能解決它。好吧,事實證明,有一個 AI 解決了。有人成功地通過 LMSys 在一個舊的檢查點上運行了我的提示詞,它精確地指出了問題:特定優化上的堆疊下溢(stack underflow)。解決方案很簡單:將 WNF_SPOS < 0 替換為 WNF_SPOS < spos

這是 AI 第一次在我自己解決問題之前解決了現實問題,這讓我能繼續處理下一件事,從而取得了巨大進展。

我現在在許多舊的調試提示詞上測試了 Gemini 3,它解決了一半。那些花費我數小時的錯誤,現在由電腦在一分鐘內解決了!

現在,遺憾的是:我將堆疊下溢問題發送給了今天發布的 Gemini 3 模型,但它未能發現罪魁禍首。所以,要麼這個模型不是 Google 擁有的最聰明變體,要麼我那天真的很幸運。):

3. 現實世界編碼 / 重構

這個模型非常擅長編寫大型文件且不出錯。

例如,我要求一些 AI 重寫 HVM4.hs 並進行一些核心更改。然後我檢查了最棘手的函數。正如你所料,所有模型都在導致嚴重錯誤的重要細節上失敗了——除了 Gemini 3,它完美地完成了。

這對我來說特別令人鼓舞,因為模型以往在處理線性(linearity)等小眾限制時非常吃力,這使得它們無法用於核心 HVM 函數。Gemini 3 在這方面顯得極其稱職。

(代碼見下圖。)

4. 問題與怪癖

我要求 Gemini 3 一次性生成一個 Web 應用程序,它表現不佳。GPT-5.1 (high) 給了我完整的文件,包含我要求的一切,零錯誤。Gemini 3 給了我一個小 3 倍的文件,缺失大量功能且有很多錯誤。我無法讓 Gemini 3 一次性生成出接近 GPT-5.1 水平的文件。

我還向它發送了我之前的腦膜炎提示詞,它完全忽略了腦膜炎(💀)。我不確定我是否會信任它處理健康問題。

我要求它寫一個故事,寫得很爛。沒什麼好辯解的。

它經常會做得過頭,編寫完整的文件而不是僅僅修補漏洞。

在 Gemini CLI 上,它似乎比 GPT-5 (high) 還慢,儘管直接調用時速度快得多?

最後,有趣的是,當上下文需要時,它很難產生不正確的代碼。例如,如果你的類型有一個通用的 "Show" 實例,而你要求它構建一個自定義實例,它通常會很掙扎,因為這在技術上會是一個錯誤。它無法理解你之後會把舊的刪掉!

Lesswrong

相關文章

  1. Gemini 3:評估偏執且受污染

    5 個月前

  2. Gemini 3 Pro:一個缺乏脊梁的龐大智能

    5 個月前

  3. Google 推出 Gemini 3 Flash 模型,並將其設為 Gemini 應用程式的預設模型

    Techcrunch · 4 個月前

  4. Gemini 3.1 Pro:為您最複雜任務打造的更聰明模型

    Google Deepmind · 2 個月前

  5. AI學會為複雜系統建立簡化方程式

    Hacker News · 4 個月前