Victor Taelin 對 Gemini 3 的筆記

Lesswrong·5 個月前

Gemini 3 在 λ-演算和除錯等複雜計算機科學任務中創下了新的技術標竿，但在創意寫作和推斷用戶意圖方面仍然表現不佳。

Higher Order Company 的 Victor Taelin 擁有一些大型語言模型（LLM）極可能從未見過的、最艱難的電腦科學問題，並以此評估了 Gemini 3。以下是他的推文全文轉錄。

簡短版本

首先：你們都看過基準測試了，所以我認為你們不需要我來評判這個。儘管如此，根據我的測試，這是貨真價實的，我想聊聊它。在我最難的問題上，這個模型的表現遠超 GPT-5 Pro、Gemini 2.5 Deep Think 以及其他所有模型。

它是以下領域的新 SOTA（當前最佳）：
→ 調試複雜的編譯器錯誤 (compiler bugs)
→ 在沒有邏輯錯誤的情況下重構文件
→ 解決困難的 λ-演算 (λ-calculus) 問題
→ ASCII 藝術（現在幾乎算是不錯了！）
→ 競技型 Gen 3 OU（不細說了 😭）

不過，它仍然是一個 LLM。它具有類似的失敗模式，且在某些場景下比 Sonnet / GPT-5 差。

它似乎非常不擅長：
→ 推斷意圖
→ 適可而止（容易做得過頭）
→ 一次性（one-shot）氛圍編碼 (vibe coding)
→ 創意寫作
→ 健康問題

此外，我懷疑這個檢查點（checkpoint）並不是 Google 擁有的最強版本。

現在，進入完整的手打 Gemini 3 概覽。

詳細版本

1. 氛圍測試：λ-演算編程

我喜歡這個氛圍測試，因為它是防作弊的：一旦模型解決了我最難的問題，我就會創建一個更難的問題，稍微移動一下目標。

目前的紀錄：
→ n-tuple-map：由 Grok 3 解決（2025 年 2 月）
→ n-tuple-fold：由 GPT-5 解決（2025 年 8 月）
→ n-tuple-rotl：由 Gemini 3 解決（今天！）

實現 rotl 令人印象深刻，因為：
→ 沒有其他模型能接近解決它
→ Gemini 的解決方案比我自己的簡單 2 倍
→ Gemini 3 解決它的速度比我快 5 倍

事實上，它的解決方案非常短，只需一行：

λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(r s))))λu.λf.(f x)λu.u k))

很漂亮，不是嗎？這個微小的函數是 λ 編碼元組（tuples）的通用旋轉器。相比之下，其他所有模型都會創建一個大 5 倍的項……而且還不能運行。完全沒有其他模型能創造出類似的東西。那個答案對我來說是一個瞠目結舌的時刻。

我會發布一個包含提示詞和可運行解決方案的 Gist。

2. 現實世界調試

幾週前，我被困在一個棘手的 HVM4 錯誤中。我在這裡發帖，哀嘆沒有 AI 能解決它。好吧，事實證明，有一個 AI 解決了。有人成功地通過 LMSys 在一個舊的檢查點上運行了我的提示詞，它精確地指出了問題：特定優化上的堆疊下溢（stack underflow）。解決方案很簡單：將 WNF_SPOS < 0 替換為 WNF_SPOS < spos。

這是 AI 第一次在我自己解決問題之前解決了現實問題，這讓我能繼續處理下一件事，從而取得了巨大進展。

我現在在許多舊的調試提示詞上測試了 Gemini 3，它解決了一半。那些花費我數小時的錯誤，現在由電腦在一分鐘內解決了！

現在，遺憾的是：我將堆疊下溢問題發送給了今天發布的 Gemini 3 模型，但它未能發現罪魁禍首。所以，要麼這個模型不是 Google 擁有的最聰明變體，要麼我那天真的很幸運。):

3. 現實世界編碼 / 重構

這個模型非常擅長編寫大型文件且不出錯。

例如，我要求一些 AI 重寫 HVM4.hs 並進行一些核心更改。然後我檢查了最棘手的函數。正如你所料，所有模型都在導致嚴重錯誤的重要細節上失敗了——除了 Gemini 3，它完美地完成了。

這對我來說特別令人鼓舞，因為模型以往在處理線性（linearity）等小眾限制時非常吃力，這使得它們無法用於核心 HVM 函數。Gemini 3 在這方面顯得極其稱職。

（代碼見下圖。）

4. 問題與怪癖

我要求 Gemini 3 一次性生成一個 Web 應用程序，它表現不佳。GPT-5.1 (high) 給了我完整的文件，包含我要求的一切，零錯誤。Gemini 3 給了我一個小 3 倍的文件，缺失大量功能且有很多錯誤。我無法讓 Gemini 3 一次性生成出接近 GPT-5.1 水平的文件。

我還向它發送了我之前的腦膜炎提示詞，它完全忽略了腦膜炎（💀）。我不確定我是否會信任它處理健康問題。

我要求它寫一個故事，寫得很爛。沒什麼好辯解的。

它經常會做得過頭，編寫完整的文件而不是僅僅修補漏洞。

在 Gemini CLI 上，它似乎比 GPT-5 (high) 還慢，儘管直接調用時速度快得多？

最後，有趣的是，當上下文需要時，它很難產生不正確的代碼。例如，如果你的類型有一個通用的 "Show" 實例，而你要求它構建一個自定義實例，它通常會很掙扎，因為這在技術上會是一個錯誤。它無法理解你之後會把舊的刪掉！

— Lesswrong

你的個人知識庫

Victor Taelin 對 Gemini 3 的筆記

簡短版本

詳細版本