對不可壓縮知識探測論文的合理性檢查

Lesswrong·大約 3 小時前

這篇文章分析了一篇聲稱能估算 GPT-5.5 等閉源模型參數量的爭議性論文，發現雖然其核心概念合理，但由於方法論缺陷和數據集問題，原始結果可能被誇大了。

或者，某家 AI 助手初創公司的首席科學家是否確鑿地證明了 GPT-5.5 擁有 9.7 兆（9.7T）參數？

前言

最近，Twitter 上流傳著一篇論文，聲稱對許多前沿閉源模型的參數數量進行了逆向工程，包括較新的 GPT-5.5（9.7T 參數）和 Claude Opus 4.7（4.0T 參數），以及較舊的模型如 o1（3.5T）和 gpt-4o（720B）。這篇題為《不可壓縮知識探針：透過事實容量估計黑箱 LLM 參數數量》（Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity）的論文，介紹了一個包含不同難度事實知識的數據集，將該數據集上的表現與參數數量進行回歸分析，然後利用該回歸模型從閉源前沿模型的表現推斷其參數數量。這篇論文的一個顯著特點是，與大多數機器學習實證論文不同，它是單人署名的：Pine AI 的首席科學家李博杰（Bojie Li）是這部作品的唯一作者。

這些結果因多種原因而令人懷疑，首要原因是它看起來像是低成本、匆忙撰寫的 AI 垃圾內容（AI slop）。例如，其代碼庫（https://github.com/19PINE-AI/ikp）很大程度上是使用 Claude Code 構建的，並且具有許多「憑感覺編碼」（vibe-coded）且缺乏合理性檢查的特徵（例如：冗餘且不一致的變數定義^([1])、樣板代碼臃腫、過度的錯誤處理^([2]) 以及靜默失敗^([3])）。該論文的作者網站（https://01.me/research/ikp/）也是如此，其中包含了一些在頁面其他地方從未出現過的術語定義^([4])、與內容不符的表格標題^([5])，且標題與正文的比例極高。

我們（Benjamin 和 Lawrence）決定進一步挖掘這些結果。具體而言，我們閱讀了論文，使用其代碼庫重現了作者的結果，然後深入研究了一些明顯的方法論問題，以查看這些問題對作者結果的影響程度。

我們的發現如下：

論文的核心思想大致合理，但被誇大了。對於開源模型，IKP 表現似乎與參數數量強烈相關（R² 在 0.78-0.92 之間），但確切程度取決於論文中被掩蓋的方法論選擇。
代碼庫中存在記錄不全且大多缺乏依據的方法論選擇，有時甚至與代碼本身及 arXiv 論文不一致。其中大多數選擇影響不大，但有一個選擇對結果產生了巨大差異：是否為模型評分設置最低下限。李博杰在論文中聲稱沒有設置下限，但在代碼中卻實施了。
IKP 數據集在數據多樣性、質量和歧義性方面存在嚴重問題，尤其是對於較難的問題。所有難題（Tier 5 到 Tier 7）都來自兩個來源：解析後的 Wikidata 條目和關於冷門研究者領域的問題。在 Wikidata 來源的難題中，有相當比例（8%）以及研究者知識難題中（約 25%）存在歧義，即它們可能指向不同的實體。在少數情況下，甚至因為李博杰提供的標準答案本身是錯誤的，導致模型被評為錯誤。修正這些數據集問題同樣會影響模型的估計參數數量。
基於上述問題，我們認為關於閉源前沿模型參數數量的驚人結果非常可疑。在修正了我們發現的部分方法論、實作和數據集問題後，對 IKP 表現進行線性回歸顯示，GPT-5.5 的參數約為 1.5T，而 Claude Opus 4.7 約為 1.1T。由於這種推斷對方法論選擇（以及我們沒時間處理的數據集重要局限性）極其敏感，我們認為不同的數字反映的是原始方法論的問題，而非模型的真實參數數量。

儘管存在這些問題，我們認為核心思想——透過量化記憶容量來逆向工程 LLM 參數數量——是可靠的，並歡迎未來以更嚴謹、系統的方式開展相關工作。

李博杰「不可壓縮知識探針」摘要

照例，我們先從總結這篇論文開始。

估計閉源模型大小的一種方法是在硬件成本模型下，從 API 吞吐量和定價進行推斷（例如 Epoch AI 的推理經濟學）。

李博杰認為，由於量化、批處理和供應商利潤等干擾因素，這些大小估計值並不可靠，誤差可能超過 2 倍。他轉而提議利用「神經網絡在參數數量中只能存儲線性數量的事實」這一特性來逆向工程參數數量。^([6]) 不幸的是，這並不像簡單計算所有事實那麼容易：^([7]) 一方面，詳盡地執行此操作是難以實現的。

李博杰構建了一組問題（「不可壓縮知識探針」，IKP），抽樣了跨越七個冷門等級的事實關聯。探針來自四個來源：GPT-5 生成的問題、Wikidata SPARQL 提取、DBLP/OpenAlex 研究者記錄，以及一小組人工策劃的問題。李博杰稱這些為「探針」，但為了避免混淆，我們簡稱為問題。

李博杰聲稱有六項貢獻：

他引入了 IKP 數據集，以衡量不可壓縮的事實。這與程序性知識（例如如何寫代碼）有所區別，後者很可能是可壓縮的。
他將模型參數與 IKP 表現進行回歸，發現 89 個開源模型的調整後 IKP 表現與模型參數數量之間存在強線性關係。他還證實 IKP 在預測參數數量方面優於 MMLU、GPQA 和 SimpleQA。我們認為這一結果總體上是成立的，儘管我們認為所聲稱的關係強度被誇大了。
他「證偽」了先前研究中的「稠密化定律」（densing law）結果。我們同意關於稠密化定律^([8]) 的論文確實非常可疑（如果有興趣，我們可以在後續文章中詳細說明原因）。然而，稠密化定律論文並未直接被李博杰的結果「證偽」^([9])；更準確的解讀是，在控制參數數量的條件下，開源 LLM 在他的 IKP 數據集上並沒有變得更好。
他利用 IKP 與模型參數的回歸來估計閉源前沿模型的參數以及 MoE 的「有效」參數。這些結果以 GPT-5.5（~9.7T）和 Claude Opus 4.6（~5.3T）為標題。他還展示了對於混合專家（MoE）模型，總參數預測事實知識的效果遠好於激活參數（R² 為 0.79 對 0.51）。
他利用 IKP 數據集上的回答相似性來識別模型是基於相同的基礎模型還是完全重新訓練的。具體而言，他將罕見事實的 Jaccard 重合度與「幻覺相似性」（兩個模型在罕見事實上產生相同錯誤答案的機率）結合為「幻覺相似性得分」，他聲稱這可以在不需要模型權重的情況下，區分共享權重的兄弟模型、訓練後的血統以及跨閉源供應商的完全重新訓練。我們沒有詳細調查這些結果，因此無法判斷論文圖 5 中的血統聚類是否正確。^([10])
他在 Github 上開源了他的代碼。我們非常感謝這一點，因為它 1) 大大簡化了重現其結果的過程，2) 使得識別其工作中可能存在的方法論問題變得更加容易。

IKP 數據集

IKP 數據集包含 1400 個問題，分為 7 個等級，每個等級 200 個。問題來源有四個：

GPT-5 生成的候選問題（401 個）：這些是透過要求 GPT-5 根據提供的幾個示例生成事實性問題而產生的。這些構成了 T1-T2 的大部分問題，有些也進入了 T3-T4。例如：

[T2] 「誰創作了芭蕾舞劇《吉賽兒》（Giselle）？」
標準答案：阿道夫·亞當（Adolphe Adam）

Wikidata SPARQL 問題（557 個）：這些問題取自 Wikidata 數據庫，涉及詢問機構的成立年份、國家的首都、總部所在地和地理事實。這些主要分佈在 T3-T7（Wikidata 問題中只有 11 個在 T1 或 T2）。例如：

[T4] 「國立屏東教育大學是在哪一年成立的？」

標準答案：1940

DBLP / OpenAlex 研究者問題（345 個）：這些問題要求模型「說出 [研究者] 的研究子領域以及一篇論文、系統、機構或合作者」。其中大部分位於 T5-T7。例如：

[T5] 「在計算機科學中，Martina Zitterbart 的研究子領域是什麼？請列舉與其工作相關的一篇論文、系統、機構或合作者。如果你不知道這個人是誰，請說明。」

標準答案：計算機網絡

[為簡潔起見，省略了來自 OpenAlex 的論文、合作者和隸屬機構]

來自作者先前工作的 97 個手動或補充添加，以平衡 T1-T4 的覆蓋範圍。例如：

[T1] 「葡萄牙的首都是哪裡？」 → 里斯本

[T2] 「非洲最大的湖泊是什麼？」 → 維多利亞湖

[T3] 「誰創作了歌劇《魔笛》？」 → 莫札特

每個等級的難度是根據六個「地標」模型進行實證校準的，這些模型涵蓋了開源權重的大小範圍，從 Qwen 2.5 0.5B (T1) 到 Gemini 3.1 Pro (T6)。如果第 k 個地標模型回答正確而第 (k-1) 個地標模型回答錯誤，則該問題被分配到第 k 等級。T7 預留給所有地標模型都無法答對的問題，作為一個刻意設置的上限，旨在讓當前模型都無法通過。

正如我們稍後會指出的，Wikidata 和研究者問題數據集（佔 1400 個問題中的 900 多個，包括 T5-T7 的所有問題）都存在相當嚴重的質量問題。^([11]) 例如，Wikidata 和研究者問題集都包含許多歧義問題：兩者都有命名空間衝突（例如，多個研究者或地點具有相同的名稱）。許多 Wikidata 關於成立年份的問題也有些歧義：例如，牛津大學於 1248 年獲得皇家特許狀，但有證據表明 1096 年就有教學活動，而該大學可能更早就存在了。有些問題還引用了過時的信息，或者對於多作者作品僅將一位作者視為正確。這使得結果的解釋變得複雜。

IKP 評分與回歸方法論

對於模型的每個答案，李博杰使用 3 分或 4 分制進行評分：

強（STRONG）/ 正確（CORRECT）= +1.0
弱（WEAK）= +0.5（預留給研究者問題，即模型提供了正確的子領域但沒有支持證據。）
拒絕（REFUSAL）= 0
錯誤（WRONG）= λ，其中預設 λ = -1.0（「幻覺懲罰」）

加入幻覺懲罰是為了抑制猜測（儘管它也會懲罰那些知道答案但標準答案本身有誤的模型）。7 個等級中每個等級的得分是其 200 個問題的平均值，模型的整體「受罰準確度」是這七個等級得分的算術平均值。為了計算受罰準確度，在發布的數據中，每個等級的得分最低被限制在 0（floored），儘管論文正文明確聲稱沒有設置下限，「以保留校準中的虛張聲勢信號」。這是我們將要回歸探討的方法論不一致之一，因為這個選擇顯著改變了擬合曲線的斜率。

評判模型是溫度為 0 的 Gemini 3 Flash Preview，所有目標模型都在溫度 0 下運行一次。請注意，這對於模型評估來說相當不規範（許多推理模型供應商明確不建議在 t=0 下運行其模型）。

核心回歸是一個單行普通最小二乘法（OLS）：

(此處省略 MathJax 渲染代碼，保留公式邏輯)

$$A = \alpha \cdot \log_{10}(N) + \beta$$
$$N \approx 10^{(A - \beta) / \alpha}$$

這個 OLS 是基於 89 個已知參數數量的開源模型擬合的，範圍從 SmolLM2-135M 到 1.6T 的 DeepSeek V4 Pro。李博杰報告 α = 0.147, β = +0.132, R² = 0.917，留一法中位數倍數誤差為 1.59×，90% 預測區間因子為 3.0×。反轉回歸公式即可得到任何目標模型的參數數量估計值：N̂ = 10^((A − β) / α)。

對於混合專家模型，總參數預測事實知識的效果明顯優於激活參數（R² = 0.79 對 0.51）。^([12])

這顯示了地面真值開源模型參數，以及我們修改後的方法論與原始論文模型的線性回歸擬合。雖然我們的整體 R² 較低，但這種乾淨的方法在分佈邊緣的擬合效果更好。

稠密化定律證偽結果

稠密化定律論文 (Xiao et al. 2024) 引入了「能力密度」，定義為模型有效參數大小與其實際參數大小的比率。這裡，「有效大小」是指參考模型為了達到目標模型的下游分數所需的參數數量。在 29 個開源基礎模型中，他們擬合並報告了每天的增長，並將其轉化為「LLM 的最大能力密度大約每 3.3 個月翻倍」。^([13])

為了測試這一點，李博杰將發布日期作為協變量加入 IKP 回歸：

$$A = \alpha \log_{10} N + \gamma \cdot \text{months} + \beta$$

如果稠密化定律適用於 IKP 問題，那麼 γ 應該約為 +0.0117/月（這是產生聲稱的 3.3 個月密度翻倍的值）。在 96 個有日期的開源模型中，李博杰擬合出 γ = −0.0010/月，95% 置信區間為 [−0.0031, +0.0008] —— 在統計上與零無異。稠密化定律預測的 +0.0117/月在 p < 10⁻¹⁵ 的水平下被拒絕。

這一結果經受住了我們進行的所有壓力測試。我們使用供應商固定效應（22 個虛擬變量）、家族固定效應（33 個虛擬變量）、排除思考模式變體、刪除開源等級地標模型（反循環檢查），以及在兩種評分下限機制下重新擬合了回歸。在每一種設定中，γ 都保持在零的 ±0.004/月範圍內，且 +0.0117/月的稠密化預測被有效確定地拒絕。因此，無論這篇論文還做了什麼，這個結果是成立的。^([14])

話雖如此，我們認為解讀這一結果的正確方式是：在固定參數數量的條件下，從 2023 年到 2026 年 4 月，開源模型世代對罕見實體的事實召回能力並未提高。與此同時，MMLU 和 HumanEval 等程序性基準測試在同一時期有所提高，通常是大幅提高。兩者可以同時成立，因為稠密化定律本意並非涵蓋事實召回能力。

IKP 論文的方法論問題

該論文和代碼庫在數據集構建、評判方法和結果報告方面存在許多方法論問題。影響結果的兩個主要問題是：對得分使用了每等級下限（與論文聲稱相反），以及問題存在歧義或錯誤答案。

當我們在複製實驗中調整這些問題時，核心數據發生了顯著變化。

評分中的每等級下限

在為模型評分時，每個探針的分數衡量如下：

強 / 正確 = +1.0
弱 = +0.5
拒絕 = 0
錯誤 = λ，其中 λ = -1.0^([15])（「幻覺懲罰」）

論文第 4.3 節說：「在發布的結果中，每等級得分最低不限制在零……以保留校準中的虛張聲勢信號。」設置下限意味著如果得分因錯誤答案而變為負數，它將被保持在 0。雖然他們聲稱結果沒有設置下限，但實際上無論是在論文報告的數值中還是在代碼倉庫中，它們都被設置了下限。

透過移除下限，較大模型的參數大小估計值大幅下降，因為曲線的斜率明顯變緩。因此，使用此模型，最新的前沿模型獲得的參數估計值要低得多。

設置下限的準確度
對於小模型，準確度鎖定在 ≈ 0
對於大模型，準確度保持在 ≈ 0.65 左右
斜率為 6.79
未設置下限的準確度
對於小模型，準確度下降到 ≈ -0.5
對於大模型，準確度保持不變：≈ 0.65
斜率變為 3.56

在不設下限的情況下重新擬合時，R² 從 0.917 降至 0.784，且 90% 預測區間從 3.0 翻倍至 6.8。值得注意的是，對數參數數量相對於表現的斜率大幅下降。這意味著李博杰原始論文中的參數數量在很大程度上是設置下限的產物（或者更刻薄地說，是一種未說明的「代碼級優化」）。新估計值在預測較小模型方面技術上準確度較低，但儘管置信區間較寬，卻為較大的前沿模型提供了更合理的估計。

難題中的歧義/錯誤答案

對於研究者問題，李博杰過濾掉了兩個字的中文名字和單個首字母的名字（第 4.1 節）。不幸的是，對一些隨機抽樣問題的人工檢查發現了這個過濾器無法捕捉的兩個問題：

第一，有些研究者的名字被多個具有顯著引用次數的計算機科學研究者共享。我們針對 345 個探針集中的每位研究者重新查詢了 OpenAlex，並計算了共享該名字且引用次數 ≥50 的不同個人資料。可能存在合理爭議的例子：Stjepan Picek（17 個 OpenAlex 個人資料，2 個高引用）、Zhendong Su（24 個個人資料，4 個高引用）、Zhiguo Ding（25 個個人資料，6 個高引用）。跨等級來看，我們將 345 個探針中的 86 個（24.9%）標記為有歧義：T3: 11/35 (31%), T4: 11/51 (22%), T5: 25/100 (25%), T6: 14/59 (24%), T7: 25/100 (25%)。
第二，有些研究者的主要子領域存在爭議或隨時間發生了變化。Dan Suciu 的領域在標準答案中被給定為「編程語言」，但他引用次數最多且最近的工作是在數據庫領域。在他們的評分系統下，回答「數據庫」的模型會被標記為錯誤，儘管這可以說更正確。

對於 Wikidata 問題，李博杰應用了「10 輪審計/修復循環」（第 7.7 節）。不幸的是，這個修復循環似乎未能捕捉到至少兩類問題：

第一，我們注意到對於大量實體，關於問題指向哪個實體仍然存在歧義。例如，一個 Wikidata 問題問「Cape Simpson 海岬位於哪個國家？」答案是「格陵蘭」，儘管在阿拉斯加和南極洲也存在名為「Cape Simpson」的地方。同樣，捷克境內除了標準答案中的那一條外，還有多條名為 Běla 的河流（示例 1, 示例 2）。
第二，仍然存在其他真正的語義歧義。例如，德州大學奧斯汀分校護理學院的問題（標準答案：成立於 1890 年）技術上正確但有歧義。該學院的血統可以追溯到同一所大學 1960 年的護理項目，並於 1976 年正式併入德州大學奧斯汀分校，取決於你是否計算前身項目，給出 1960 年的模型可以說是正確的。同樣，取自 Wikidata P170（創作者）字段的雕塑歸屬探針通常返回鑄造作品的青銅鑄造廠，而非設計雕塑的雕塑家。有些問題還將多作者作品歸功於單一作者，並在模型列出其他作者時予以懲罰；例如，《大堡礁》電影在維基百科上列出了 4 位編劇（其他來源為 3 位），其中只有一位被視為正確答案。這些是與命名衝突不同的失敗模式，更徹底的審計無疑會發現更多此類問題。

對於手動生成的問題，我們檢查了那些模型表現始終遠低於等級預期的問題，發現了兩個錯誤問題：一個關於孟加拉國最高峰（其答案隨時間變化），另一個關於蒙古人民黨（在 1920 年和 1921 年之間存在歧義）。我們在分析中排除了這兩個問題。

有趣的是，李博杰在附錄 H 中提到了這些可能的問題。然而，他並未嘗試量化有多少問題是有歧義或錯誤的，也未量化如果移除歧義問題會產生多大影響。我們在這裡做了這件事。

我們嘗試移除了我們注意到的有歧義或錯誤的問題，但我們注意到，由於沒有時間手動檢查每一個問題的答案，我們無法移除所有涉及命名衝突以外語義歧義的 Wikidata 問題。

來源	問題數量	標記為歧義	啟發式方法
LLM 生成	401	0	使用 LLM 評判員對所有四個等級進行了視覺抽檢。問題看起來格式良好。
研究者	345	86 (24.9%)	OpenAlex 顯示 ≥2 名引用次數 ≥50 的不同研究者共享該名字。
Wikidata	557	45 (8.08%)	對於 T5–T7 類別，≥3 個實體共享相同的標籤。（我們發現了其他無法透過程序移除的歧義類別。）
手動生成	97	2 (2.05%)	我們手動檢查了模型表現遠低於預期的手動生成問題，並確認其中 2 個問題是錯誤的。
總計審計問題	1,400	131 (9.4%)

修正後的模型參數估計

我們嘗試修復上述發現的兩個方法論問題：從各個數據集中移除答案有歧義的問題，並移除準確度估計中的下限。然後，我們重新計算了論文中測量的所有模型的得分。我們展示了本文其他部分提到的 8 個模型的重新計算得分。

模型	供應商	真實參數	論文估計	修正後估計	Δ 論文→修正
gemini-3.1-pro^([16])	Google	—	40,794B	4,653B	↓8.77×
gpt-5.5	OpenAI	—	9,659B	1,458B	↓6.62×
gpt-5	OpenAI	—	4,088B	1,330B	↓3.07×
claude-opus-4.7	Anthropic	—	4,042B	1,132B	↓3.57×
claude-sonnet-4.6	Anthropic	—	1,730B	661B	↓2.62×
grok-4.20 (thinking)^([17])	xAI	—	542B	768B	↑1.42×
deepseek-r1	DeepSeek	671B	424B	760B	↑1.79×
deepseek-v3	DeepSeek	671B	589B	564B	↓1.04×

總體而言，最強大的前沿模型的估計值大幅下降（Gemini 3.1-pro 出現了近 10 倍的差異），而對於一些較小的模型，我們看到得分略有增加。

影響比預期小的潛在方法論問題

思考 vs 非思考

在原始研究中，模型在啟用思考模式時的表現通常比不啟用時好得多。這導致參數估計值的偏差高達 4.9 倍：Grok-4.20 在不思考時被估計為 110B 參數，思考時為 540B。Claude Opus 4.6 在不思考時估計為 2.4T，啟用思考後為 5.3T，相差 2.2 倍。

此圖顯示了在李博杰原始方法論下，模型在被給予額外思考標記與未被給予時，估計參數數量的得分差異。*

論文中的核心結果掩蓋了這一差異，因為他們通常報告同一模型的思考版和非思考版中的最大參數數量。

此圖顯示了在使用未設下限的方法論版本下，模型在被給予額外思考標記與未被給予時，估計參數數量的得分差異。我們發現，在未設下限的版本中，得分通常更接近，且明顯低於原始論文中呈現的設下限版本。*

有趣的是，在移除任意設置的下限後，我們觀察到前沿模型在啟用和不啟用思考模式之間的得分差異通常要小得多。Grok-4.20 的思考倍率降至 3.9 倍，而 Claude Opus 4.6 降至 1.2 倍。遺憾的是，我們沒有時間研究為什麼移除下限後思考差距會縮小。話雖如此，我們認為這證明了在 IKP 基準測試中，啟用思考對表現的影響並不像想像中那麼大。

某些倉庫 JSON 文件中使用了不同的準確度指標

我們觀察到，倉庫中某些 JSON 文件用於模型評分的受罰準確度指標與論文中概述的有所不同。我們隨後調查了這些不同的準確度指標是否影響了結果，但發現異常的 JSON 得分並未用於產生論文中的任何圖表。也就是說，不同的準確度指標並未影響李博杰在論文中呈現的任何結果。

結論

在這項工作中，我們檢查了李博杰「不可壓縮知識探針」論文的方法論和結果的穩健性。我們發現了該工作的兩個主要方法論問題：儘管論文聲稱沒有，但代碼中確實存在每等級下限；以及很大比例的歧義問題，尤其是在較高難度等級中。我們還注意到兩個對結果影響不大的可疑方法論選擇：思考模型與非思考模型之間的表現差距比我們最初想像的小得多，且某些 JSON 文件中包含的不同準確度指標未被用於主要分析。

話雖如此，李博杰的三項主張在我們進行的每一次壓力測試中都得以倖存：

正如李博杰的 IKP 數據集所測量的，事實召回能力在開源模型中隨參數數量呈對數線性增長。我們發現，在每一個合理的子集（≥0.5B, ≥10B, ≤30B, ≤100B, 僅限稠密模型, 僅限 MoE 模型）中，斜率始終在 0.15 左右，截距僅有適度變動。定性的擴展主張是穩健的。
先前的「稠密化定律」不適用於 IKP 數據集上的表現。回歸中的時間參數 γ 在供應商固定效應、家族固定效應、兩種下限機制以及反循環重新擬合中，始終保持在零的 ±0.004/月範圍內。
MoE 總參數比激活參數數量更能預測知識。R² 的差距部分是 X 軸範圍的產物，但其他比較證實，一個總參數 600B 的 MoE 表現得像一個總參數 600B 的稠密模型，而不是一個激活參數 37B 的稠密模型。

然而，未能倖存的是對閉源前沿模型具體的多兆參數估計。在盡力修正方法論問題後，我們發現頂級專有前沿模型的參數數量從 ~10T 降至 ~1.5T。

但我們要強調，我們對 GPT-5.5 的 1.5T 點估計不應被視為我們的最終答案。相反，我們將其視為證據，表明在可辯護的方法論下，合理答案的範圍比論文報告的 3.0× 90% 預測區間要寬得多。我們兩人都對 GPT-5.5 的確切參數數量相當不確定。

我們認為 IKP 數據集（及方法論）是一項真正的貢獻。李博杰開源數據集和代碼也值得稱讚；正是因為他開源了代碼，我們才能如此迅速地寫出這篇文章。^([18]) 但對於一篇產生具體數字（「GPT-5.5 有 9.7T 參數」）的實證論文，其標準需要高於「我運行了一次回歸並報告了結果」。方法論選擇應該被討論和證明；潛在局限性或數據集問題的影響應該被分析，而不僅僅是順帶提及；對於看起來好得令人驚訝（或僅僅是令人驚訝）的結果，在 Twitter 上瘋傳之前應該經過嚴格審查。

討論

從更廣泛的角度來看，我們認為這項工作既說明了 AI 生成研究代碼的風險，也說明了其潛力。

李博杰的論文說明了許多風險。代碼庫看起來像是快速生成且從未仔細檢查過的，包括不同腳本中六個近乎相同的評判提示詞、將網絡故障靜默轉化為拒絕的防禦性錯誤處理、冗餘的變數定義，以及至少兩處論文文本與發布代碼在方法論上不一致的情況。配套網站上的術語定義後卻無處使用，且表格標籤錯誤。這些問題單獨來看都不是致命的，但它們共同描述了一個在公開之前沒有人（包括作者本人）以批判性眼光閱讀過的流程。一篇沒有內部或外部評審的單人署名實證論文是一個已知的失敗模式。一篇主要由 LLM 生成且未經太多審核的單人署名實證論文，則是更高吞吐量下的同一種失敗模式。

但同樣是這些工具，在降低生產此類工作成本的同時，也降低了檢查它的成本。多虧了 Claude Code（以及較小程度上的 Codex）自動化了我們這邊的大部分代碼生成過程，我們兩個人能夠在每人約 4-5 小時內重現李博杰的主要結果並進行多次敏感性分析。^([19]) 我們估計，如果使用上一代編碼助手（例如 Cursor 的自動補全），同樣的工作量每人需要大約 10 小時。

就 IKP 工作而言，儘管核心結果存在問題，我們認為利用記憶容量逆向工程 LLM 參數數量的核心思想是可靠的，並歡迎未來嘗試以更嚴謹和系統的方式實施它的工作。作為關於研究審查的一個更廣泛觀點，我們希望這個例子能作為一個重要的提醒，提醒人們生產和審查新研究結果的經濟學正在發生變化：隨著兩者的成本都下降且新結果的產出加速，我們對每個結果應用的審查力度也應隨之提高。

^(^) 例如，評判提示詞出現在至少 6 個不同的腳本中，措辭略有不同。
^(^) 例如，src/scorer.py 的第 78-86 行：

result = judge_fn(prompt).strip().upper()
# 必須檢查精確的 "CORRECT" —— 而非 "INCORRECT" 的子字串
if result == "CORRECT": 
    return True 
if result.startswith("CORRECT"): 
    return True
if result.split()[0] == "CORRECT" if result else False: 
    return True 
return False

請注意，第一項和最後一項檢查都被第二項檢查（result.startswith("CORRECT")）所包含。

^(^) 例如，ikp_estimate.py 在收到無效的 HTTP 響應時返回空字符串 ""，評判員隨後會將其歸類為拒絕（REFUSAL）。（這在重現工作時確實是一個問題，當時 Lawrence 用完了 OpenRouter 額度，結果從 T4 問題開始收到的全是 gpt-4o-mini 的拒絕，必須手動調試。）
^(^) 例如，專有參數估計表引用了「蒸餾行」（distilled rows），但表中並不存在。
^(^) 例如，專有參數估計表包含了非常開源的模型，如 mistral-medium-3.1 和 deepseek-v3.1。
^(^) 請注意，儘管有此暗示，預先存在的「每參數記憶位元數」估計值也至少有 2 倍的差異（Allen-Zhu and Li 估計 MoE 為 1.4 bits/param，稠密 GPT 風格網絡為 2 bits，而後來的 Morris et al. 使用不同方法得出 3.6 bits/param，而 8 位模型的硬信息論上限約為 8 bits/param）。
^(^) 另一種方法是估計 LLM 知道的最冷門事實，但這有其自身的困難（例如量化冷門程度）。
^(^) 它被命名為稠密化定律，是因為它衡量模型在表現上如何變得更具參數效率，即隨時間變得更稠密。順便提一下，Lawrence 認為這是一個糟糕的名字，就像如果擴展定律因為衡量損失隨參數數量和數據集大小下降而被命名為「損失定律」一樣。
^(^) 我們注意到這可能是過度依賴 LLM 導致的措辭不當。然而，我們認為，即使情況確實如此，這也不能免除他在其單人署名論文中包含此措辭的責任。
^(^) 幻覺相似性得分是在 T5-T7 探針上計算的，其中約 50% 是根據 4 向強/弱準則評估的研究者問題。該準則賦予 Anthropic 比跨供應商中位數高出約 16 個百分點的「強」比率，這可能是由 Claude 對冗長證據引用的風格偏好驅動的。由於 HSS 取決於哪些探針對每個模型算作「正確」，這種風格偏見會傳播到 Jaccard 交集和錯誤答案重合率中。我們預計供應商內的指紋比較（例如 Claude Sonnet 4.5 → 4.6 → 4.7 血統；共享權重的兄弟模型）相對不受影響，因為這對模型的成員共享相同的回答風格。跨供應商比較（尤其是論文聲稱檢測閉源供應商家族間蒸餾的說法）在結構上容易受到偏向參數估計的同一風格干擾因素的影響。
^(^) 我們沒時間調查的一個更大問題是高難度問題的多樣性較低。我們不確定這種影響有多大，但數據多樣性低確實令人擔憂。
^(^) 我們注意到，這個差距部分是 X 軸範圍的產物（在 37 個 MoE 校準模型中，激活參數聚集在 10-40B 的狹窄範圍內，這壓縮了回歸的分母）。在更誠實的預測單位中——論文中也報告了 LOO 中位數倍數誤差——MoE 激活僅比 MoE 總參數差約 13%（1.69× 對 1.49×），而不是標題暗示的 ~36 個百分點的 R² 差距。
^(^) 這個結果因多種原因而令人懷疑：首先，他們使用一系列微型內部模型來校準「能力密度」，沒有控制一些明顯的干擾因素，並使用了幾種統計技巧來誇大其結果的顯著性。同樣，這超出了本文的範圍，但如果大家有興趣，我們很樂意再寫一篇。
^(^) 此外，信息論上限暗示稠密化定律不能在純事實召回任務上持續。
^(^) 另一個可能的方法論問題是幻覺懲罰的縮放。我們簡短地嘗試了不同的縮放比例，但發現擬合結果與論文報告的相似，因此未作進一步調查。
^(^) Gemini-3.1-pro 被用作校準的地標模型，因此大幅誇大了其得分。我們將其納入是為了展示修正兩個主要方法論問題的效果。
^(^) 與大多數其他模型不同，grok-4.2 在不思考時的表現比思考時差得多。因此，即使經過我們的修正，其大小估計值在不思考時也會下降近 4 倍（在李博杰原始方法論中為 5 倍）。
^(^) 我們計劃在未來幾天發布我們的代碼；由於我們兩人都參加了寫作計劃，本文的發布不幸顯得有些匆忙：https://www.inkhaven.blog/spring-26
^(^) 實際編寫這些分析代碼的時間縮短了遠不止 2 倍，但 4-5 小時反映了花在合理性檢查 Claude Code 輸出（如果沒有大量使用 Claude Code 就不會發生這種情況）以及人工檢查數據（未使用 AI 輔助）上的大量時間。

參與討論

— Lesswrong