N-Day-Bench：大型語言模型能否在真實程式碼庫中發現真實漏洞？

Hacker News·7 天前

N-Day-Bench 是一個自適應基準測試，旨在衡量尖端語言模型在發現其知識截止日期後才披露的真實世界漏洞（N-Days）方面的網路安全能力。

ndaybench.winfunc.com

methodology

leaderboard

traces

背景

N-Day-Bench 是一個由 Winfunc Research 開發的動態基準測試工具，旨在評估前沿大型語言模型（LLM）在真實程式碼庫中發現已知漏洞（N-Day）的能力。該測試透過每月更新 GitHub 安全諮詢中的案例，並讓模型在修補前的程式碼環境中進行探索，以確保測試集領先於模型的訓練截止日期，避免因數據洩漏導致模型僅憑記憶作答。

社群觀點

在 Hacker News 的討論中，社群對於 N-Day-Bench 的評測機制展現了高度興趣，但也對其自動化評分流程提出了不少質疑。部分開發者認為該基準測試的術語過於晦澀，懷疑其介紹文案是由 AI 生成，並質疑「模型評分模型」的可靠性。他們擔心若缺乏人工驗證，評測結果可能會產生大量雜訊且失去意義。對此，具備應用程式安全背景的用戶反駁指出，由於這些漏洞屬於已公開的 CVE，其驗證過程可以程式化處理，並非必須依賴人工介入。

關於測試設計的嚴謹性，有評論者指出目前的評測僅針對存在漏洞的程式碼，這可能無法反映真實世界的複雜度。他們建議應加入不含漏洞的對照組，以評估模型的「誤報率」。開發團隊對此表示認同，坦言在研究過程中發現模型極易產生誤報，未來將把誤報率納入評分標準。此外，也有人分享了實際應用經驗，提到曾利用 Gemini 成功挖掘出舊系統中隱藏的 SQL 注入漏洞並提取密碼雜湊，認為頂尖模型在網路安全領域的實戰能力已達到中階專業人士的水平。

在模型涵蓋範圍方面，社群展現出對開源模型的強烈期待。許多討論者希望能看到 Qwen、Gemma 或其他開源模型與 GPT 或 Claude 等封閉模型同場競技。甚至有 API 服務商主動提出願意贊助運算資源，協助將 Qwen 等高性能開源模型納入評測集。整體而言，社群雖然對自動化評測的細節有所保留，但普遍認可這種「動態更新」以對抗數據污染的測試方向。

你的個人知識庫

N-Day-Bench：大型語言模型能否在真實程式碼庫中發現真實漏洞？

背景

社群觀點

延伸閱讀