
Epoch 證實 GPT-5.4 Pro 已解決前沿數學開放問題
GPT-5.4 Pro 成功解決了 FrontierMath 基準測試中關於超圖的 Ramsey 風格開放問題,這項成就先前被估計需要專家級數學家花費一到三個月才能完成。
背景
Epoch AI 近期證實,GPT-5.4 Pro 成功解決了一個關於超圖(Hypergraph)拉姆齊理論(Ramsey-style)的前沿數學開放問題。該問題涉及改進特定序列 $H(n)$ 的下界構造,過去曾有 5 到 10 位專家嘗試攻克,預估人類專家需耗時一至三個月才能完成。這項突破不僅獲得了問題貢獻者 Will Brian 的認可,相關解法也將被整理並發表於學術期刊,象徵著人工智慧在處理具備高度複雜性且尚未解決的數學難題上邁出了重要一步。
社群觀點
在 Hacker News 的討論中,社群成員對於 AI 展現出的原創性貢獻感到振奮。多數觀點認為,這項成就無疑證明了 AI 具備產生新穎知識的能力,且這種趨勢在未來將會更加頻繁。令人驚訝的是,解決此問題並不一定需要極高運算資源的並行思考模型,因為後續測試顯示,包含 Opus 4.6 (max) 與 Gemini 3.1 Pro 在內的多款模型,在特定的測試架構下同樣能解出答案。然而,這也引發了關於模型表現穩定性的討論,例如有網友指出 Gemini 3 DeepThink 反而未能解決該問題,顯示出不同模型邏輯推理能力的差異。
討論的另一個核心焦點在於所謂的「腳手架」(Scaffold)架構。社群成員指出,模型之所以能發揮潛力,很大程度上取決於圍繞模型建立的外部支持系統。這些系統可能包含多代理人協作、自定義系統提示詞、自動批判機制或特定的工具調用。網友們認為,這種架構就像是為證明題設計的單元測試框架,能引導模型進行更深層次的思考。雖然這使得不同模型間的性能比較變得更加模糊且複雜,但也傳遞出一個積極訊號:只要提供適當的工具支持,現有的模型已經具備推動前沿數學進展的實力。
此外,社群對於 AI 在學術研究中的角色轉變抱持期待。Will Brian 提到 AI 的解法完美地消除了先前構造中的低效率,並鏡射了上界構造的複雜性,這種「機器啟發人類」的模式被視為未來科學研究的新常態。網友們樂觀地預測,隨著這類支持工具的完善,人類將能利用 AI 快速突破更多長期停滯的數學瓶頸,開啟更多研究路徑。
延伸閱讀
在討論中提到的 FrontierMath 是一個專門測試模型在開放數學問題上表現的評測架構。此外,Epoch AI 官方釋出的對話紀錄與 GPT-5.4 Pro 的最終書面報告,詳細記錄了 AI 如何從初步構思到最終完善證明的完整邏輯過程,是理解 AI 推理路徑的重要參考資源。