
AI學會為複雜系統建立簡化方程式
研究人員開發出一個AI系統,能夠發現準確描述複雜系統的簡化數學方程式。這項突破有潛力加速科學發現和對複雜現象的理解。
Google 今日發布了快速且便宜的 Gemini 3 Flash 模型,基於上個月發布的 Gemini 3,旨在搶走 OpenAI 的風頭。該公司還將其設為 Gemini 應用程式和搜尋中的 AI 模式的預設模型。
新的 Flash 模型是在 Google 發布 Gemini 2.5 Flash 模式 六個月後推出的,並帶來了顯著的改進。在基準測試中,Gemini 3 Flash 模型以顯著的優勢超越了其前代產品,並在某些指標上與 Gemini 3 Pro 和 GPT 5.2 等其他前沿模型的性能相媲美。
例如,在旨在測試跨領域專業知識的 Humanity’s Last Exam 基準測試 中,該模型在未使用工具的情況下得分為 33.7%。相比之下,Gemini 3 Pro 得分為 37.5%,Gemini 2.5 Flash 得分為 11%,新發布的 GPT-5.2 得分為 34.5%。
在多模態和推理基準測試 MMMU-Pro 中,新模型以 81.2% 的得分超越了所有競爭對手。
消費者推廣
Google 將在全球 Gemini 應用程式中將 Gemini 3 Flash 設定為預設模型,取代 Gemini 2.5 Flash。用戶仍然可以從模型選擇器中選擇 Pro 模型來處理數學和編碼問題。
該公司表示,新模型擅長識別多模態內容並根據內容提供答案。例如,您可以上傳您的匹克球短影片並尋求建議;您可以嘗試繪製草圖,讓模型猜測您正在繪製的內容;或者您可以上傳音訊錄音以獲取分析或生成測驗。
該公司還表示,該模型能更好地理解用戶查詢的意圖,並能生成包含圖像和表格等元素的更視覺化的答案。
Techcrunch 活動
舊金山 | 2026 年 10 月 13-15 日
您還可以使用新模型在 Gemini 應用程式中使用提示 創建應用程式原型。
Gemini 3 Pro 現已在美國向所有人開放搜尋,並且美國更多用戶可以透過搜尋使用 Nano Banana Pro 圖像模型。
企業和開發者可用性
Google 指出,JetBrains、Figma、Cursor、Harvey 和 Latitude 等公司已經在使用 Gemini 3 Flash 模型,該模型可透過 Vertex AI 和 Gemini Enterprise 取得。
對於開發者,該公司透過 API 和 Antigravity 提供該模型的預覽版本,Google 上個月發布的新編碼工具。
該公司表示,Gemini 3 Pro 在 SWE-bench 驗證編碼基準測試中得分為 78%,僅次於 GPT-5.2。它補充說,該模型非常適合影片分析、數據提取和視覺問答,並且由於其速度,它適用於快速且可重複的工作流程。

**圖片來源:**Google
模型定價為每 100 萬個輸入 token 0.50 美元,每 100 萬個輸出 token 3.00 美元。這比 Gemini Flash 2.5 的每 100 萬個輸入 token 0.30 美元和每 100 萬個輸出 token 2.50 美元略貴。但 Google 聲稱,新模型在性能上超越了 Gemini 2.5 Pro 模型,同時速度快了三倍。而且,對於思考任務,它平均比 2.5 Pro 少使用 30% 的 token。這意味著總體而言,對於某些任務,您可能會在 token 數量上節省成本。

**圖片來源:**Google
「我們將 Flash 定位為更像您的主力模型。因此,如果您查看此表格頂部的輸入和輸出價格,從輸入和輸出價格的角度來看,Flash 是一個便宜得多的選擇。因此,它實際上為許多公司提供了批量處理任務的機會,」Gemini 模型產品總監兼負責人 Tulsee Doshi 在一次簡報會上告訴 TechCrunch。
自 Gemini 3 發布以來,Google 在其 API 上每天處理超過 1 兆個 token,這是在與 OpenAI 激烈競爭和性能戰的背景下進行的。
本月早些時候,據報導,Sam Altman 在 ChatGPT 的流量下降 後,向 OpenAI 團隊發送了一份內部「Code Red」備忘錄,因為 Google 在消費者市場的份額不斷增長。之後,OpenAI 發布了 GPT-5.2 和 一個新的圖像生成模型。OpenAI 還吹噓其不斷增長的企業用戶群,並表示自 2024 年 11 月以來,ChatGPT 的訊息量已 增長了 8 倍。
雖然 Google 並未直接回應與 OpenAI 的競爭,但表示新模型的發布正在挑戰所有公司保持活躍。
「關於業界發生的事情,這些模型都在不斷變得出色,互相挑戰,推動前沿。我認為同樣出色的是,隨著公司發布這些模型,」Doshi 說。
「我們還在引入新的基準測試和新的模型評估方法。這也鼓勵著我們。」
Ivan 負責 TechCrunch 的全球消費科技發展。他常駐印度,曾任職於 Huffington Post 和 The Next Web 等出版物。
您可以透過發送電子郵件至 [email protected] 或透過 Signal 上的加密訊息 ivan.42 與 Ivan 聯繫或驗證其外展。
相關文章
其他收藏 · 1