為現實世界設計合成數據集：機制設計與第一性原理推理

Google Research·大約 8 小時前

AI 生成摘要

Google 研究部門推出了 Simula，這是一個優先考慮推理的框架，將合成數據生成重新定義為數據集層級的機制設計，以解決專業 AI 領域中數據稀缺的問題。

為現實世界設計合成數據集：機制設計與第一性原理推理

2026 年 4 月 16 日

Tim R. Davidson（學生研究員）與 Hamza Harkous（Google 高級主任研究科學家）

為了應對專業化 AI 所需數據稀缺的問題，我們推出了 Simula，這是一個將合成數據生成重新定義為「數據集級別機制設計」的框架。透過利用推理從第一性原理構建數據集，Simula 實現了對覆蓋範圍、複雜度和質量的精細控制，為隱私敏感或數據匱乏的領域提供可擴展的生成方案。

快速連結

通用 AI 模型的快速進步得益於豐富的網路數據。然而，AI 的廣泛整合將需要模型專精於新型、罕見且隱私敏感的應用，而這些領域的數據本質上是稀缺或難以獲取的。

為了彌補這一差距，依賴現實世界的數據面臨重大限制：

雖然合成數據是一個充滿前景的替代方案，但目前的生成方法往往缺乏生產規模部署所需的嚴謹性。許多現有方法依賴手動提示詞、演化演算法，或來自目標分佈的大量種子數據。

這些方法限制了可擴展性（由於依賴種子或人力）、可解釋性（由於黑箱演化步驟）以及控制力（由於生成參數相互糾纏）。最關鍵的是，它們通常在樣本層級運作——一次優化一個數據點——而不是將數據集作為一個整體進行設計。

為了達成目標，我們需要將合成數據生成重新定義為一個機制設計問題。生產用例需要的不僅僅是「更多數據」；它們需要精細的資源分配，使覆蓋範圍、複雜度和質量成為獨立可控的變量。

Simula：推理優先的框架

在我們發表於《機器學習研究交易》（Transactions on Machine Learning Research）的論文《推理驅動的合成數據生成與評估》中，我們介紹了 Simula。與依賴不透明過程的方法不同，Simula 採用「推理優先」的方法論，從第一性原理構建整個數據集。這種方法是無種子且具備代理特性的，允許生成能力隨著底層模型推理能力的提升而自然進步。

控制數據生成的維度

Simula 將生成過程分解為四個步驟中截然不同且可控的維度：

為了在不依賴人工種子數據的情況下繪製目標領域的概念空間，Simula 採用了推理驅動的遞迴擴展過程。在每個深度級別，系統會生成多個候選子類別（提案），隨後由批判模型進行評估、合併和篩選。這種迭代的「提案與改進」循環動態地構建了一個密集的層次化分類法——例如網路威脅情報樹——作為確保全局數據集多樣性的基礎支架。

有了這套深度分類法，我們現在可以開始規劃感興趣的覆蓋空間，並優化 (2) 局部多樣性、(3) 複雜度以及 (4) 質量：

局部多樣化：為了確保特定概念內部的變化，我們採用了局部多樣性機制。系統生成「元提示詞」（meta-prompts）——即源自分類節點的情境——然後產生該情境的多個不同實例。這防止了模式崩潰，確保像「SQL 注入」這樣的概念是通過多樣化的框架而非雷同的重複來呈現。
複雜化：複雜度被視為一個正交維度。我們使用「複雜化」步驟，將可配置比例的元提示詞改進得更詳盡或更困難。這允許從業者在不改變語義覆蓋範圍的情況下，調整數據集的難度分佈。
質量檢查：為了在無需人工干預的情況下確保正確性，我們採用了「雙重批判」循環，獨立評估答案是否正確。這種雙重驗證有助於減輕「順從性」（sycophancy，即模型傾向於同意聽起來合理的輸出）並確保高質量的標籤。

Simula 將合成數據創建視為一個機制設計問題，將過程分解為不同且可控的維度。首先，全局多樣化利用分類法確保廣泛的領域覆蓋。其次，局部多樣化使用 N 選 1 的元提示技術來實例化不同的場景並防止模式崩潰。第三，複雜化可選擇性地改進這些場景以提升難度和細節。最後，質量檢查利用雙重批判循環來驗證所有輸出是否符合語義和結構約束。

應對評估挑戰

合成數據的評估從根本上具有挑戰性，因為其核心目標具有模糊性，且標準指標與實際效用之間存在脫節。像基於嵌入的餘弦距離等標準指標雖能提供高層級信號，但提供的可操作見解有限。

為了使評估更具魯棒性，我們在此也應用了推理優先的方法。具體而言，我們引入了基於推理的指標——分類覆蓋率和校準複雜度評分（後者使用 LLM 驅動的批次比較為單個數據點分配西洋棋式的「Elo 等級分」），以更好地捕捉多樣性和難度的細微差別。

沒有萬能方案

我們使用 Gemini 2.5 Flash 作為教師模型，Gemma-3 4B 作為學生模型，在五個不同的領域評估了 Simula——從網路安全（來自 CTIBench 的 CTI-MCQ、CTI-RCM）和法律推理（LEXam），到標準 AI 模型評估，如小學數學（GSM8k）和多語言學術知識（Global MMLU）。為每個領域生成了多達 51.2 萬個數據點的數據集，我們的結果揭示了一個關鍵現實：沒有單一的「最佳」數據生成方式，且「好」數據與下游性能之間的關係具有高度的特異性。

雖然這是一個為了可複製、系統性評估而選擇的蒸餾設置，但所學到的核心經驗超出了這一特定配置。

Simula3_結果圖表

不同數據集的下游性能。

從研究到現實世界的影響

Simula 的建立不僅是為了優化基準測試，它還作為 Google 各項現實世界、業務關鍵應用的基礎數據引擎。在尖端 AI 領域，它是 Gemma 生態系統的關鍵推動者——包括 ShieldGemma、FunctionGemma 和 MedGemma 等專業模型——同時為裝置端和伺服器端的 Gemini 安全分類器提供主要的合成數據骨幹。除了基礎模型，Simula 在發布用戶保護功能方面也發揮了重要作用，包括 Android 通話的 AI 驅動詐騙檢測和 Google 訊息中的垃圾郵件過濾。此外，Simula 正積極推動新的應用研究，促進企業安全的機器學習民主化框架（透過合成真實的攻擊場景），並實現諸如透過結構化、推理驅動的數據集生成來教導 AI 模型閱讀地圖等突破。

合成數據在專業化 AI 中的核心地位

AI 的進步正處於一個交匯點。下一波突破（在科學、安全和法律領域）所需的專業數據，不太可能由人類以必要的規模產生。合成數據已準備好在這些飛躍中發揮核心作用，但前提是必須以嚴謹的方法對待。最終，Simula 的價值在於展示了機制設計如何使數據生成成為一門可控的科學。這一藍圖為構建下一代 AI 所需的高保真數據集提供了一條清晰的路徑——無論我們是在將知識蒸餾到邊緣設備、透過強化學習訓練代理，還是系統性地探索複雜的邊緣案例。

致謝

本研究由 Tim R. Davidson、Benoit Seguin、Enrico Bacis、Cesar Ilharco 和 Hamza Harkous 共同撰寫。Simula 框架由 Hamza 和 Benoit 創立並領導。特別感謝 Tim 在擔任學生研究員期間做出的重大貢獻。我們也要感謝 Jan Keller 的 TPM 支持，以及 Coran Corbett 和 Ninny Wan 在技術與產品合作方面的關鍵貢獻。最後，感謝 Nina Taft、Amanda Walker 和 Pankaj Rohatgi 的贊助與支持。