理解 AI 與學習成效的新工具

OpenAI·大約 1 個月前

OpenAI 推出學習成效測量套件，旨在評估 AI 在不同教育環境中隨時間推移對學生學習產生的影響。

2026 年 3 月 4 日

理解 AI 與學習成效的新工具

推進 AI 在各種學習環境中影響力的衡量方式

教育是 AI 最具前景的前沿領域之一。透過像 ChatGPT 這樣的工具，任何學生在任何地點、任何時間都能獲得個人化的學習支持。

但教育界對於 AI 對學習成效影響的理解仍處於早期階段。去年，我們的團隊開始研究「學習模式」（study mode）等工具的使用情況，並發現學生的表現有顯著提升。但我們的研究也提出了一個重要的問題：我們該如何評估 AI 如何隨著時間影響學習者的進步，而不僅僅是看最終考試成績？

這是一個更廣泛的生態系統挑戰。迄今為止，大多數研究方法都集中在狹隘的表現信號上（例如測試分數），缺乏評估學生在現實環境中如何實際利用 AI 學習，以及這種使用方式如何隨著時間塑造學習成果的能力。

為了填補這一空白，我們開發了「學習成效測量套件」（Learning Outcomes Measurement Suite），這是一個與愛沙尼亞塔爾圖大學（University of Tartu）以及史丹佛大學學習加速器（Stanford Accelerator for Learning）的 SCALE 倡議共同創建的框架，旨在支持跨不同教育背景的學習成效縱向測量。

目前正透過隨機對照試驗進行廣泛的驗證，並計劃與 OpenAI 的學習研究生態系統「學習實驗室」（Learning Lab）的創始機構進行進一步研究，包括來自亞利桑那州立大學、倫敦大學學院知識實驗室（UCL Knowledge Lab）和麻省理工學院媒體實驗室（MIT Media Lab）的研究人員（基於先前的合作研究）。

今天，我們將分享該測量套件運作方式的概覽及其重要性。隨著時間推移，我們打算發布更多研究成果，並將該測量套件作為公共資源開放給全球的學校、大學和教育系統。

重點摘要

起源與早期研究

當學生使用 AI 工具進行研究和學習時，其意義可能大不相同——從向 AI 尋求快速答案，到將其作為導師般的引導，循序漸進地解決問題。為了鼓勵用戶以支持深度理解和技能構建的方式與 ChatGPT 互動，OpenAI 於去年推出了「學習模式」。在底層，學習模式由我們與教師、科學家和教育學專家合作編寫的自定義系統指令驅動，以反映一組支持真正學習而非僅僅提供答案的核心行為——利用鷹架式引導（scaffolding）、理解度檢查和引導式練習。

為了測試這種符合教育學原則的 AI 互動風格是否能轉化為更好的學習成效，我們對 300 多名準備神經科學和微觀經濟學考試的大學生進行了一項隨機研究。雖然分析仍在進行中，但早期結果讓我們有信心，透過「學習模式」等功能鼓勵的教育學導向 AI 互動風格，可以改善學習成效。但這項研究也揭示了一個重要的現實：真正重要的是這些收益和相關的生產性行為是否能長期保持。

研究設計

參與者被分配到三個組別之一：對照組使用傳統的線上資源（如 Google 搜尋和 YouTube）進行學習，並禁用 AI 生成的概覽功能；另外兩個組別則可以使用兩種「學習模式」變體之一，這些變體旨在以略有不同的方式引導學生完成學習過程。研究預先收集了基準測試和入學調查，以調整先前課程接觸程度、學習習慣、學術信心以及對 AI 工具熟悉程度的差異。學生在每次考試前完成定時的學習模式課程，兩種學習模式變體在不同科目間進行平衡。

此設置旨在反映現實世界的學習條件，而非嚴格控制的實驗室環境。參與度與考試表現不掛鉤，且並非所有學生在名義上的 40 分鐘課程中都以相同程度使用學習模式。這使我們能夠衡量並報告「意向處理」（ITT）效應，即在現實部署條件下提供該工具的使用權所產生的影響——換句話說，即提供學習模式的因果影響，並承認實際參與度可能有所不同。

研究結果

我們分別衡量了每門考試的表現。在我們的隨機研究中，各科目的進步並不統一，參與者對學習模式的參與程度也各不相同。

學習模式（變體 A 與 B）對比對照組（無 AI 組）：調整後的平均考試分數

當我們分別將每個學習模式變體與對照組進行比較時，效果保持一致。

雖然這反映了現實世界的變異性，但也凸顯了傳統學習成效衡量方式的深層局限性。

大多數現有的評估方法依賴於在短時間窗內評估的固定干預，並以測試分數或最終論文作為主要信號。這些方法並非旨在捕捉 AI 在實踐中影響學習的核心機制：隨著學習者自身的策略、偏好和學習習慣而演變的持續性、個人化互動。它們也無法揭示某一能力的提升（如短期記憶）是否伴隨著其他能力的權衡（如持久性、自主動機或創造性問題解決能力）。因此，它們忽略了最終決定 AI 是否能有意義地改善學習的縱向認知效應。

由於各國、各課程和各機構目標的學習環境差異巨大，單次研究的結果很少能推廣到所有系統。因此，衡量方法必須具有足夠的靈活性，以便不同的教育系統能夠定義其背景下的成功標準，根據自身標準評估 AI，並據此進行迭代。

構建更好的衡量系統

基於 OpenAI 學習模式研究的經驗，我們一直在構建一個結構化的衡量系統，以大規模衡量 AI 對學習者的影響，並建立一個根據這些結果改進模型的機制。它基於三個信號：模型如何表現、學習者如何反應，以及隨時間產生的可衡量認知結果。它包括：

當這些部分結合在一起時，我們稱之為「學習成效測量套件」。

它能產生教育生態系統可以利用的重要信號：學習時刻的結構化視圖、顯示各群體成效隨時間變化的儀表板、模型對照教學和輔導準則的表現指標，以及與標準化評估和簡短學習者問卷一致的成效衡量指標。在可行情況下，它還可以納入合作夥伴提供的基準數據（ground truth），如考試分數、課堂觀察或出勤率。

流程圖說明學習成效測量工作流，AI 透過分析、評估和驗證步驟處理數據，然後提供洞察以支持學習者。

所有數據均已去識別化

它還使我們的合作夥伴能夠了解隨時間使用 AI 學習的深層認知影響，因為我們能夠透過此系統追蹤對以下能力的影響：

這反映了我們的整體努力，即不單純關注狹隘的學習成效定義（分數上升），而是關注支撐學習的整體能力。這也反映了我們的信念：在優化目標方面沒有萬靈丹，系統和教育工作者需要被賦予權力，以引導符合教育學最佳實踐和方法的權衡。

未來展望

在廣泛開放使用之前，我們正透過大規模研究驗證學習成效測量套件。這項工作正與塔爾圖大學和史丹佛大學的 SCALE 倡議合作，在愛沙尼亞等國家級合作夥伴中展開，該測量套件正對近 20,000 名 16-18 歲的學生進行為期數月的研發。學生的使用將與當地領導者密切合作，以確保安全並符合當地課程要求。

這項工作建立在更廣泛的合作研究基礎之上。除了透過學習實驗室的創始夥伴進行的成效研究外，OpenAI 還支持學習與勞動力交匯處的研究——探討 AI 如何塑造學生的學術路徑、職業決策，以及機構支持負責任採用的方式。這項研究正在博科尼大學（Bocconi University）、Innova Schools、達特茅斯學院塔克商學院（Tuck School of Business at Dartmouth）、聖地牙哥州立大學、石溪大學等機構進行。

隨著我們對學生如何利用 AI 進行最佳學習開展長期研究，我們打算分享研究結果，並與更廣泛的教育生態系統合作，確保 AI 惠及各地的學習者。

有興趣接收此項工作更新的人士可以在此註冊。

作者

延伸閱讀

pnnl > art card

全球事務，2026 年 2 月 26 日

Figma > Card Image

全球事務，2026 年 2 月 26 日

Introducing Frontier alliance partners > Card image

全球事務，2026 年 2 月 23 日

https://openai.com/index/understanding-ai-and-learning-outcomes