newsence
理解 AI 與學習成效的新工具

理解 AI 與學習成效的新工具

OpenAI·大約 1 個月前

OpenAI 推出學習成效測量套件,旨在評估 AI 在不同教育環境中隨時間推移對學生學習產生的影響。

2026 年 3 月 4 日

理解 AI 與學習成效的新工具

推進 AI 在各種學習環境中影響力的衡量方式

教育是 AI 最具前景的前沿領域之一。透過像 ChatGPT 這樣的工具,任何學生在任何地點、任何時間都能獲得個人化的學習支持。

但教育界對於 AI 對學習成效影響的理解仍處於早期階段。去年,我們的團隊開始研究「學習模式」(study mode)等工具的使用情況,並發現學生的表現有顯著提升。但我們的研究也提出了一個重要的問題:我們該如何評估 AI 如何隨著時間影響學習者的進步,而不僅僅是看最終考試成績?

這是一個更廣泛的生態系統挑戰。迄今為止,大多數研究方法都集中在狹隘的表現信號上(例如測試分數),缺乏評估學生在現實環境中如何實際利用 AI 學習,以及這種使用方式如何隨著時間塑造學習成果的能力。

為了填補這一空白,我們開發了「學習成效測量套件」(Learning Outcomes Measurement Suite),這是一個與愛沙尼亞塔爾圖大學(University of Tartu)以及史丹佛大學學習加速器(Stanford Accelerator for Learning)的 SCALE 倡議共同創建的框架,旨在支持跨不同教育背景的學習成效縱向測量。

目前正透過隨機對照試驗進行廣泛的驗證,並計劃與 OpenAI 的學習研究生態系統「學習實驗室」(Learning Lab)的創始機構進行進一步研究,包括來自亞利桑那州立大學、倫敦大學學院知識實驗室(UCL Knowledge Lab)和麻省理工學院媒體實驗室(MIT Media Lab)的研究人員(基於先前的合作研究)。

今天,我們將分享該測量套件運作方式的概覽及其重要性。隨著時間推移,我們打算發布更多研究成果,並將該測量套件作為公共資源開放給全球的學校、大學和教育系統。

重點摘要

起源與早期研究

當學生使用 AI 工具進行研究和學習時,其意義可能大不相同——從向 AI 尋求快速答案,到將其作為導師般的引導,循序漸進地解決問題。為了鼓勵用戶以支持深度理解和技能構建的方式與 ChatGPT 互動,OpenAI 於去年推出了「學習模式」。在底層,學習模式由我們與教師、科學家和教育學專家合作編寫的自定義系統指令驅動,以反映一組支持真正學習而非僅僅提供答案的核心行為——利用鷹架式引導(scaffolding)、理解度檢查和引導式練習。

為了測試這種符合教育學原則的 AI 互動風格是否能轉化為更好的學習成效,我們對 300 多名準備神經科學和微觀經濟學考試的大學生進行了一項隨機研究。雖然分析仍在進行中,但早期結果讓我們有信心,透過「學習模式」等功能鼓勵的教育學導向 AI 互動風格,可以改善學習成效。但這項研究也揭示了一個重要的現實:真正重要的是這些收益和相關的生產性行為是否能長期保持。

研究設計

參與者被分配到三個組別之一:對照組使用傳統的線上資源(如 Google 搜尋和 YouTube)進行學習,並禁用 AI 生成的概覽功能;另外兩個組別則可以使用兩種「學習模式」變體之一,這些變體旨在以略有不同的方式引導學生完成學習過程。研究預先收集了基準測試和入學調查,以調整先前課程接觸程度、學習習慣、學術信心以及對 AI 工具熟悉程度的差異。學生在每次考試前完成定時的學習模式課程,兩種學習模式變體在不同科目間進行平衡。

此設置旨在反映現實世界的學習條件,而非嚴格控制的實驗室環境。參與度與考試表現不掛鉤,且並非所有學生在名義上的 40 分鐘課程中都以相同程度使用學習模式。這使我們能夠衡量並報告「意向處理」(ITT)效應,即在現實部署條件下提供該工具的使用權所產生的影響——換句話說,即提供學習模式的因果影響,並承認實際參與度可能有所不同。

研究結果

我們分別衡量了每門考試的表現。在我們的隨機研究中,各科目的進步並不統一,參與者對學習模式的參與程度也各不相同。

學習模式(變體 A 與 B)對比對照組(無 AI 組):調整後的平均考試分數

當我們分別將每個學習模式變體與對照組進行比較時,效果保持一致。

雖然這反映了現實世界的變異性,但也凸顯了傳統學習成效衡量方式的深層局限性。

大多數現有的評估方法依賴於在短時間窗內評估的固定干預,並以測試分數或最終論文作為主要信號。這些方法並非旨在捕捉 AI 在實踐中影響學習的核心機制:隨著學習者自身的策略、偏好和學習習慣而演變的持續性、個人化互動。它們也無法揭示某一能力的提升(如短期記憶)是否伴隨著其他能力的權衡(如持久性、自主動機或創造性問題解決能力)。因此,它們忽略了最終決定 AI 是否能有意義地改善學習的縱向認知效應。

由於各國、各課程和各機構目標的學習環境差異巨大,單次研究的結果很少能推廣到所有系統。因此,衡量方法必須具有足夠的靈活性,以便不同的教育系統能夠定義其背景下的成功標準,根據自身標準評估 AI,並據此進行迭代。

構建更好的衡量系統

基於 OpenAI 學習模式研究的經驗,我們一直在構建一個結構化的衡量系統,以大規模衡量 AI 對學習者的影響,並建立一個根據這些結果改進模型的機制。它基於三個信號:模型如何表現、學習者如何反應,以及隨時間產生的可衡量認知結果。它包括:

當這些部分結合在一起時,我們稱之為「學習成效測量套件」。

它能產生教育生態系統可以利用的重要信號:學習時刻的結構化視圖、顯示各群體成效隨時間變化的儀表板、模型對照教學和輔導準則的表現指標,以及與標準化評估和簡短學習者問卷一致的成效衡量指標。在可行情況下,它還可以納入合作夥伴提供的基準數據(ground truth),如考試分數、課堂觀察或出勤率。

 流程圖說明學習成效測量工作流,AI 透過分析、評估和驗證步驟處理數據,然後提供洞察以支持學習者。

所有數據均已去識別化

它還使我們的合作夥伴能夠了解隨時間使用 AI 學習的深層認知影響,因為我們能夠透過此系統追蹤對以下能力的影響:

這反映了我們的整體努力,即不單純關注狹隘的學習成效定義(分數上升),而是關注支撐學習的整體能力。這也反映了我們的信念:在優化目標方面沒有萬靈丹,系統和教育工作者需要被賦予權力,以引導符合教育學最佳實踐和方法的權衡。

未來展望

在廣泛開放使用之前,我們正透過大規模研究驗證學習成效測量套件。這項工作正與塔爾圖大學和史丹佛大學的 SCALE 倡議合作,在愛沙尼亞等國家級合作夥伴中展開,該測量套件正對近 20,000 名 16-18 歲的學生進行為期數月的研發。學生的使用將與當地領導者密切合作,以確保安全並符合當地課程要求。

這項工作建立在更廣泛的合作研究基礎之上。除了透過學習實驗室的創始夥伴進行的成效研究外,OpenAI 還支持學習與勞動力交匯處的研究——探討 AI 如何塑造學生的學術路徑、職業決策,以及機構支持負責任採用的方式。這項研究正在博科尼大學(Bocconi University)、Innova Schools、達特茅斯學院塔克商學院(Tuck School of Business at Dartmouth)、聖地牙哥州立大學、石溪大學等機構進行。

隨著我們對學生如何利用 AI 進行最佳學習開展長期研究,我們打算分享研究結果,並與更廣泛的教育生態系統合作,確保 AI 惠及各地的學習者。

有興趣接收此項工作更新的人士可以在此註冊。

作者

延伸閱讀

pnnl > art card

全球事務,2026 年 2 月 26 日

Figma > Card Image

全球事務,2026 年 2 月 26 日

Introducing Frontier alliance partners > Card image

全球事務,2026 年 2 月 23 日

https://openai.com/index/understanding-ai-and-learning-outcomes