
擴展社會科學研究
OpenAI 發布了 GABRIEL,一個利用 GPT 將質性文本和圖像轉化為量化數據的開源工具包,幫助社會科學家大規模分析研究。
2026年2月13日
擴展社會科學研究
一種新的工具,幫助研究人員將定性數據轉化為可供分析的數字。
在 OpenAI,我們工作的核心部分是使科學家能夠更快地行動並解決更困難的問題。今天,我們的經濟研究團隊發布了 GABRIEL:一個開源工具包,它使用 GPT 將非結構化文本和圖像轉換為定量測量。它專為經濟學家、社會科學家和數據科學家設計,用於大規模研究定性數據。
定性數據講述了關於世界最豐富的故事——人們說什麼、寫什麼、教什麼、爭論什麼以及體驗什麼。它涵蓋了從教學大綱和訪談到社交媒體和照片的一切。它有著巨大的數量。但是,將這種類型的數據轉化為嚴謹的證據非常耗時。通常根本不可行。在太多情況下,社會科學家被迫放棄重要的研究途徑,不是因為數據不存在,而是因為不可能進行分析。
GABRIEL 的構建旨在使定性數據更容易獲取。它允許研究人員用日常用語描述他們想要測量的內容——例如“這份職位列表的家庭友好程度如何?”——然後將相同的問題一致地應用於成千上萬(或數百萬)份文檔,並為每個文檔返回一個分數。這讓研究人員可以減少在重複性數據標記上花費的時間,而將更多時間花在實際需要專業知識的工作上:選擇要測量的內容、驗證結果以及得出謹慎的結論。
例如,GABRIEL 可以分析大量的科學論文,以了解使用了哪些具體方法以及它們如何隨時間演變。它可以查看課程大綱,以衡量對不同科目或技能的關注程度。它可以提取歐洲每個小鎮的結構化歷史細節,或者檢查大量的客戶評論並發現人們最重視什麼的模式。在我們的論文(在新視窗中開啟)中,我們對 GPT 在跨多種用例標記定性數據方面的能力進行了基準測試,發現它非常準確。
除了這種類型的測量之外,GABRIEL 還提供了研究人員經常需要的實用工具。這些工具包括合併數據集(即使列不匹配)、智能去重、段落編碼、構思新的科學理論以及從文本中去除個人身份信息以保護隱私。
GABRIEL 現在可以作為一個開源 Python 庫(在新視窗中開啟)使用,並提供一個入門教程筆記本(在新視窗中開啟)。它的設計要求最低限度的技術背景。我們將根據學術界的反饋不斷改進 GABRIEL。我們希望這個工具能幫助更多的研究人員將豐富的定性數據和人類故事融入到他們的工作中。
繼續閱讀

研究 2026年2月13日

全球事務 2026年2月9日

全球事務 2026年2月6日
— OpenAI
相關文章