
哈佛研究顯示:AI 提供的診斷比急診室醫生更準確
一項由哈佛領導的研究發現,OpenAI 的 o1 模型在診斷準確性上超越了急診室醫生,特別是在資訊有限的初步檢傷分類階段表現尤為出色。
一項新研究探討了大型語言模型在各種醫療情境下的表現,包括真實的急診室案例——其中至少有一個模型似乎比人類醫生更準確。
該研究本週發表於《科學》(Science)雜誌,由哈佛醫學院和貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center)的醫生與計算機科學家組成的研究團隊共同完成。研究人員表示,他們進行了多項實驗,以衡量 OpenAI 的模型與人類醫生的對比情況。
在一項實驗中,研究人員針對 76 名進入貝斯以色列急診室的患者,將兩位主治醫生提供的診斷與 OpenAI 的 o1 和 4o 模型生成的診斷進行比較。這些診斷由另外兩位主治醫生進行評估,他們並不知道哪些診斷來自人類,哪些來自 AI。
研究指出:「在每個診斷時間點,o1 的表現要麼名義上優於兩位主治醫生和 4o,要麼與之持平。」並補充說,這些差異「在第一個診斷時間點(初始急診檢傷分類)尤為明顯,因為此時關於患者的資訊最少,且做出正確決策的緊迫性最高。」
在哈佛醫學院關於該研究的新聞稿中,研究人員強調他們「完全沒有對數據進行預處理」——AI 模型獲得的資訊與診斷當時電子病歷中可用的資訊完全相同。
憑藉這些資訊,o1 模型在 67% 的檢傷案例中成功提供了「準確或非常接近的診斷」,相比之下,一位醫生提供準確或接近診斷的比例為 55%,而另一位醫生則為 50%。
哈佛醫學院 AI 實驗室負責人、該研究的主要作者之一 Arjun Manrai 在新聞稿中表示:「我們針對幾乎所有基準測試了該 AI 模型,它超越了之前的模型以及我們的醫生基準線。」
在 Disrupt 會見您的下一位投資者或投資組合新創公司
您的下一輪融資。您的下一位員工。您的下一個突破機會。盡在 TechCrunch Disrupt 2026,屆時將有 10,000 多名創始人、投資者和科技領袖齊聚一堂,參加為期三天、超過 250 場的實戰會議、強有力的引薦以及定義市場的創新。立即註冊,最高可節省 410 美元。
在 Disrupt 會見您的下一位投資者或投資組合新創公司
您的下一輪融資。您的下一位員工。您的下一個突破機會。盡在 TechCrunch Disrupt 2026,屆時將有 10,000 多名創始人、投資者和科技領袖齊聚一堂,參加為期三天、超過 250 場的實戰會議、強有力的引薦以及定義市場的創新。立即註冊,最高可節省 410 美元。
需要明確的是,該研究並未聲稱 AI 已準備好在急診室做出真正的生死抉擇。相反,研究指出,這些發現顯示「迫切需要進行前瞻性試驗,以在現實世界的患者護理環境中評估這些技術」。
研究人員還指出,他們僅研究了模型在提供文本資訊時的表現,且「現有研究表明,目前的基礎模型在處理非文本輸入的推理方面更受限制」。
貝斯以色列醫院醫生、同時也是該研究主要作者之一的 Adam Rodman 告訴《衛報》(The Guardian),目前圍繞 AI 診斷「還沒有正式的問責框架」,而且患者仍然「希望由人類引導他們做出生死抉擇,並引導他們度過具有挑戰性的治療決策」。
相關文章