哈佛研究顯示：AI 提供的診斷比急診室醫生更準確

Techcrunch·3 天前

一項由哈佛領導的研究發現，OpenAI 的 o1 模型在診斷準確性上超越了急診室醫生，特別是在資訊有限的初步檢傷分類階段表現尤為出色。

一項新研究探討了大型語言模型在各種醫療情境下的表現，包括真實的急診室案例——其中至少有一個模型似乎比人類醫生更準確。

該研究本週發表於《科學》（Science）雜誌，由哈佛醫學院和貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center）的醫生與計算機科學家組成的研究團隊共同完成。研究人員表示，他們進行了多項實驗，以衡量 OpenAI 的模型與人類醫生的對比情況。

在一項實驗中，研究人員針對 76 名進入貝斯以色列急診室的患者，將兩位主治醫生提供的診斷與 OpenAI 的 o1 和 4o 模型生成的診斷進行比較。這些診斷由另外兩位主治醫生進行評估，他們並不知道哪些診斷來自人類，哪些來自 AI。

研究指出：「在每個診斷時間點，o1 的表現要麼名義上優於兩位主治醫生和 4o，要麼與之持平。」並補充說，這些差異「在第一個診斷時間點（初始急診檢傷分類）尤為明顯，因為此時關於患者的資訊最少，且做出正確決策的緊迫性最高。」

在哈佛醫學院關於該研究的新聞稿中，研究人員強調他們「完全沒有對數據進行預處理」——AI 模型獲得的資訊與診斷當時電子病歷中可用的資訊完全相同。

憑藉這些資訊，o1 模型在 67% 的檢傷案例中成功提供了「準確或非常接近的診斷」，相比之下，一位醫生提供準確或接近診斷的比例為 55%，而另一位醫生則為 50%。

哈佛醫學院 AI 實驗室負責人、該研究的主要作者之一 Arjun Manrai 在新聞稿中表示：「我們針對幾乎所有基準測試了該 AI 模型，它超越了之前的模型以及我們的醫生基準線。」

需要明確的是，該研究並未聲稱 AI 已準備好在急診室做出真正的生死抉擇。相反，研究指出，這些發現顯示「迫切需要進行前瞻性試驗，以在現實世界的患者護理環境中評估這些技術」。

研究人員還指出，他們僅研究了模型在提供文本資訊時的表現，且「現有研究表明，目前的基礎模型在處理非文本輸入的推理方面更受限制」。

貝斯以色列醫院醫生、同時也是該研究主要作者之一的 Adam Rodman 告訴《衛報》（The Guardian），目前圍繞 AI 診斷「還沒有正式的問責框架」，而且患者仍然「希望由人類引導他們做出生死抉擇，並引導他們度過具有挑戰性的治療決策」。