OpenAI o1 模型診斷急診患者準確率達 67%，優於分診醫生的 50-55%

Hacker News·3 天前

一項發表於《科學》雜誌的哈佛研究發現，OpenAI 的 o1 推理模型在壓力巨大的急診分診場景中，診斷準確率超越了急診室醫生。雖然人工智慧在處理文本數據的臨床推理上表現優異，但研究人員強調，它將作為強大的第二意見工具，而非取代人類醫生。

ai outperforms doctors in harvard trial of emergency triage diagnoses

背景

哈佛醫學院的一項最新研究顯示，OpenAI 的 o1 推理模型在急診室分流診斷的表現上超越了人類醫生。該研究針對波士頓某醫院的 76 名患者進行測試，在僅提供電子病歷摘要的情況下，AI 的診斷準確率達到 67%，高於醫生的 50% 至 55%。研究人員認為，這標誌著醫療技術的深刻變革，AI 未來將與醫護人員及患者形成「三方協作」的醫療模式。

社群觀點

Hacker News 的討論首先聚焦於研究的時間線與技術版本。有網友指出 o1 模型雖然在 2024 年發布，但在技術快速更迭的背景下，這項研究可能經歷了較長的審稿與發表過程，其預印本早在 2024 年底就已出現。這引發了關於 AI 發展速度是否已超越學術研究週期的討論，因為當研究正式發表時，模型可能已經過數次迭代。

針對實驗設計，社群出現了顯著的質疑聲音。部分評論者認為這項測試對人類醫生並不公平，因為實驗要求醫生僅憑文字病歷進行診斷，這與現實中醫生需要觀察患者神情、語氣及生理反應的診斷過程大相徑庭。更有網友引用近期關於放射科 AI 的研究指出，這類基準測試極易出錯，甚至曾出現 AI 在完全沒看 X 光片的情況下，僅靠病歷文字就「勝過」放射科醫師的荒謬案例，這暗示病歷文字中可能隱含了某些讓 AI 走捷徑的線索。

此外，關於醫療體制與責任歸屬的討論也十分熱烈。有觀點認為，醫生的診斷往往受限於法律責任與風險規避，傾向於選擇最保險、最常見的診斷，而非追求極致的準確率。相較之下，AI 沒有法律責任壓力，能更客觀地處理罕見病例。然而，這種「不負責任」的優勢也正是其臨床應用的最大阻礙，目前尚缺乏正式的問責框架。

在實務應用層面，部分網友分享了利用 LLM 輔助診斷自己或寵物的正面經驗，認為 AI 在獸醫領域有巨大潛力，能幫助飼主避免被過度收費。但也有專家提醒，醫生在診斷時可能會無意識地過度依賴 AI 的建議，這種「自動化偏見」可能導致獨立思考能力的喪失。社群普遍達成的一項共識是：目前的 AI 雖然展現出強大的第二意見潛力，但仍不能取代人類在生死決策中的引導角色。

你的個人知識庫

OpenAI o1 模型診斷急診患者準確率達 67%，優於分診醫生的 50-55%

背景

社群觀點

延伸閱讀