OpenAI o1 模型診斷急診患者準確率達 67%,優於分診醫生的 50-55%

OpenAI o1 模型診斷急診患者準確率達 67%,優於分診醫生的 50-55%

Hacker News·

一項發表於《科學》雜誌的哈佛研究發現,OpenAI 的 o1 推理模型在壓力巨大的急診分診場景中,診斷準確率超越了急診室醫生。雖然人工智慧在處理文本數據的臨床推理上表現優異,但研究人員強調,它將作為強大的第二意見工具,而非取代人類醫生。

背景

哈佛醫學院的一項最新研究顯示,OpenAI 的 o1 推理模型在急診室分流診斷的表現上超越了人類醫生。該研究針對波士頓某醫院的 76 名患者進行測試,在僅提供電子病歷摘要的情況下,AI 的診斷準確率達到 67%,高於醫生的 50% 至 55%。研究人員認為,這標誌著醫療技術的深刻變革,AI 未來將與醫護人員及患者形成「三方協作」的醫療模式。

社群觀點

Hacker News 的討論首先聚焦於研究的時間線與技術版本。有網友指出 o1 模型雖然在 2024 年發布,但在技術快速更迭的背景下,這項研究可能經歷了較長的審稿與發表過程,其預印本早在 2024 年底就已出現。這引發了關於 AI 發展速度是否已超越學術研究週期的討論,因為當研究正式發表時,模型可能已經過數次迭代。

針對實驗設計,社群出現了顯著的質疑聲音。部分評論者認為這項測試對人類醫生並不公平,因為實驗要求醫生僅憑文字病歷進行診斷,這與現實中醫生需要觀察患者神情、語氣及生理反應的診斷過程大相徑庭。更有網友引用近期關於放射科 AI 的研究指出,這類基準測試極易出錯,甚至曾出現 AI 在完全沒看 X 光片的情況下,僅靠病歷文字就「勝過」放射科醫師的荒謬案例,這暗示病歷文字中可能隱含了某些讓 AI 走捷徑的線索。

此外,關於醫療體制與責任歸屬的討論也十分熱烈。有觀點認為,醫生的診斷往往受限於法律責任與風險規避,傾向於選擇最保險、最常見的診斷,而非追求極致的準確率。相較之下,AI 沒有法律責任壓力,能更客觀地處理罕見病例。然而,這種「不負責任」的優勢也正是其臨床應用的最大阻礙,目前尚缺乏正式的問責框架。

在實務應用層面,部分網友分享了利用 LLM 輔助診斷自己或寵物的正面經驗,認為 AI 在獸醫領域有巨大潛力,能幫助飼主避免被過度收費。但也有專家提醒,醫生在診斷時可能會無意識地過度依賴 AI 的建議,這種「自動化偏見」可能導致獨立思考能力的喪失。社群普遍達成的一項共識是:目前的 AI 雖然展現出強大的第二意見潛力,但仍不能取代人類在生死決策中的引導角色。

延伸閱讀

Hacker News

相關文章

  1. 哈佛研究顯示:AI 提供的診斷比急診室醫生更準確

    Techcrunch · 3 天前

  2. AI 健康工具數量創下新高,但它們的效果究竟如何?

    MIT Technology Review · 大約 1 個月前

  3. AI 基準測試已失效:我們真正需要的是什麼?

    MIT Technology Review · 大約 1 個月前

  4. 史丹佛與哈佛研究團隊發布嚴苛的醫療人工智慧實戰測試報告

    Rohan Paul · 大約 1 個月前

  5. 在真實臨床研究中探索對話式診斷人工智慧的可行性

    Google Research · 大約 2 個月前