AI 健康工具數量創下新高，但它們的效果究竟如何？

MIT Technology Review·6 天前

微軟、亞馬遜和 OpenAI 等科技巨頭正迅速推出 AI 健康聊天機器人以滿足龐大的用戶需求，但專家警告這些工具仍缺乏足夠的獨立評估與嚴謹的安全測試。

本月初，微軟推出了 Copilot Health，這是其 Copilot 應用程式中的一個新空間，用戶可以在此連結其醫療記錄，並針對自身健康狀況提出具體問題。幾天前，亞馬遜也宣布其基於大語言模型（LLM）的工具 Health AI（先前僅限於 One Medical 服務會員使用）現在將廣泛開放。這些產品加入了 OpenAI 於今年 1 月發布的 ChatGPT Health，以及 Anthropic 的 Claude（若獲得許可，該模型可存取用戶健康記錄）的行列。大眾化的健康 AI 正式成為一種趨勢。

鑑於許多人難以透過現有的醫療系統獲得健康建議，市場對提供健康諮詢的聊天機器人有著明確的需求。一些研究表明，目前的 LLM 能夠提供安全且有用的建議。但研究人員表示，這些工具應該由獨立專家進行更嚴格的評估，理想情況下應在廣泛發布之前完成。

在健康這種高風險領域，信任公司自行評估其產品可能是不明智的，特別是如果這些評估不提供給外部專家審查。即使公司正在進行高品質、嚴謹的研究（包括 OpenAI 在內的一些公司似乎確實如此），他們仍可能存在盲點，而更廣泛的研究社群可以協助填補這些空白。

「就人們總是需要更多醫療保健而言，我認為我們絕對應該嘗試每一條有效的路徑，」牛津大學網路研究所（Oxford Internet Institute）博士候選人 Andrew Bean 表示。「對我來說，這些模型已經達到值得推廣的程度，這完全是合理的。」

「但是，」他補充道，「證據基礎確實必須到位。」

轉折點

聽開發者說，這些健康產品之所以現在發布，是因為大語言模型確實已經達到了可以有效提供醫療建議的程度。微軟 AI 健康副總裁、前外科醫生 Dominic King 將 AI 的進步視為公司成立健康團隊以及 Copilot Health 誕生核心原因。「我們看到生成式 AI 在回答健康問題和提供良好回應的能力上取得了巨大進步，」他說。

但根據 King 的說法，這只是故事的一半。另一個關鍵因素是需求。在 Copilot Health 推出前不久，微軟發布了一份報告及隨附的部落格文章，詳細說明了人們如何使用 Copilot 獲取健康建議。該公司表示，每天收到 5,000 萬個健康問題，健康是 Copilot 行動應用程式上最受歡迎的討論話題。

其他 AI 公司也注意到並回應了這一趨勢。「甚至在我們的健康產品問世之前，我們就看到人們使用 ChatGPT 詢問健康相關問題的比例正在迅速、迅速地增長，」領導 OpenAI 健康 AI 團隊的 Karan Singhal 表示。（OpenAI 和微軟擁有長期的合作夥伴關係，Copilot 由 OpenAI 的模型驅動。）

這可能是因為人們更傾向於向一個 24 小時在線、且不會對其評判的機器人傾訴健康問題。但許多專家從現有醫療體系的現狀來解讀這一現象。「這些工具的存在及其在整體格局中的地位是有原因的，」西奈山醫療系統（Mount Sinai Health System）首席 AI 官 Girish Nadkarni 說。「那是因為獲得醫療服務很困難，對於某些族群來說尤其困難。」

面向消費者的 LLM 健康聊天機器人的美好願景，取決於它們能否在減輕醫療系統壓力的同時改善用戶健康。這可能涉及協助用戶決定是否需要就醫，這項任務被稱為「分流」（triage）。如果聊天機器人分流奏效，那麼需要急診的患者可能會比平時更早尋求治療，而症狀較輕的患者則可能在聊天機器人的建議下，安心地在家管理症狀，而不是不必要地擠滿急診室和診所。

然而，Nadkarni 與西奈山的其他研究人員最近發表的一項引起廣泛討論的研究發現，ChatGPT Health 有時會對輕微病症建議過度醫療，卻未能識別出緊急情況。儘管 Singhal 和其他一些專家認為，該研究的方法論可能無法完整呈現 ChatGPT Health 的能力，但這項研究引發了人們對於這些工具在向公眾發布前缺乏外部評估的擔憂。

接受本文採訪的大多數學術專家都同意，鑑於某些人獲得醫療服務的管道有限，LLM 健康聊天機器人確實有其優點。但所有六位專家都對這些工具在未經獨立研究人員測試其安全性便推出表示擔憂。雖然這些工具宣傳的一些用途（如推薦運動計畫或建議用戶可以問醫生的問題）相對無害，但其他用途則帶有明顯風險。分流是其一；另一種則是要求聊天機器人提供診斷或治療方案。

ChatGPT Health 的介面包含顯眼的免責聲明，聲明其不適用於診斷或治療，Copilot Health 和亞馬遜 Health AI 的公告中也有類似警告。但這些警告很容易被忽視。「我們都知道人們會用它來進行診斷和管理，」貝斯以色列女執事醫療中心（Beth Israel Deaconess Medical Center）內科醫生兼研究員、Google 客座研究員 Adam Rodman 說。

醫療測試

各公司表示，他們正在測試聊天機器人，以確保其在絕大多數情況下提供安全的回應。OpenAI 設計並發布了 HealthBench，這是一個評估 LLM 在現實健康對話中表現的基準測試——儘管對話本身是由 LLM 生成的。當驅動 ChatGPT Health 和 Copilot Health 的 GPT-5 於去年發布時，OpenAI 報告了該模型的 HealthBench 分數：它的表現明顯優於之前的 OpenAI 模型，儘管整體表現遠非完美。

但像 HealthBench 這樣的評估有其局限性。在上個月發表的一項研究中，牛津大學博士候選人 Bean 及其同事發現，即使 LLM 本身能準確識別虛構書面案例中的醫療狀況，但如果給予非專業用戶同樣的案例並要求其在 LLM 協助下判斷病情，準確率可能僅有三分之一。如果缺乏醫學專業知識，用戶可能不知道案例中（或其現實生活經驗中）哪些部分是重要的，應包含在提示詞中，或者他們可能會誤解 LLM 給出的資訊。

Bean 表示，這種表現差距對 OpenAI 的模型來說可能意義重大。在最初的 HealthBench 研究中，該公司報告其模型在需要向用戶尋求更多資訊的對話中表現相對較差。如果是這樣，那麼沒有足夠醫學知識、無法從一開始就提供健康聊天機器人所需資訊的用戶，可能會得到無用或不準確的建議。

OpenAI 健康負責人 Singhal 指出，公司目前的 GPT-5 系列模型（在最初的 HealthBench 研究進行時尚未發布）在徵詢補充資訊方面比前代產品做得更好。然而，OpenAI 曾報告目前的旗艦型號 GPT-5.4 在尋求背景資訊方面的表現實際上比早期版本 GPT-5.2 更差。

Bean 認為，理想情況下，健康聊天機器人在向公眾發布之前，應像他的研究那樣接受受控的人類用戶測試。這可能是一項艱巨的任務，特別是考慮到 AI 領域的發展速度以及人類研究所需的時間。Bean 自己的研究使用的是 GPT-4o，該模型大約在一年前推出，現在已經過時了。

本月初，Google 發布了一項符合 Bean 標準的研究。在該研究中，患者在與人類醫生見面前，先與該公司的 Articulate Medical Intelligence Explorer (AMIE) 討論醫療問題。AMIE 是一款尚未向公眾開放的醫療 LLM 聊天機器人。總體而言，AMIE 的診斷準確性與醫生相當，且沒有任何對話引發研究人員對安全性的重大擔憂。

儘管結果令人鼓舞，Google 仍不打算在短期內發布 AMIE。Google DeepMind 研究科學家 Alan Karthikesalingam 在一封電子郵件中寫道：「雖然研究取得了進展，但在將系統轉化為現實世界的診斷和治療之前，必須解決重大局限性，包括對公平性、公正性和安全性測試的進一步研究。」Google 最近確實透露，其與 CVS 合作建立的健康平台 Health100 將包含一個由其旗艦 Gemini 模型驅動的 AI 助手，但該工具推測並非用於診斷或治療。

與 Karthikesalingam 共同領導 AMIE 研究的 Rodman 並不認為這種耗時多年的廣泛研究必然適合 ChatGPT Health 和 Copilot Health 等聊天機器人。「臨床試驗範式在生成式 AI 中並不總是奏效，原因有很多，」他說。「這就是基準測試對話的切入點。是否存在我們公認有意義、且實驗室可以遵循的受信任第三方基準測試？」

關鍵在於「第三方」。無論公司對自己的產品進行多麼廣泛的評估，都很難完全信任其結論。第三方評估不僅能帶來公正性，而且如果有許多第三方參與，還有助於防範盲點。

OpenAI 的 Singhal 表示，他強烈支持外部評估。「我們盡力支持社群，」他說。「我們推出 HealthBench 的部分原因，實際上是為了給社群和其他模型開發者提供一個優質評估的範例。」

他說，鑑於製作高品質評估的成本極高，他懷疑任何單一的學術實驗室是否有能力製作出他所謂的「統治一切的單一評估」。但他對學術團體將現有和新型評估整合為綜合評估套件的努力給予高度評價——例如史丹佛大學的 MedHELM 框架，該框架測試模型在各種醫療任務上的表現。目前，OpenAI 的 GPT-5 擁有最高的 MedHELM 分數。

領導 MedHELM 項目的史丹佛大學醫學教授 Nigam Shah 表示，該項目也有其局限性。特別是，它僅評估單次的聊天機器人回應，但尋求醫療建議的人可能會與聊天機器人進行多輪、來回的對話。他表示，他和一些合作夥伴正準備建立一個可以為這些複雜對話評分的評估系統，但這需要時間和金錢。「你我都沒有能力阻止這些公司發布（健康導向的產品），所以他們會隨心所欲，」他說。「像我們這樣的人唯一能做的，就是想辦法資助基準測試的建立。」

接受本文採訪的人中，沒有人認為健康 LLM 必須在第三方評估中表現完美才能發布。醫生本身也會犯錯——對於那些只能偶爾看醫生的人來說，一個隨時可用、雖然有時會出錯但錯誤不太嚴重的 LLM，相對於現狀仍可能是巨大的進步。

然而，以目前的證據來看，無法確切得知目前可用的工具是否真的構成了進步，或者它們的風險是否超過了收益。

https://technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/