利用機器學習優化乳癌篩檢工作流程

Google Research·19 天前

原文

Google Research 與 NHS 的大規模研究顯示，AI 系統能提升乳癌檢測的準確度，並在維持醫療品質的同時，預計可減少 46% 的人工判讀工作量。

利用機器學習優化乳腺癌篩查工作流程

2026 年 3 月 17 日

Lihong Xi，高級技術專案經理；Daniel Golden，Google Research 工程經理

一項針對我們乳房攝影系統在多個篩查服務機構中的大規模評估顯示，該系統具有提高癌症檢測準確性，並在複雜的雙人閱片工作流程中減輕工作負載的潛力。

快速連結

在英國，乳腺癌是 35-64 歲女性的首要死因，但研究已明確顯示，透過乳房攝影進行早期篩查可以挽救生命。英國國家醫療服務體系（NHS）的乳腺篩查計畫目前依賴雙人閱片（double-read）工作流程——由兩名人類乳房攝影閱片員評估每個病例，並根據當地協議和前兩次閱片的結果，在必要時由仲裁小組審查病例。雖然這一嚴謹的過程非常有效，但臨床放射科醫生短缺 30%（預計到 2028 年將達到 40%）的現狀威脅著該計畫的長期可持續性。

越來越多的研究致力於探索人工智慧（AI）在輔助乳腺癌篩查過程中的潛力。基於我們在該領域的早期工作，我們與多家 NHS 機構合作，作為乳腺攝影篩查人工智慧（AIMS）研究的一部分，進一步調查 AI 在此領域的潛力。正如本月早些時候所分享的，我們在《自然·癌症》（Nature Cancer）雜誌上發表了兩項配套研究，評估了基於 AI 的乳腺癌檢測系統的不同面向。在第一項研究中，我們評估了獨立 AI 系統的性能和前瞻性整合的可行性。在第二項研究中，我們進行了一項端到端的閱片研究，將原始的雙人閱片和仲裁流程，與將 AI 系統作為第二閱片員的流程進行了比較。雖然還需要進一步的工作來證明該系統在未來臨床實踐中的有效性，但這些研究為使用 AI 輔助乳腺癌篩查的潛在益處提供了更有力的證據。

研究 1：獨立性能與整合可行性

第一項研究分為兩個階段。在第一階段，我們對 AI 系統的獨立性能進行了大規模、多中心的回顧性評估。在第二階段，我們進行了一項前瞻性、非干預性的部署研究，以評估將即時系統整合到實際臨床工作流程中的可行性和挑戰。

第一階段：多中心獨立性能評估

第一階段的回顧性研究涉及 125,000 名女性（應用納入/排除標準後為 115,973 名）的乳房攝影照片，這些女性在英國的五個 NHS 篩查服務機構接受了篩查。這些服務涵蓋了三種不同的臨床工作流程，其差異在於第二名閱片員是否對第一名閱片員的結果設盲，以及如何選擇病例進行仲裁（見下圖）。AI 運行點（決定 AI 標記病例保守程度的閾值）在每個篩查服務機構分別確定，以適應篩查人群和工作流程的局部差異。

該研究的主要終點是評估 AI 系統與該病例歷史（原始）第一閱片員相比，在檢測癌症方面的敏感性（Sensitivity）和特異性（Specificity）。該研究使用了嚴格的金標準（ground truth），利用了 39 個月的隨訪窗口，使我們能夠在間隔期癌（interval cancers）和下一輪癌症出現臨床症狀之前很久，就研究 AI 系統在檢測這些癌症方面的增量效益。除了主要終點外，研究還評估了 AI 系統與第二閱片員和共識閱片員相比的表現，以及病灶級定位（是否識別出乳房中正確的異常部位）和公平性分析。透過納入嚴格的病灶級分析，我們的研究解決了 AI 系統是否成功定位了精確的感興趣區域，而非依賴潛在的虛假相關性。此階段的研究是回顧性的，旨在實現大規模的 AI 性能驗證，不涉及收集人類閱片員的額外解釋或前瞻性部署。

NHSMammography1_Design

本研究第一階段的總體設計，展示了跨五個篩查服務機構的回顧性評估。

第二階段：前瞻性技術可行性

在第二階段，為了了解在不同診所將 AI 納入實際篩查工作流程的實際考量，我們在倫敦兩個主要篩查服務機構的 12 個篩查點進行了前瞻性非干預性部署。此階段的重點是展示成功的技術整合、評估自動化資格檢查，並監測分佈偏移（distribution shifts）。

在這些站點，我們在將篩查乳房攝影照片傳送到安全的 Google Cloud AI 系統進行處理之前，對其進行了去識別化處理。這項研究還評估了一個迭代的運行點校準過程，研究人員在研究期間監測召回率並調整運行點，以便更好地根據當地環境校準系統並確保操作安全。

關鍵結果

在獨立性能評估中，AI 系統在不損害特異性的情況下，實現了顯著高於原始第一位人類閱片員的敏感性。總體癌症檢測率從每 1,000 名女性 7.54 人上升到 9.33 人，至關重要的是，AI 系統能夠檢測出原始雙人閱片工作流程中漏診的 25% 的間隔期癌。

NHSMammography2_Sensitivity

此圖強調了 AI 系統在病例級別和乳房級別的癌症檢測中，具有卓越的敏感性和非劣效的敏感性。

AI 特別擅長檢測侵襲性癌症，對於這些高風險癌症類型，其敏感性優於原始人類閱片員。對於首次參加篩查的女性，它的表現也異常出色，在大幅減少假陽性的同時提高了檢測敏感性。一項探索性分析觀察到，在年齡、種族、乳房密度或社會經濟地位方面，沒有明顯的系統性人口統計學差異。

在前瞻性部署階段，AI 系統成功地在 12 個即時 NHS 篩查站點進行了非干預性部署，在兩個服務機構中，每個服務機構約兩個月的時間內處理了 9,266 個病例。從完成篩查到完成 AI 閱片的時間非常快，中位數時間為 17.7 分鐘，而人類第一次閱片則需要超過 2 天。至關重要的是，即時部署成功識別了歷史訓練數據與現代臨床數據之間的「分佈偏移」。透過揭示這種偏移，研究表明，如果配合嚴格的、分階段的方法來根據當地工作流程和要求校準運行點，安全的 AI 部署可能會更有效。

研究 2：整合到雙人閱片工作流程的評估

雖然第一項研究涉及獨立性能的定量評估，但它沒有解決人類閱片員在仲裁過程中實際與 AI 輸出互動時的表現問題。雖然之前的回顧性研究模擬了仲裁，但我們的第二項研究是一項大規模的閱片研究，其中 22 名人類閱片員使用真實的當地篩查服務規則仲裁了數千個病例，提供了對現實世界人機互動的洞察。我們比較了兩種工作流程：

NHSMammography3_Design2

傳統基於人類閱片員的雙人閱片（標準護理）工作流程與啟用 AI 的工作流程之間的比較研究設計。

這項研究涉及 50,000 名女性（應用納入/排除標準後為 45,602 名）的病例。22 名獲得認證的乳房攝影閱片員審查了根據當地篩查服務規則需要仲裁的 8,732 個病例——其中一個服務機構規定當兩名原始閱片員對召回建議意見不一致時進行仲裁，另一個服務機構則規定當任一原始閱片員建議召回時進行仲裁。仲裁員成對閱片，以模仿臨床共識小組。在標準護理組中，仲裁員審查兩名人類閱片員的意見；在啟用 AI 的組別中，仲裁員會看到第一名人類閱片員的意見，以及 AI 的輸出及其標出的感興趣區域。隨後，仲裁員做出是否召回該女性的最終決定。與我們第一篇論文的方法類似，該研究擁有 39 個月隨訪的強大金標準，使研究人員能夠追蹤啟用 AI 的工作流程是否能比標準護理更早地檢測到間隔期癌和下一輪癌症。該研究的主要終點是啟用 AI 的護理組與標準護理組相比，在病例級癌症檢測敏感性和特異性方面的非劣效性。

關鍵結果

在分析了包括仲裁和非仲裁病例在內的全套病例後，我們發現啟用 AI 的工作流程在仲裁後的總體敏感性和特異性方面，在統計學上不劣於傳統的雙人閱片工作流程。除了產生與傳統工作流程相似的結果外，我們估計啟用 AI 的工作流程將使所需的人類閱片總數減少約 46%。這略低於 50%，是因為大約 8.7% 的複雜病例（例如涉及乳房植入物的病例）仍需要兩名人類閱片員。在考慮到仲裁閱片比第一或第二閱片員閱片更耗時後，這轉化為閱片員總工作時間減少了 36-44%。在不損害結果的前提下為閱片員節省時間，有助於解決英國日益沉重的病例負擔危機。

NHSMammography4_ROC

ROC 曲線最左側部分的視覺化，顯示了參與研究的兩個篩查服務機構的第一名人類閱片員、第二名人類閱片員、AI 閱片員和共識（標記為「arm」）閱片的敏感性和特異性。在兩個服務機構中，啟用 AI 的工作流程（「AI arm」）的敏感性和特異性均不劣於原始人類工作流程（「Human arm」）。

雖然仲裁成功過濾掉了人類閱片員和 AI 系統產生的許多假陽性，但研究也揭示了一個相關的缺點：人類仲裁小組在 93 個癌症陽性病例中錯誤地否決了 AI 正確的召回決定，其中大多數是難以發現的間隔期癌和下一輪癌症。這一結果強調了需要繼續研究人類閱片員如何解釋和處理可能與其自身意見不一致的 AI 預測，重點在於建立專家間的信任以及提高 AI 結果的可解釋性。

結論

綜合來看，這些研究證明了基於 AI 的篩查系統在單次閱片中可以提供卓越的癌症檢測性能，並且在英國使用的完整雙人閱片工作流程中具有非劣效的表現。啟用 AI 的篩查有潛力顯著減輕人類整體的閱片工作負載和閱片時間，同時提高癌症檢測率，特別是對於侵襲性癌症和首次篩查。然而，要實現 AI 的全部潛力，需要克服操作性問題，例如管理增加的仲裁量、提高模型可解釋性，以及透過持續的性能監測和局部閾值校準來主動管理數據偏移。

最終，這項工作支持了這樣一個觀點：啟用 AI 的篩查可能實現一個可持續的醫療體系，技術與人類專業知識協同工作，以更早地發現癌症，最重要的是，挽救更多生命。

致謝

我們要感謝 Google Research、國家醫療服務體系以及我們的學術合作夥伴中為這項工作做出貢獻的眾多人員。我們還要感謝倫敦帝國學院、皇家薩里 NHS 信託基金會、聖喬治大學醫院、英國癌症研究中心和 Cancer Research Horizons 的工作人員，他們整理並協助獲取了本研究中使用的 OPTIMAM 數據。我們特別感謝患者和公眾參與小組提供的寶貴建議和意見。AIMS 研究由衛生與社會關懷大臣授予的國家健康研究所（NIHR）獎項資助。圖片修改自《自然·癌症》出版物中根據創用 CC 姓名標示 4.0 國際授權條款發布的圖片。要查看此授權條款的副本，請訪問 http://creativecommons.org/licenses/by/4.0/。