基層保健醫生能力不足,但我們需要更多這樣的人才

Lesswrong·

基層保健醫生在各個可衡量的方面都表現出無能,這歸因於空洞的證照主義以及隨時間推移而衰退的專業技能;我主張大幅降低執業門檻並結合人工智慧工具是解決此問題的良方。

典型的基層醫療醫師(家庭醫學科醫師)在每一項可衡量的指標上都是不稱職的。這是一個巨大的問題。

在此,我提出以下論點:

  • 基層醫療醫師普遍存在嚴重的失職。
  • 這是由於空洞的學歷主義所致。
  • 大幅(約 10 倍)降低成為基層醫療醫師的門檻是一個良好的解決方案。

基層醫療醫師普遍嚴重失職

我用來衡量基層醫療醫師稱職與否的標準是:

  • 他們應該能夠可靠地診斷出他們受過培訓應診斷的疾病。
  • 他們的知識水平應達到取得醫師資格所需的標準。
  • 他們應該對患者保持專注並富有同理心。
  • 從經驗上看,看診應優於不看診。

當根據這些標準進行實際檢驗時,基層醫療醫師在所有項目上都失敗了。

無法診斷罕見疾病的情況極為普遍

一項針對罕見疾病患者的調查發現,在大約一半的案例中,患者至少收到過一次錯誤診斷,且三分之二的患者在確診前需要諮詢至少三位不同的醫生。對於其中 30% 的人來說,獲得正確診斷花費了超過五年的時間。

另一項針對患有罕見疾病兒童的調查顯示,38% 的兒童在確診前需要看六位或更多的醫生。27% 的兒童最初收到了錯誤的診斷。

如果你不幸患有罕見疾病,那麼在你第一次踏入診所後的一年內獲得正確診斷和治療的可能性低得令人震驚。

基層醫療醫師不擅長理學檢查

理學檢查(身體檢查)常被譽為基層醫療醫師及其嚴格培訓之必要性的理由。然而,每當測試他們執行這些檢查並得出準確結論的能力時,他們的表現都慘不忍睹。

基層醫療醫師檢測心雜音的敏感度僅為 30-40%,且不同評估者之間存在高度分歧。這種準確度甚至比直接採信患者的自我陳述還要差。

肺部的「囉音」檢出率在 19-67% 之間

即使是腹部出血,急診醫師理學檢查的檢測敏感度也僅為 30-40%

基層醫療醫師和非專科醫師進行各項理學檢查的 Kappa 值(觀察者間一致性)落在 0.18-0.45 範圍內,這在統計學上相當於「僅比擲硬幣好一點點」。

目前的證據顯示,如果基層醫療醫師完全不進行理學檢查,其診斷準確性或患者預後也不會有可察覺的下降。

基層醫療醫師冷漠且粗魯

在基本的社交技巧和對患者的關注程度上,基層醫療醫師幾乎在所有可能的方面都表現失敗。1984 年的一項研究發現,醫師在患者開始陳述就診原因後,平均僅 18 秒就會打斷患者,而大多數患者一旦被打斷就不再詳細說明。

這一點在 2019 年隨後得到了驗證,研究發現基層醫療醫師打斷患者描述就診原因的時間縮短到了僅 11 秒。1

超過一半受訪的美國患者表示,他們的症狀被忽視、輕視或不被相信。50% 的人報告說他們的醫生對他們做出了錯誤的假設。

相對於患者的感受,醫師也一直高估自己的同理心和態度。事實上,他們給自己的評分與患者的評分呈負相關

關於就醫體驗的負面軼事之所以具有壓倒性的一致性,並非某種隨機的大規模幻覺。醫生們大體上就是冷漠且粗魯的。

醫生的工作能力隨時間顯著下降

醫生的「經驗」與其提供的醫療品質之間存在強烈的反比關係。最近對 62 項研究的綜述發現,超過一半的研究顯示,隨著經驗增加,所有衡量指標都在下降,只有一項研究顯示了相反的結果。

2025 年的一項研究對胸腔/重症醫學科的研究員進行測試,結果顯示他們在基礎肺生理學問題上的得分顯著低於醫學生。

美國基層醫療醫師的平均年齡為 48 歲。住院醫師培訓通常在 30 歲左右結束,這意味著你遇到的典型醫生大約有 20 年的「經驗」,在此期間他們的稱職程度呈對數衰減。預期中,他們將失去職業生涯初期所掌握的關於罕見病徵約一半的知識。

證據字面上顯示,僅僅把一個昨天剛通過醫學院入學考試(MCAT)的學生直接放進現代基層醫療診所,預期就能產生一個高於平均水平的基層醫療醫師。

標準基層醫療醫師並不比拿著電腦的門外漢強

鑑於大型語言模型(LLM)的出現,基層醫療醫師正變得越來越多餘。多項研究比較了標準基層醫療醫師與尖端語言模型的表現,一致發現 GPT-4(現在已被現代尖端模型遠遠超越)在硬性的表現指標上略微領先,而在同理心和徹底性的定性評估中則大幅領先。

現代 LLM 在所有基準測試中都徹底擊敗了 GPT-4,包括(事實上尤其是)生物醫學專業知識。

今天,一個走在街上的路人,只要接受過為期一週的理學檢查實務速成班(甚至可能不需要),並能使用最新版本的 GPT,其表現就會優於一名擁有 20 年經驗的中位數基層醫療醫師。

醫生無法辨識藥物尋求者

目前尚無已知的方法可以可靠地識別藥物尋求行為

當醫生觀看潛在藥物尋求患者的影片時,在未提及藥物本身的情況下,他們僅在 3% 的時間裡表示懷疑患者在尋求藥物。即使在最明目張膽、典型的患者直接要求特定藥物(如羥考酮)的案例中,也只有 21% 的時間懷疑其在尋求藥物。

旨在標記「逛醫院(doctor shopping)」以協助醫師識別藥物尋求行為的現代數據庫,漏掉了大約一半真正的推定阿片類藥物濫用者,且誤報率極高。即使是「逛醫院」最頻繁的人群中,也只有 5% 是推定的阿片類藥物濫用者被系統標記為「逛醫院者」的人中,有 20% 實際上被發現患有癌症,這意味著你作為一個被系統標記的人,患癌症的可能性大約是真正成癮者的 4 倍。

對於精明的藥物尋求者來說,攻防平衡嚴重向他們傾斜。疼痛本質上是一種主觀且很大程度上無法驗證的現象。任何有大腦且能說話的人都可以說出正確的話,從而獲得幾乎任何他們想要的處方藥。

那種精明、敏銳的醫生能察覺到阿片類藥物成癮者細微的肢體語言並拒絕提供止痛藥的形象,只是一個支撐體制的漫畫式想像,在現實中基本不存在。

醫生在減輕藥物尋求方面的作用僅僅是充當一種微不足道的障礙

空洞且非精英制的學歷主義是基層醫療醫師能力不足的主因

當一名基層醫療醫師到底有多難?

基層醫療醫師(試圖)遵循標準化的決策樹來進行診斷和轉診。這是網頁應用程式就能完成的工作。事實上,用於此目的的診斷決策樹數據庫(CDSS:臨床決策支持系統)已經存在——只需輸入症狀即可。你自己也可以試試看

這些系統的採用率很低,原因令人心寒。主要的失敗模式是醫生根本不用它們。儘管研究一致顯示這能在不延長諮詢時間的情況下提高診斷準確性,但醫生仍覺得把症狀輸入電腦太耗時。此外,如果系統建議了一種罕見疾病而他們忽略了,後來證明是真的,還可能存在法律責任問題。邏輯是:最好對這種可能性一無所知,以保持雙手乾淨。當被要求使用 CDSS 時,基層醫療醫師通常會忽略輸出結果,更傾向於自己早期的假設,儘管聽從這些系統能提高診斷準確性。

比傳統 CDSS 更好的是,現代由 LLM 驅動的系統現在能夠轉錄實時對話,並提供實時診斷建議,以及建議後續問題。

要在診斷患者方面超越絕大多數基層醫療醫師,你只需要將他們自述的症狀逐字輸入到眾多廣泛可用的軟體產品中,並轉達螢幕上顯示的內容即可。

有了這樣的工具,還有什麼理由要求經過十年(甚至五年)的培訓,來擔任一個電腦自動化分診過程的人類面孔?

支持高門檻培訓的論點——守門人

基層醫療醫師必須存在的「官方」理由是:

  • 他們診斷(罕見)疾病的能力
  • 他們開處方以及拒絕向藥物尋求者提供處方的能力
  • 他們提供轉診至適當專科醫師的能力
  • 他們執行理學檢查的能力

讓我們逐一審視這些理由。這些功能是否需要大約十年的準備?

  • 診斷(罕見)疾病

典型的基層醫療醫師經常無法正確診斷罕見(甚至常見)疾病。他們的表現不如 LLM,且鑑於 CDSS 的存在,他們的個人診斷能力幾十年來在很大程度上已是多餘。隨著時間推移,他們在這項任務上的表現也會呈對數級惡化。

  • 開具處方藥,並拒絕向藥物尋求者提供處方

處方存在的原因是某些藥物不適合某些患者。

因此,基層醫療醫師的角色是執行以下操作之一:

A:識別患者對其病情的正確治療方法存在誤解或不知情。

B:識別利用系統獲取藥物用於非法目的的患者。

C:給予患者想要或需要的藥物。

目前尚無已知的方法可以實際執行功能 B,醫生在識別除了最明目張膽的藥物尋求者之外的所有人方面基本上是無能為力的。

這就只剩下 A 作為「僅根據要求發放處方」之外的替代方案。如前所述,A 只是將症狀輸入電腦並照做而已。

雖然對藥物尋求行為設置象徵性的阻力是合理的(至少你得親自去一趟診所),但認為我們必須擁有學術老兵來抵禦可偵測的藥物尋求者浪潮的想法,完全是幻想。

  • 提供轉診至適當專科醫師

為什麼轉診最初是必要的?想法是我們不想讓沒有相關症狀特徵的患者預約諮詢,從而浪費患者和專科醫師的寶貴時間。想想追逐錯誤線索所浪費的金錢和時間!

如果不知道以下事實,這個想法會更有說服力:

  • 作為患者,遵循 CDSS 或詢問 LLM 是你在家幾分鐘內就能完成的事,且能獲得與基層醫療醫師相當(甚至更好)的準確性;
  • 現狀已經嚴重未能解決這個「浪費時間」的問題。
  • 給定初步診斷後,提供轉診僅僅是從預定清單中選擇專科醫師的問題——這項功能可以委託給自動化工具(如 Zapier)來完成。

鑑於醫師作為篩查者的基準可靠性極低,且識別特定病徵對應專科醫師的任務極其簡單,認為基層醫療醫師是連接患者與專科醫師鏈條中必要環節的論點非常薄弱。

  • 他們執行理學檢查的能力

理學檢查在檢測疾病和損傷方面的敏感度如此之低,且評估者之間的分歧如此之高,可以毫不誇張地說,完全廢除基層醫療診所的理學檢查實務,並代之以更詳細的詢問,將大幅提高他們對幾乎所有病徵的診斷準確性。

實際上,你不需要那麼多培訓就能做到

在美國,成為基層醫療醫師的標準職業路徑需要大約 10 年的全職學習,在其他高人類發展指數(HDI)國家則需要 6-8 年。

這長達十年的教育中,有多少比例實際上應用到了實踐中?

通常,醫學預科教育涉及 3-4 年的生物、化學、數學通才學習,或者在某些地方,甚至是任何四年的學位。這起到了篩選廣泛能力和穩定性的機制作用。學習高等數學以便為頭痛建議服用阿司匹林的效用,是很難自圓其說的。

當基層醫療醫師的功能僅僅是篩查初步跡象並提供專科轉診時,十年的培訓有何用途?

你根本不需要用一個花費 5 到 10 萬美元、為期四年的學位來篩選廣泛的能力。目前已經在使用一種針對基礎生理學的智力負荷(G-loaded)入學考試——MCAT。如果你能通過 MCAT,額外的廣泛學術能力篩選就是多餘的。每年有成千上萬的準醫生報名浪費四年時間並花費五到六位數的金額來通過「一般學術能力」的第一道過濾,一想到這種經濟損失的規模就令人戰慄。

要成為一名符合我們在實踐中觀察到並接受的標準的稱職基層醫療醫師,對於一名有能力、有動力的學生來說,所需的教育更接近於一年,而不是十年的課程——反正典型醫師在 5 到 10 年後也會忘掉大部分內容。

事實上,考慮到知識衰退、理學檢查的無用性以及我們今天觀察到的普遍低標準,僅僅把一個昨天通過 MCAT 的學生直接放進現代醫療辦公室,預期就已經能產生一個高於平均水平的基層醫療醫師。

大幅降低成為基層醫療醫師的門檻是一個解決方案

標準低下很大程度上是由於競爭有限

在美國,大約每 2000 人擁有一名基層醫療醫師。這一比例加上對醫療服務的高度缺乏彈性的需求,是導致我們今天看到的醫療標準低下的主要因素。

標準的 10 分鐘基層醫療諮詢並非源於對最佳護理標準的某種原則性分析。它是幾乎無限的需求和微不足道的競爭所導致的結果。當每位醫生每年大約有 3000 個預約時,為每個預約投入超過微不足道的時間和精力,在物流上是不可能的,在財務上也是適得其反的策略。

典型的基層醫療醫師每天都在不斷的任務切換中耗盡所有的認知頻寬,並在擁擠的患者議程中艱難應付。

結果顯而易見。

競爭降低成本並提高利用率

降低成為基層醫療醫師的准入門檻會增加供應。患者的成本將會下降,替代方案的可用性將會大幅增加。

現狀是,對於基層醫療醫師來說,地理位置的重要性遠超過能力和聲譽。這導致了我們今天看到的扭曲激勵和結果。

如果我們將基層醫療醫師的供應量增加 10 倍,我們可以預期看到:

  • 等待時間顯著縮短
  • 患者(特別是偏遠地區)有更多的可用性和選擇
  • 更長、更詳細的諮詢
  • 更高的利用率和更多的預防性護理
  • 基層醫療醫師收入的大幅減少

這樣做唯一真正的擔憂是新進入者提供的護理標準會降低。然而,這種擔憂錯誤地假設我們生活在一個標準尚未低於「擁有軟體訂閱的門外漢」水平的世界。

持久的文化對醫生的崇敬

維持「學術老兵」型基層醫療醫師必要性這一表象的粘合劑,是廣泛存在的對醫生的文化崇敬。醫生(在大多數人心中,這個標籤也延伸到基層醫療醫師)是一個幾乎不可觸碰的階層,普遍被認為屬於社會和經濟等級制度的頂端。他們是必不可少的資源、值得信賴的權威和道德楷模。

通過大幅削減基層醫療醫師的准入要求來挑戰醫生的準宗教地位,無疑會產生巨大的政治阻力。然而,考慮到患者(以及醫生本身)所承擔的巨大成本,以及因就醫困難和錯誤激勵所造成的難以估量的身體傷害,被動地容忍現狀是一個代價太高而無法接受的選項。

所以,逐步去做。循序漸進地去做。機智且體諒地去做。但一定要做。

我們沒有什麼可以失去的。

參與討論

Lesswrong

相關文章

  1. 您下一位初級保健醫生可能僅限線上,透過AI工具即可接觸

    Hacker News · 4 個月前

  2. 為臨床醫生打造更優質的 ChatGPT

    OpenAI · 11 天前

  3. 這篇文章與AI無關

    Hacker News · 3 個月前

  4. AI 健康工具數量創下新高,但它們的效果究竟如何?

    MIT Technology Review · 大約 1 個月前

  5. Fidji Simo:ChatGPT Health 與 AI 如何拯救崩壞的醫療體系

    Hacker News · 4 個月前