他拿不到任何面試機會,難道是 AI 的錯?

他拿不到任何面試機會,難道是 AI 的錯?

Wired - backchannel·

一名醫學生帶著 Python 技能和強烈的不公義感,花了六個月的時間試圖查明是否是一個演算法毀了他的工作申請。

那是十月中旬,新罕布夏州漢諾威市(Hanover)正值賞楓巔峰季節,查德·馬基(Chad Markey)正處於醫學院最後一年臨床實習間難得的空檔。他本該呼吸著綠山山脈的空氣,與達特茅斯學院的同學閒聊畢業後的生活。幾個月後,他們將各奔東西,前往全國各地的醫院開始住院醫師培訓。

然而,馬基卻獨自待在公寓裡,深陷於鑽牛角尖的狀態,準備開戰。

他每天早上醒來,吃完早餐,在餐桌前打開筆電,或是窩在支撐力良好的棕色扶手椅上,開始寫程式。有時候,直到室友回家問他為什麼不開燈,他才察覺太陽已經下山了。

好幾天來,馬基一直在瀏覽一個關於住院醫師實習的 Discord 群組,那是一個群眾外包知識的泉源,學生們在那裡向同儕回報申請與篩選過程的每個階段。他看著其他學生——很多人——紛紛發文分享收到的面試邀請。

8位元角色將申請書提交給 AI 骷髏的動畫

馬基沒有收到任何面試邀約,只有斷然的拒絕。這對這位來自德州休士頓、現年 33 歲、舉止安靜且能自信而不吹噓地談論成就的人來說,不僅顯得奇怪,簡直是錯誤。他擁有常春藤盟校醫學院的優異成績,在《美國醫學會雜誌》(JAMA)和《刺胳針》(The Lancet)發表過文章,有一份令人動容的個人陳述,以及讚譽有加的推薦信。一位教授曾寫道,他們「從未見過比查德更具技巧、才華,且在追求醫學領域方面定位更精準的醫學生」。

馬基仔細檢查自己的申請材料,尋找致命缺陷。他沒發現任何會讓住院醫師計畫主任丟棄這份具競爭力申請書的理由,於是他的懷疑轉向了另一個元兇。他聽說有些醫院正使用一款免費的 AI 篩選工具來協助處理申請——而且該工具在顯示某些學生的成績時出現了錯誤。他開始懷疑,是否 AI 才是導致他缺乏面試機會的原因。

在他的《醫學生表現評估》(MSPE,由學校準備的早期職業生涯綜合摘要)第一頁,馬基發現了一段他懷疑可能觸發自動篩選工具調降他評分的措辭。MSPE 指出,馬基「自願」休學了三次,總計約 22 個月,並因「個人原因」選擇將第三年的課程延長至兩年完成。

這並不完全屬實。2021 年,馬基被診斷出患有強直性脊椎炎(ankylosing spondylitis),這是一種影響脊椎的自體免疫疾病,發作時他甚至無法站立,更不用說進行醫學生在臨床實習中被要求的繁重體力工作。他預計在七年內從醫學院畢業,而非典型的四年,但他的缺席是不可避免且醫療上必要的。這一點在第一頁的敘述段落中有解釋。馬基覺得,將這些缺席稱為「自願」,可能會被解讀為他屈服於醫學院的壓力,無法跟上學業。

馬基說,隨著日子一天天過去,他越來越擔心多年的訓練會以失敗告終。「我好不容易從那個該死的黑洞裡爬出來,」他告訴《連線》(WIRED),指的是他的診斷結果。「我有六個月無法走路。我已經走了這麼遠,現在卻發生這種事?」他正問著自己那個每天都會跳入數百萬求職者腦海中的問題:是 AI 把我的申請書丟進垃圾桶了嗎?

即使是招募人員也會承認,這種疑慮是合理的。一家招聘平台的執行長去年秋天表示,他的行業正處於「AI 末日循環」:人力資源部門抱怨收到大量 AI 生成的職位申請,導致需要更多的 AI 過濾器;申請者則抱怨自己被不公平地過濾掉。有些人用 AI 對抗 AI,在簡歷和求職信中塞滿關鍵字。「這對我來說感覺非常反烏托邦,」一位求職者告訴東北大學的研究人員。「我作為一個人、一名員工、一名勞動者的價值,竟然取決於我透過一系列自動化關卡過濾自己的能力。」

只有少數幾個州對使用 AI 篩選工具做出招聘決定進行了監管。伊利諾州、紐澤西州和科羅拉多州(尚未生效)的法律禁止雇主使用歧視性工具,但在透明度方面要求甚少,僅要求雇主通知申請者正在使用 AI。加州的規定更為嚴格,要求雇主定期測試其 AI 招聘工具是否存在偏見。但這些規則都沒有賦予個人權利去了解特定的 AI 招聘工具是如何評判他們的,或者是否對他們存在歧視。

於是,馬基開始著手一項不可能的任務。在接下來的六個月裡,他撰寫電子郵件、研究論文、法律請求,並不斷編寫 Python 程式碼,試圖窺探 AI 篩選器的內部。「這變成了一種執念,」馬基在二月告訴《連線》。「我想我這輩子從未如此沮喪過。」

馬基最早的醫學訓練始於高中,當時他整理父親裝處方藥的加侖塑膠袋,記錄藥名,然後去當地社區大學圖書館研究其用途。他的父親患有躁鬱症並酗酒,是一個充滿魅力、難以預測的能量球,既能展現巨大的愛,也能造成巨大的痛苦。

有一年聖誕節,也是馬基的生日,他的父親因為酒駕被捕而沒出現。另一個聖誕節,馬基望向窗外,發現他的卡車正被沒收,因為他父親把車當作發薪日貸款的抵押品。當馬基靠著佩爾助學金(Pell Grants)在外地上大學時,他的家人被迫宣布破產並失去了房子。在他 21 歲那年,他的父親去世了。

馬基記得自己對追求精神醫學產生興趣的那一刻。那是當他父親解釋為什麼開始酗酒時:在躁狂期,他會連續幾天不睡覺,唯一能讓他閉上眼睛的就是一瓶伏特加。「想到如果我當時說:『嘿,我們去找精神科醫生開低劑量的思樂康(Seroquel),讓你睡個覺,處理一下你的躁狂症』,誰知道會發生什麼事?這真的很令人難過。」

馬基原本準備在華爾街發展。但在與父親那次談話後,他找了一份醫療資訊學的工作,並計畫報考醫學院。2019 年進入達特茅斯學院前的那個夏天,他自青少年時期就有的背部僵硬感惡化了,骨盆感覺像一塊水泥。在醫學院二年級結束時,馬基被強直性脊椎炎擊倒了。他辦理了休學,奔波於各個醫生之間尋求治療,希望能繼續學業。

機器人頭部吞噬字母 A 的動畫

與此同時,Covid-19 疫情正衝擊著醫學界。在眾多挑戰中,醫院看到的住院醫師計畫申請數量大幅增加。疫情前,學生通常必須前往每家醫院面試。當面試轉為虛擬化後,他們可以申請比以前多出數十倍的計畫。馬基申請了 82 個。

這種激增使得醫院更難對申請進行分類和排序。2023 年,美國醫學院協會(AAMC)宣布與 Thalamus 合作,後者是一家名為 Cortex 的住院醫師申請篩選工具製造商。從 2025 年開始,該工具將免費供住院醫師計畫使用。

少數醫院已經開始使用 Cortex,它在易於閱讀的儀表板中顯示申請文件,並允許審核員按關鍵字搜尋或根據各種特徵過濾申請者。Cortex 還使用 OpenAI 生成模型的微調版本,在具有不同評分習慣的學校之間標準化成績。AAMC 的合作為該工具的廣泛採用打開了大門。根據 Thalamus 的數據,在 2025-2026 週期中,全國約有 1,500 個住院醫師計畫(即 30%)使用 Cortex 來審核申請者並做出選擇決定。

在 2025 年 9 月截止日期後的幾週內,當醫院開始審核申請時,問題浮現了。該公司發表聲明稱,一些住院醫師計畫報告 Cortex 顯示的部分人員成績不準確。在像馬基所在的 Discord 群組中,申請者們議論紛紛。

就在馬基對缺乏面試機會的焦慮達到頂峰時,他收到了一個令人興奮的消息:他提交的一篇研究摘要被接受,將在美國血液學會即將舉行的年會上發表,並同步刊登在《血液》(Blood)期刊上。接下來發生的事情加深了馬基的信念,即 AI 系統而非人類,才是導致他進入住院醫師計畫機會渺茫的原因。

馬基的簡歷上已經有 10 篇發表在醫學期刊上的文章,但他開始寫信給他排名最高的住院醫師計畫,分享這項最新成就的更新。他說,命運的轉變立竿見影。

在他寄出第一封郵件給全國頂尖精神科計畫之一的協調員後的一小時十五分鐘內,馬基收到了協調員上司熱情的回覆。不到一小時後,面試邀請就隨之而來,馬基的其他首選計畫也陸續發來邀請。

對馬基來說,這看起來像是「他們第一次看到一份甚至還沒出現在他們辦公桌上的申請書」。正如他當時所見,「我收到拒絕信,是因為他們已經根據儀表板上顯示的前一百名候選人填滿了前一百個名額。」

8位元角色攀爬二進位代碼行的動畫

就在馬基頓悟後的兩天,即 10 月 16 日,Thalamus 發布了一篇後續部落格文章,針對先前報告的 Cortex 問題進行說明。該公司表示,確實記錄到了顯示給住院醫師計畫的成績不準確的情況——但在超過 4,000 次客戶查詢中,僅有 10 個經過驗證的案例。Cortex 現在的準確度為「99.3%」。

Thalamus 後來告訴《連線》,在超過 12,000 次查詢中,公司沒有收到額外的不準確報告。但當時,關於 Cortex 如何使用 AI 的不明確性引發了論壇貼文和期刊文章。加州大學舊金山分校醫院負責耳鼻喉科住院醫師計畫的頭頸外科醫生史蒂芬·普萊徹(Steven Pletcher)告訴《連線》,他從另一家機構的同事那裡聽說,Cortex 顯示的部分成績「極其不準確」。普萊徹本身也從事住院醫師選拔過程的研究,他想親自調查這個平台。

「作為一名計畫主任,當你聽說『嘿,我們有這個 AI 系統來審核申請』時,你會想,我能不能直接讓它給我一份我應該面試的申請者名單?」普萊徹告訴《連線》。「我有一些擔憂,我想任何人也都會有,如果有一個新的審核系統,而它呈現的資訊是不準確的。」

在 11 月舉行的全國大學耳鼻喉科醫師學會會議上,普萊徹與一位同事坐下來,在 Cortex 中審核申請。該系統的主要功能之一是 AI 成績標準化工具。從普萊徹所見,圖表上顯示的特定申請者的成績可能每分鐘都在變化。

普萊徹和他的四位同事進行了一次結構化測試,並記錄了他們發現的錯誤。今年一月,他們在《喉鏡》(The Laryngoscope)期刊上發表了結果,描述了「Thalamus Cortex 系統中持續存在的錯誤,可能對住院醫師申請者和計畫產生負面影響」。

Thalamus 的執行長傑森·雷米尼克(Jason Reminick)告訴《連線》,學生和醫學院在 2025-2026 週期中對 Cortex 表達的許多擔憂,都是由於對該工具運作方式的誤解造成的。「很多社群成員突然可以使用這個工具,並在沒有真正經歷購買過程的情況下嘗試使用它,」他說。「我指的不僅是實際付錢,還包括了解該工具功能的探索過程。」

雷米尼克告訴《連線》,除了普萊徹的一封電子郵件外,Thalamus 沒有收到其他關於學生成績每分鐘變化的投訴。他說,這個錯誤是由於使用者在成績分布圖之間切換過快,導致顯示畫面短暫卡住。「這不會影響任何申請者在住院醫師選拔過程中的最終結果,」雷米尼克說。Thalamus 要求《喉鏡》撤回該文章。該期刊未回應《連線》的置評請求,也尚未撤稿。

隨著醫學生得知配對結果的日子臨近,馬基對 Cortex 的擔憂並未消失。二月,他聯繫了 Thalamus 的客服,詢問 Cortex 是否使用休學資訊來為候選人評分。「是否有任何因素影響『自動評分』或排序,取決於該特定計畫選擇使用什麼來進行排序/過濾,」一名 Thalamus 員工回覆道。「各計畫可以使用不同的工作流程和標準,我們不想暗示某個欄位(如 [休學] 類型)在所有地方都被普遍用作評分輸入。」

在隨後給《連線》的一份聲明中,Thalamus 對 Cortex 使用 AI 的情況做出了澄清。「我們理解社群中有很大一部分人對 AI 產品如此迅速地推出並融入社會的各個層面——包括像醫學生申請住院醫師計畫這樣敏感的案例——感到緊張,這是可以理解的,」聲明中寫道。該公司表示其方法一直是透明且謹慎的,但「強調有限的 AI 工具本可以更有助於防止對 AI 使用方式的誤解」。根據 Thalamus 的說法,「Cortex 不僅不是決策工具,它也沒有使用 AI 來對申請者進行排序、過濾、排除、評分或排名。」

當然,馬基並沒有從 Thalamus 那裡聽到這些。隨著配對日(Match Day)臨近,他唯一能參考的就是二月份收到的那封郵件,他將其解讀為「評分」正在運作。他仍然感覺到 AI 偏見——並想將其揪出來。

審計公司 Babl AI 的執行長謝伊·布朗(Shea Brown)表示,即使是能直接接觸篩選演算法的專業審計員,有時也無法理解演算法為何得出特定結論。當系統運行在大語言模型(LLM)上時,它天生就有一個「非常不透明的推理核心,任何關於它在哪裡做出決定的解釋性都被隱藏了,」他告訴《連線》。測試歧視的唯一方法是進行總體分析:例如,該工具是否對具有同等資格的殘障候選人給出明顯較低的分數?「這無法基於單個人的申請進行因果推論,」布朗說。

在馬基的情況下,他懷疑 AI 系統捕捉到了他 MSPE 中的特定措辭,一個人能做的最好的事情就是測試一份申請在有和沒有該措辭的情況下的表現。這就是馬基開始的地方。

首先,他將三個措辭略有不同的 MSPE 版本,放入 AAMC 推薦的一套 AI 公平性和偏見測試工具中。結果顯示,自然語言處理演算法對描述「個人原因」休學的句子,與指定休學是為了「醫療狀況」的句子,評估可能有所不同,但馬基不喜歡樣本量太小且測試缺乏背景資訊。

8位元角色跳上電腦化階梯的動畫

接著,他將兩個版本的 MSPE 休學措辭放入 VADER(一個開源的自然語言處理模型,可為單字和短語分配情感價值),發現對他休學情況的醫學準確描述,比 MSPE 中的「個人原因」措辭獲得了更正面的情感評分。隨後,他使用 Python 創建了一個包含 6,000 名住院醫師申請者的合成數據集。每個人都被分配了測試分數、成績、簡歷上的發表文章數量,以及關於推薦信強度和學術研究適合度的數值排名。馬基接著將他們分為兩組——一組的情感分析分數反映了他 MSPE 中的休學措辭,另一組則反映了醫學準確的措辭。

這兩組人在成績、測試分數和其他特徵方面具有同等資格。但當馬基將這些合成申請者放入一個訓練用於選出前 12% 申請者的邏輯回歸模型時,具有醫學準確 MSPE 措辭的那組人入選的可能性高出 66%。儘管如此,就像他的第一次測試一樣,這只能說明通用演算法可能如何評估他的申請。馬基想要了解 Thalamus 的工具。

他追蹤到了 Medicratic 公司建立的 AI 住院醫師申請篩選器的專利。Thalamus 於 2025 年收購了 Medicratic。專利描述了系統「可能」做什麼,而不一定是它「正在」做什麼,但這是馬基能找到的關於黑盒子內部可能發生什麼的最清晰解釋。

在 GitHub Copilot 以及最終 Anthropic 新發布的 Claude Code 工具的幫助下,馬基開始對 Medicratic 專利中描述的系統進行逆向工程,鏡像數據管道並儘可能使用相同的開源模組。必要時,他會參考 Claude Code 的建議和自己的研究。例如,在專利描述的系統可以為申請評分之前,住院醫師計畫必須指出它最看重哪些特徵——如學術表現、專業精神或領導力。馬基查閱了已發表的住院醫師選拔研究和對計畫主任的調查,以確定如何為這些特徵加權。

馬基在 3 月 20 日配對日前幾週完成了他的系統。他認為其輪廓和一般特徵接近於 Medicratic 專利中描述的工具處理相同輸入的方式。在花了四個多月剖析各種演算法後,這是他能做到的極限。再一次,當他在系統中運行不同版本的 MSPE 措辭時,結果截然不同:將休學原因從「個人原因」改為醫學準確的描述,會導致分數顯著提高。

那個月,馬基根據《新罕布夏州隱私法》向 Thalamus 發送了一份數據訪問請求,要求獲取該公司持有的關於他的所有個人數據。這包括:輸入到 Thalamus 系統中關於他的每份文件和數據點的全面清單;住院醫師計畫應用於他申請的每個偏好參數、權重和評分配置;Thalamus 根據這些數據計算出的每個分數、屬性評級和情感分析;以及關於他的數據是否以及如何被處理以減輕偏見的解釋。根據《新罕布夏州隱私法》,該公司有 45 天的時間做出回應。

《連線》聯繫了馬基申請的所有住院醫師計畫,詢問他們對 Cortex 的使用情況。大多數計畫未予回應或拒絕置評。五個計畫回覆說他們沒有使用該工具。耶魯紐哈芬健康中心(Yale New Haven Health)告訴《連線》,其住院醫師計畫嘗試過 Cortex 但已停止使用;發言人拒絕進一步置評。達特茅斯希區考克醫學中心(Dartmouth Hitchcock Medical Center)的研究生醫學教育計畫經理坦尼爾·道爾(Tennille Doyle)表示,中心有兩個住院醫師計畫在主任審核前使用 Cortex 過濾申請,但大多數工作人員更傾向於使用自己的篩選方法。

天普健康中心(Temple Health)媒體關係總監傑瑞米·沃特(Jeremy Walter)表示,該醫院 59 個住院醫師計畫中,有一個主要在「人工篩選」期間使用 Cortex 查看申請,且「總體而言,我們發現 AI 提供的資訊不太可靠」。他拒絕詳細說明。根據 Thalamus 的說法,天普大學的多個計畫在最近的選拔週期中使用了 Cortex。「與任何新功能一樣,特別是在大規模引入時,體驗會因功能的具體使用和解釋方式而異,」該公司表示。

AI 機器人頭部與幻覺眼睛的動畫

塔夫茨醫學中心(Tufts Medical Center)負責研究生醫學考核的卡里·羅伯茨(Kari Roberts)在給《連線》的電子郵件中表示,該校許多住院醫師計畫去年秋天首次嘗試 Cortex,用它來篩選掉任何不完整或未達到最低要求的申請。「整合 MSPE 數據的演算法中存在一些重大錯誤,導致成績分配錯誤,」羅伯茨寫道。「這並非我們組織獨有的問題,我們的院長團隊已即時向 Thalamus 團隊反映了這一點。」Thalamus 告訴《連線》,「極少數已識別的差異」已得到「及時調查和修正」,且「在某些案例中,最初被認為是不準確的地方,經確認與原始材料是一致的」。

在馬基開始主動寫信給計畫協調員後,他收到了 10 家機構的面試邀請,其中包括一些全國最負盛名的醫院。最終,他成功配對到哥倫比亞大學在紐約長老會醫院的精神科計畫,他將於七月在那裡開始住院醫師實習。

在他配對成功三天後,馬基收到了 Thalamus 對其數據訪問請求的回覆。該公司的幕僚長米歇爾·李(Michele Li)寫道,他申請的所有計畫都沒有使用馬基一直試圖逆向工程的 Medicratic 工具。Cortex 本身也沒有使用專利中描述的情感評分方法。

Thalamus 執行長雷米尼克向《連線》證實,在 2025-2026 週期中,Cortex 並未對申請者進行演算法評分或排名。他說,該工具主要將 AI 用於成績標準化,並顯示一個標記,指出申請者是否對學術研究感興趣。不過,雷米尼克表示,Thalamus 計畫試辦一款 AI 篩選器,允許住院醫師計畫建立候選人檔案,然後評估申請者與這些檔案的匹配程度。在試辦期間,申請者必須選擇加入(opt in)篩選。

即使在配對到哥倫比亞大學並收到 Thalamus 否認其猜疑的信件後,馬基表示他並不後悔花費數月時間拆解篩選工具。「我非常感激我所得到的一切,所以當有事情威脅到這一點時,我想確保我做出了正確的回應,」他說。事實上,他仍在繼續調查大語言模型如何捕捉求職申請材料中的語義信號,並將其嵌入到決策或建議的流程中。

即使在 AI 招聘工具的世界裡,也有證據表明,某種形式的正當程序(儘管不完美)是可以建立並納入監管的。AI 在人力資源領域最受歡迎的應用之一是進行背景調查。像 Checkr 這樣的公司每月自動處理數百萬份申請,將候選人姓名與公共記錄進行比對,尋找任何取消資格的犯罪活動證據。很多時候,這些系統會犯錯,導致人們失去工作。

但背景調查公司,無論是使用人工還是 AI,都受到聯邦《公平信用報告法》(Fair Credit Reporting Act)條款的約束,該法要求他們根據要求與求職者分享背景調查結果,在背景調查準確性受到質疑時進行調查,並向求職者發送調查的書面結果。求職者可以針對提供不準確報告的背景調查公司贏得或達成個人及集體訴訟和解。

這是一個自身也存在許多問題的系統,但它至少為個人求職者提供了一個除了對著虛空無助吶喊之外的選擇。並非每個人都必須是擁有資訊學和程式設計背景、且有強烈動機去據理力爭的常春藤盟校醫學生。

Wired - backchannel

相關文章

  1. AI原應「革新」工作,卻在許多辦公室引發混亂

    Hacker News · 3 個月前

  2. 史丹佛畢業生因初級AI職位流失引發憤慨

    Hacker News · 4 個月前

  3. 我們發布了一個職缺。隨之而來的是AI亂象、冒名頂替者和招聘詐騙

    Hacker News · 3 個月前

  4. 你可能正以MBA的方式使用AI(這就是問題所在)

    Hacker News · 4 個月前

  5. AI與就業:衰退早於ChatGPT開始

    Hacker News · 4 個月前