數據科學家的復仇

Hacker News·8 天前

原文

Hamel Husain 主張雖然 LLM API 讓開發團隊在初步導入 AI 時繞過了數據科學家，但數據科學家在嚴謹實驗、指標設計與數據分析的核心技能，對於超越感覺導向的開發並建立可靠系統而言，現在比以往任何時候都更加關鍵。

hamel.dev

revenge

背景

隨著大型語言模型（LLM）與 API 的普及，傳統數據科學家在企業中作為「AI 開發守門員」的地位正受到挑戰。Hamel Husain 在其文章中指出，雖然模型訓練不再是核心，但數據科學家在建立實驗框架、調試隨機系統以及設計評估指標（Evals）方面的專業能力，反而在 LLM 時代變得更加不可或缺。

社群觀點

針對數據科學家是否能藉由「評估與監控」重返核心地位，Hacker News 社群展開了激烈的辯論。支持者認為，當前的生成式 AI 開發過於依賴直覺與「感覺」（Vibes），缺乏嚴謹的科學方法。有留言指出，開發者應該將上下文數據視為訓練數據，並將評估指標視為測試數據，這種從數據出發的思維正是數據科學家的強項。部分討論者認同「評估即測試」的觀點，強調在複雜的代理人系統中，必須在某處錨定「地面實況」（Ground Truth），否則系統將陷入無法驗證的困境。

然而，社群中也存在相當強烈的悲觀情緒。反對者認為，數據科學家過去之所以受到重視，是因為模型開發被視為一種需要深厚數學功底的「黑魔法」，具有極高的專業護城河。但在生成式 AI 時代，價值創造者變成了模型供應商與調用 API 的工程師，提示詞工程（Prompt Engineering）並不需要高深的統計學知識。這導致數據科學家的角色轉向評估與監控，而這些任務在企業主眼中往往被視為「阻礙產品上線」的成本，而非核心價值。

此外，有觀點指出數據科學家在實務中面臨的另一大挑戰是數據本身的真實性。許多時候，數據科學家的工作並非單純設計指標，而是要戳破企業內部對數據的過度幻想，確認數據的實際樣貌。也有開發者分享，與其建立複雜的「LLM 作為評審」（LLM-as-a-judge）流程，有時直接觀察代理人的運作過程反而更有效率。這種對於自動化評估工具的懷疑，反映出目前 AI 開發仍處於摸索階段，尚未形成統一的專業標準。

最後，社群對於數據科學家的職業護城河是否依然存在仍無共識。雖然具備數據背景的人在定義問題與衡量偏差上確實有先發優勢，但如果軟體工程師能快速掌握這些評估技巧，數據科學家可能難以僅憑「監控者」的身份維持其高薪與地位。

數據科學家的復仇

背景

社群觀點

延伸閱讀