Mercor 遭駭：4 萬名 AI 外包人員的 4TB 語音樣本外洩

Hacker News·大約 7 小時前

勒索組織 Lapsus$ 洩露了來自 Mercor 的 4TB 數據，其中包含 40,000 名外包人員的語音生物特徵及其政府身分證件，這為武器化的合成語音克隆創造了極高風險。

mercor breach 2026

背景

2026 年 4 月，勒索組織 Lapsus$ 聲稱從 AI 承包商平台 Mercor 竊取了高達 4TB 的數據，內容涵蓋超過四萬名數據標註員與 AI 訓練人員的敏感資料。這起事件之所以引發高度關注，是因為外洩內容不僅包含高品質的語音樣本，還與受害者的政府身分證件掃描檔成對綁定，為深偽技術（Deepfake）提供了完美的素材庫。

社群觀點

Hacker News 的討論圍繞著數據隱私、企業責任以及語音生物辨識的脆弱性展開。許多用戶對 Mercor 處理數據的方式感到憤怒，認為該公司以「訓練數據」為名收集語音，卻未明確告知這同時也是永久性的生物識別特徵，這種行為無異於欺騙。社群普遍認為，這類事件再次證明了數據減量（Datensparsamkeit）的重要性，即企業不應收集非必要的數據。然而，隨著大型語言模型（LLM）的興起，業界風氣正朝向「數據越多越好」的極端發展，使得原本被視為負債的冗餘數據，在 AI 時代反而成了企業爭相囤積的資產。

針對外洩後的補救措施，社群內出現了激烈的辯論。有觀點建議受害者應與家人或財務聯繫人設定「口語暗號」，以防範語音複製詐騙。但反對者指出，這種做法在現實中極難執行，特別是金融機構處理成千上萬的客戶，現有的系統與流程根本無法安全地儲存或驗證個人化的暗號。此外，關於「更換語音特徵」的建議也遭到質疑，因為生物特徵的本質就是難以改變，如果僅僅更換錄音環境就能改變語音特徵，那這項技術本身就毫無安全性可言。

更有討論者將矛頭指向當前的技術環境，認為銀行與政府將身分驗證外包給這類第三方平台是極其危險的。這些平台往往是駭客眼中的肥羊，且管理水平參差不齊，用戶提供的任何資料都應被假設最終會遭到外洩。更有留言諷刺地指出，文章作者提供的「驗證語音是否被濫用」的服務，本身可能又是另一種收集語音數據的陷阱。此外，也有人預測，隨著這批高品質語音數據流入黑市，未來半年內可能會看到語音合成技術（TTS）出現爆發性的進步，因為許多模型開發者可能正暗中使用這些非法獲取的數據進行訓練。

延伸閱讀

在討論中，作者提到了幾項用於檢測語音偽造的技術工具，包括 AudioSeal 水印檢測技術，以及 AASIST 反欺騙（Anti-spoofing）框架。這些技術在語音生物辨識大規模外洩的背景下，正成為鑑識領域的重要防線。

— Hacker News

其他收藏 · 0

你的個人知識庫

Mercor 遭駭：4 萬名 AI 外包人員的 4TB 語音樣本外洩

背景

社群觀點

延伸閱讀