
Mercor 遭駭:4 萬名 AI 外包人員的 4TB 語音樣本外洩
勒索組織 Lapsus$ 洩露了來自 Mercor 的 4TB 數據,其中包含 40,000 名外包人員的語音生物特徵及其政府身分證件,這為武器化的合成語音克隆創造了極高風險。
背景
2026 年 4 月,勒索組織 Lapsus$ 聲稱從 AI 承包商平台 Mercor 竊取了高達 4TB 的數據,內容涵蓋超過四萬名數據標註員與 AI 訓練人員的敏感資料。這起事件之所以引發高度關注,是因為外洩內容不僅包含高品質的語音樣本,還與受害者的政府身分證件掃描檔成對綁定,為深偽技術(Deepfake)提供了完美的素材庫。
社群觀點
Hacker News 的討論圍繞著數據隱私、企業責任以及語音生物辨識的脆弱性展開。許多用戶對 Mercor 處理數據的方式感到憤怒,認為該公司以「訓練數據」為名收集語音,卻未明確告知這同時也是永久性的生物識別特徵,這種行為無異於欺騙。社群普遍認為,這類事件再次證明了數據減量(Datensparsamkeit)的重要性,即企業不應收集非必要的數據。然而,隨著大型語言模型(LLM)的興起,業界風氣正朝向「數據越多越好」的極端發展,使得原本被視為負債的冗餘數據,在 AI 時代反而成了企業爭相囤積的資產。
針對外洩後的補救措施,社群內出現了激烈的辯論。有觀點建議受害者應與家人或財務聯繫人設定「口語暗號」,以防範語音複製詐騙。但反對者指出,這種做法在現實中極難執行,特別是金融機構處理成千上萬的客戶,現有的系統與流程根本無法安全地儲存或驗證個人化的暗號。此外,關於「更換語音特徵」的建議也遭到質疑,因為生物特徵的本質就是難以改變,如果僅僅更換錄音環境就能改變語音特徵,那這項技術本身就毫無安全性可言。
更有討論者將矛頭指向當前的技術環境,認為銀行與政府將身分驗證外包給這類第三方平台是極其危險的。這些平台往往是駭客眼中的肥羊,且管理水平參差不齊,用戶提供的任何資料都應被假設最終會遭到外洩。更有留言諷刺地指出,文章作者提供的「驗證語音是否被濫用」的服務,本身可能又是另一種收集語音數據的陷阱。此外,也有人預測,隨著這批高品質語音數據流入黑市,未來半年內可能會看到語音合成技術(TTS)出現爆發性的進步,因為許多模型開發者可能正暗中使用這些非法獲取的數據進行訓練。
延伸閱讀
在討論中,作者提到了幾項用於檢測語音偽造的技術工具,包括 AudioSeal 水印檢測技術,以及 AASIST 反欺騙(Anti-spoofing)框架。這些技術在語音生物辨識大規模外洩的背景下,正成為鑑識領域的重要防線。
相關文章
其他收藏 · 0