
Adobe 面臨擬議集體訴訟,被控AI訓練中濫用作者作品
Adobe 公司面臨一項擬議中的集體訴訟,指控該公司在訓練其 SlimLM 人工智慧模型時,使用了包括作者 Elizabeth Lyon 作品在內的盜版書籍。
就像幾乎所有現存的科技公司一樣,Adobe 在過去幾年裡大力投入人工智慧。這家軟體公司自 2023 年以來推出了許多不同的 AI 服務,包括 Firefly — 其由 AI 驅動的媒體生成套件。然而,如今該公司對這項技術的全面擁抱可能引發了麻煩,因為一項新訴訟聲稱它使用了盜版書籍來訓練其一項 AI 模型。
一項代表奧勒岡州作家 Elizabeth Lyon 提起的擬議集體訴訟聲稱,Adobe 使用了包括她自己的作品在內的眾多書籍的盜版版本,來訓練該公司的 SlimLM 程式。
Adobe 將 SlimLM 描述為一個小型語言模型系列,可以「針對行動裝置上的文件輔助任務進行優化」。它 聲稱 SlimLM 是在 SlimPajama-627B 上進行預訓練的,SlimPajama-627B 是由 Cerebras 在 2023 年 6 月發布的「去重複、多語料庫、開源數據集」由 Cerebras 發布。Lyon 是一位非小說寫作指南的作者,她表示她的部分作品被包含在 Adobe 使用的預訓練數據集中。
Lyon 的訴訟,最初由路透社報導,聲稱她的作品被包含在一個被操縱的數據集的處理子集中,而該數據集是 Adobe 程式的基礎:「SlimPajama 數據集是通過複製和操縱 RedPajama 數據集(包括複製 Books3)創建的,」訴訟中說。「因此,由於它是 RedPajama 數據集的衍生副本,SlimPajama 包含 Books3 數據集,包括原告和集體成員的版權作品。」
「Books3」— 一個龐大的 包含 191,000 本書的集合,曾被用於訓練 GenAI 系統 — 一直是科技界持續的法律麻煩來源。RedPajama 也被引用在多起訴訟案件中。九月,一項訴訟 指控蘋果公司使用版權材料來 訓練其 Apple Intelligence 模型。訴訟中提到了該數據集,並指控這家科技公司「未經同意,未給予署名或補償」地複製了受保護的作品。十月,針對 Salesforce 的一項類似訴訟 也 声称该公司已将 RedPajama 用于训练目的。
對科技行業來說不幸的是,這類訴訟如今已變得相當普遍。AI 演算法在龐大的數據集上進行訓練,在某些情況下,這些數據集據稱包含了盜版材料。九月,Anthropic 同意支付 15 億美元 給多位起訴它的作者,這些作者指控它使用其作品的盜版版本來訓練其聊天機器人 Claude。此案被認為是 AI 訓練數據中版權材料持續法律戰中的一個潛在轉折點,這類案件數量眾多。
Lucas 是 TechCrunch 的資深作家,負責報導人工智慧、消費科技和新創公司。他先前曾在 Gizmodo 報導 AI 和網路安全。您可以透過發送電子郵件至 [email protected] 與 Lucas 聯繫。
相關文章