Adobe 面臨擬議集體訴訟，被控AI訓練中濫用作者作品

Techcrunch·4 個月前

Adobe 公司面臨一項擬議中的集體訴訟，指控該公司在訓練其 SlimLM 人工智慧模型時，使用了包括作者 Elizabeth Lyon 作品在內的盜版書籍。

就像幾乎所有現存的科技公司一樣，Adobe 在過去幾年裡大力投入人工智慧。這家軟體公司自 2023 年以來推出了許多不同的 AI 服務，包括 Firefly — 其由 AI 驅動的媒體生成套件。然而，如今該公司對這項技術的全面擁抱可能引發了麻煩，因為一項新訴訟聲稱它使用了盜版書籍來訓練其一項 AI 模型。

一項代表奧勒岡州作家 Elizabeth Lyon 提起的擬議集體訴訟聲稱，Adobe 使用了包括她自己的作品在內的眾多書籍的盜版版本，來訓練該公司的 SlimLM 程式。

Adobe 將 SlimLM 描述為一個小型語言模型系列，可以「針對行動裝置上的文件輔助任務進行優化」。它聲稱 SlimLM 是在 SlimPajama-627B 上進行預訓練的，SlimPajama-627B 是由 Cerebras 在 2023 年 6 月發布的「去重複、多語料庫、開源數據集」由 Cerebras 發布。Lyon 是一位非小說寫作指南的作者，她表示她的部分作品被包含在 Adobe 使用的預訓練數據集中。

Lyon 的訴訟，最初由路透社報導，聲稱她的作品被包含在一個被操縱的數據集的處理子集中，而該數據集是 Adobe 程式的基礎：「SlimPajama 數據集是通過複製和操縱 RedPajama 數據集（包括複製 Books3）創建的，」訴訟中說。「因此，由於它是 RedPajama 數據集的衍生副本，SlimPajama 包含 Books3 數據集，包括原告和集體成員的版權作品。」

「Books3」— 一個龐大的包含 191,000 本書的集合，曾被用於訓練 GenAI 系統 — 一直是科技界持續的法律麻煩來源。RedPajama 也被引用在多起訴訟案件中。九月，一項訴訟指控蘋果公司使用版權材料來訓練其 Apple Intelligence 模型。訴訟中提到了該數據集，並指控這家科技公司「未經同意，未給予署名或補償」地複製了受保護的作品。十月，針對 Salesforce 的一項類似訴訟也声称该公司已将 RedPajama 用于训练目的。

對科技行業來說不幸的是，這類訴訟如今已變得相當普遍。AI 演算法在龐大的數據集上進行訓練，在某些情況下，這些數據集據稱包含了盜版材料。九月，Anthropic 同意支付 15 億美元給多位起訴它的作者，這些作者指控它使用其作品的盜版版本來訓練其聊天機器人 Claude。此案被認為是 AI 訓練數據中版權材料持續法律戰中的一個潛在轉折點，這類案件數量眾多。

Lucas 是 TechCrunch 的資深作家，負責報導人工智慧、消費科技和新創公司。他先前曾在 Gizmodo 報導 AI 和網路安全。您可以透過發送電子郵件至 [email protected] 與 Lucas 聯繫。

查看簡介

— Techcrunch

你的個人知識庫

Adobe 面臨擬議集體訴訟，被控AI訓練中濫用作者作品