
辭典出版商起訴 OpenAI
大英百科全書與梅里亞姆-韋伯斯特公司已對 OpenAI 提起訴訟,指控這家 AI 巨頭未經許可使用近 10 萬篇受版權保護的文章來訓練其語言模型。
《大英百科全書》(Encyclopedia Britannica)與《梅里亞姆-韋伯斯特》(Merriam-Webster)已對 OpenAI 提起訴訟,在訴狀中指控這家 AI 巨頭犯下了「大規模侵犯版權」的行為。
擁有《梅里亞姆-韋伯斯特》的《大英百科全書》公司在訴訟中指稱,該出版商擁有近 100,000 篇線上文章的版權,而這些文章在未經許可的情況下被抓取並用於訓練 OpenAI 的大型語言模型(LLM)。
《大英百科全書》還指控 OpenAI 在生成包含其內容「全部或部分逐字複製」的輸出,以及該 AI 實驗室在 ChatGPT 的 RAG(檢索增強生成)工作流程中使用其文章時,違反了版權法。OpenAI 的 RAG 工具是 LLM 在回應查詢時,掃描網路或其他資料庫以獲取最新資訊的方式。《大英百科全書》還指稱,OpenAI 在生成虛假的「幻覺」並將其錯誤地歸因於該出版商時,違反了《蘭哈姆法案》(Lanham Act,一項商標法規)。
訴狀寫道:「ChatGPT 通過生成對用戶查詢的回答,取代了像《大英百科全書》這類出版商的內容並與之直接競爭,使這些網路出版商失去了收入。」《大英百科全書》還指稱,ChatGPT 的幻覺危及了「公眾持續獲取高品質且值得信賴的線上資訊的機會」。
《大英百科全書》加入了其他多家出版商和作家的行列,就版權問題對 OpenAI 採取法律行動。包括《紐約時報》、Ziff Davis(旗下擁有 Mashable、CNET、IGN、PC Mag 等)、以及美國和加拿大各地的十幾家報紙,包括《芝加哥論壇報》、《丹佛郵報》、《太陽哨兵報》、《多倫多星報》和加拿大廣播公司(CBC)都已起訴 OpenAI。
《大英百科全書》針對 Perplexity 提起的類似訴訟目前仍在審理中。
目前尚無強有力的法律先例來確定使用受版權保護的內容訓練 LLM 是否構成侵權。但在一個特定案例中,Anthropic 成功說服了聯邦法官 William Alsup,使其相信這種用途——將內容作為訓練數據——具有足夠的「轉化性」而合法。然而,Alsup 認為 Anthropic 違法下載了數百萬本書籍而非付費購買,這導致了針對受影響作家的 15 億美元集體訴訟和解。
OpenAI 在發稿前未回應 TechCrunch 的置評請求。