newsence
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

網際網路最強大的存檔工具正陷入危機

網際網路最強大的存檔工具正陷入危機

Wired - AI·大約 4 小時前

隨著各大新聞媒體切斷與時光機的聯繫,記者和倡議團體正集結起來,保護網際網路檔案館龐大的網頁收藏。

本月,《今日美國》(USA Today)發表了一份出色的報告,揭露了美國移民及海關執法局(ICE)如何延遲披露其拘留政策影響的關鍵資訊。作者利用網際網路檔案館(Internet Archive)的「時光機」(Wayback Machine)彙整並分析了來自 ICE 的拘留統計數據,並追蹤該機構在川普政府領導下的變化。這個故事是「時光機」抓取並保存網頁以維護公眾利益的無數案例之一。然而,「時光機」總監馬克·格雷厄姆(Mark Graham)表示,這也顯得「有些諷刺」。

《今日美國》公司(USA Today Co.,前身為 Gannett 出版集團,旗下擁有同名報紙及 200 多家媒體機構)目前禁止「時光機」存檔其作品。格雷厄姆說:「他們之所以能完成報導研究,是因為『時光機』的存在。但與此同時,他們卻在阻斷存取。」

許多其他主要新聞機構最近也採取行動,限制「時光機」存檔其報導,其中包括《紐約時報》。根據人工智慧檢測初創公司 Originality AI 的分析,目前有 23 家主要新聞網站正封鎖 ia_archiverbot,這是網際網路檔案館為「時光機」專案常用的網路爬蟲。社群平台 Reddit 也是如此。其他媒體則以不同方式限制該專案:例如《衛報》(The Guardian)雖然不封鎖爬蟲,但將其內容排除在網際網路檔案館的 API 之外,並從「時光機」界面中過濾掉文章,這使得一般大眾更難獲取其文章的存檔版本。

《今日美國》公司發言人拉克-瑪麗·安東(Lark-Marie Anton)強調,「這項舉措並非專門針對網際網路檔案館」,而是公司封鎖所有抓取機器人的廣泛行動之一。而《衛報》商務與授權總監羅伯特·哈恩(Robert Hahn)則表示,他們一直與檔案館進行溝通,原因是「擔心 AI 公司可能會濫用為了保存目的而抓取的內容集」。

現在,個別記者正開始抵制這一趨勢。本週,包括電子前哨基金會(EFF)和「為未來而戰」(Fight for the Future)在內的倡議組織號召記者支持「時光機」。該聯盟收集了 100 多名認同該工具價值的在職記者的簽名,並向網際網路檔案館遞交了一封支持信。簽署者包括電視界名人瑞秋·梅道(Rachel Maddow),以及如 Spitfire News 的凱特·滕巴格(Kat Tenbarge)和 User Mag 的泰勒·洛倫茲(Taylor Lorenz)等獨立記者。信中寫道:「在過去的世代,記者會求助於地方報紙或公共圖書館的實體檔案,以獲取歷史報導並追溯現狀的歷史脈絡。隨著許多報紙倒閉,且地方公共圖書館缺乏保存純數位報導的明確路徑,維護新聞紀錄的重任日益落在網際網路檔案館身上。」

簽署者之一、《攔截》(The Intercept)的播客監製勞拉·弗林(Laura Flynn)表示,網際網路檔案館在她職業生涯中一直是「不可或缺的工具」,在事實查核和挖掘音訊片段方面發揮了重要作用。另一位簽署者、《芝加哥讀者》(Chicago Reader)作家米科·卡波拉萊(Micco Caporale)則表示,「時光機」在撰寫關於老牌樂團和文化人物的報導時非常有幫助,因為它提供了存取那些若非如此便會隨時間消失的舊粉絲網站的途徑。

卡波拉萊還提到,該工具在她作為工會組織者的角色中也很有用。「在工會組織工作中,我也大量使用『時光機』來尋找舊的招聘啟事,這樣我們就能知道公司聲稱招聘的職責與實際分配的職責有何不同,或者觀察不同職位在不同時期的調整情況,」卡波拉萊說。「這些貼文還能幫助我們追蹤整個組織隨時間推移的薪資波動。」

其他出版商則辯稱,封鎖「時光機」是出於對科技公司可能利用網際網路檔案館數據來訓練人工智慧模型的擔憂。《紐約時報》發言人格雷厄姆·詹姆斯(Graham James)表示:「問題在於,網際網路檔案館上的《時報》內容正被 AI 公司違反版權法地使用,與我們直接競爭。」(《時報》拒絕澄清這是否為已發生的事實,還是僅為假設性的擔憂。)

Reddit 此前也曾表示,對 AI 的擔憂促使它封鎖了「時光機」的爬蟲。出版商與 AI 公司之間正就 AI 工具在未經許可的情況下利用其內容進行訓練的合法性展開一場戰爭;美國 100 多起 AI 版權訴訟中,許多都聚焦於此問題。科技公司使用來自整個網路的內容,而由於「時光機」提供了如此龐大的資料庫,它被視為一個特別具有吸引力的數據源。

網際網路檔案館已成立 30 年,存檔了超過一兆個網頁。自 2020 年以來,這家非營利機構經歷了幾場重大的法律鬥爭。最近,它與一群主要音樂出版商達成和解,後者曾因檔案館存檔老式唱片的「Great 78s」專案要求高達 7 億美元的賠償。雖然目前沒有面臨重大的財務處罰,但媒體機構封鎖「時光機」的日益增長的趨勢,仍對其使命構成了嚴重威脅。

目前還沒有任何廣泛可用的公共工具能與「時光機」相提並論。如果它繼續失去對主要新聞來源的存取權,其保存工作可能會受到侵蝕,導致早期的數位歷史記錄變得極難獲取,甚至完全遺失。值得注意的是,該工具曾被用於針對《紐約時報》的報導:2016 年,該報因對一篇關於美國參議員、時任總統候選人伯尼·桑德斯(Bernie Sanders)的文章進行編輯修改而受到質疑。這些修改最初正是透過「時光機」追蹤發現的。

如果今天發生類似情況,監督媒體的記者可能難以再以同樣的方式追蹤《時報》文章的舊版本。一個功能受限的「時光機」不僅對問責新聞來說是個壞消息,對法律體系也是一記重擊,因為該工具存檔的頁面經常在全美各地的訴訟中被引用為證據。

網際網路檔案館的馬克·格雷厄姆並未放棄希望,他期待目前封鎖爬蟲的部分出版商最終能改變心意。他表示,該非營利組織正與《時報》及其他媒體進行「對話」。但格雷厄姆也指出,目前「毫無疑問,越來越多的公共網路被封鎖,正影響著社會理解世界現狀的能力」。

https://wired.com/story/the-internets-most-powerful-archiving-tool-is-in-mortal-peril/