我贏得了一場不存在的錦標賽:我如何學會污染大型語言模型供應鏈

我贏得了一場不存在的錦標賽:我如何學會污染大型語言模型供應鏈

Hacker News·

我透過修改維基百科並註冊個人網域,成功偽造了一個世界冠軍頭銜並讓多個頂尖語言模型採信,這揭示了人工智慧檢索增強生成機制在信任模型上的嚴重漏洞。

背景

本文作者分享了他如何透過註冊一個虛假網站並在維基百科(Wikipedia)進行小幅編輯,成功讓多款主流大型語言模型(LLM)誤認他為 2025 年「6 Nimmt!」紙牌遊戲的世界冠軍。這項實驗揭示了當前 AI 檢索增強生成(RAG)技術的脆弱性,即攻擊者只需極低成本便能透過「循環引用」誤導 AI 的事實判斷,進而污染整個資訊供應鏈。

社群觀點

Hacker News 的討論圍繞著這類「資訊投毒」的本質及其對未來社會的影響。許多留言者指出,這並非 LLM 特有的問題,而是人類資訊傳播史的延續。從印刷機發明到 Google 搜尋時代,SEO 操弄與虛假訊息始終存在,只是 AI 加速了傳播速度並降低了門檻。有觀點認為,這種行為本質上是維基百科長期存在的「引用起源」(Citogenesis)現象,即虛假資訊在維基百科被引用後,逐漸被其他媒體視為真理,最終形成無法追溯來源的偽事實。

部分討論者對作者的行為持保留態度,認為這類實驗帶有「盧德主義」色彩,甚至有破壞維基百科公共信用之嫌。他們將此比喻為在馬路上亂丟石頭來證明開車很危險,雖然確實揭露了風險,但也對基礎設施造成了負擔。然而,支持者反駁這類研究極具價值,因為它展示了 LLM 在面對「全新且不具衝突性」的資訊時幾乎毫無防禦能力。比起扭曲已知的歷史事實,製造全新的虛假敘事(如虛構的獎項或醜聞)更容易被 AI 採信,因為模型在訓練數據中找不到反證。

社群也對「信任」的轉移感到憂慮。過去人們信任大英百科全書或知名新聞品牌,後來轉向信任搜尋引擎的排名,現在則開始盲目信任 AI 生成的權威口吻。留言中提到,許多使用者已經開始將 AI 視為真理來源,甚至在爭論中引用 AI 的回答作為論據。這種「修辭技巧」短路了人類的理性判斷,使得驗證來源變得更加困難。更有討論者指出,如果個人能以 12 美元的成本達成此目的,那麼擁有龐大資源的國家級組織或公關公司,將能更輕易地重寫歷史或進行大規模的輿論操弄。

最後,有留言者分享了類似的親身經歷,例如在 Reddit 上的錯誤技術假設幾年後被 AI 當作解決方案引用,或是透過單一部落格文章成功為一頭鯨魚命名並被 Google 採納。這些案例共同指向一個共識:在 AI 時代,品牌信譽與源頭驗證將變得比以往任何時候都更重要,因為當底層數據被污染時,再強大的模型也無法分辨真偽。

延伸閱讀

  • Teresa T Whale: Simon Willison 分享他如何透過單一部落格與影片,讓 AI 誤認一頭鯨魚的名字。
  • Citogenesis (Wikipedia): 維基百科關於「引用起源」現象的條目,描述資訊如何透過循環引用變成「事實」。
  • Polybius 紀錄片: 由 Ahoy 製作的深度調查,探討一個不存在的街機遊戲如何演變成廣為流傳的都市傳說。
  • BBC 報導: 關於記者如何透過類似手段誤導 ChatGPT 的相關案例。

Hacker News

相關文章

  1. 生成式AI與維基百科編輯:2025年的關鍵學習

    3 個月前

  2. 維基百科上的AI生成內容:一個警示故事

    4 個月前

  3. 維基百科的AI寫作跡象:用於偵測的Vale規則集

    3 個月前

  4. RAG 系統中的文件投毒:攻擊者如何污染 AI 的資料來源

    大約 2 個月前

  5. 利用大型語言模型進行大規模線上去匿名化研究

    2 個月前

其他收藏 · 0