網路上的機器人氾濫情況遠超你的想像
這篇文章介紹了 Anubis,這是一款利用工作量證明機制來對抗 AI 公司惡意爬蟲的保護工具,透過增加大規模數據採集的運算成本來減少伺服器負擔。這是一個過渡方案,目的是爭取時間開發更先進的瀏覽器指紋識別技術,以便在不干擾正常使用者的情況下精準攔截自動化程式。
背景
隨著人工智慧公司為了訓練模型而展開激進的網頁抓取,許多網站面臨伺服器負載過重甚至當機的困境。為了應對這場「機器人浩劫」,開發者推出了名為 Anubis 的防護方案,其核心概念源自於對抗垃圾郵件的「工作量證明」(Proof-of-Work, PoW)機制。這項技術要求瀏覽器執行一段運算任務以證明其非自動化腳本,旨在增加大規模抓取的成本,同時將對一般用戶的干擾降至最低。
社群觀點
在 Hacker News 的討論中,社群對於機器人氾濫的現狀感到憂心,甚至有留言者將此現象形容為「最終的永恆九月」,意指網路環境已發生不可逆的質變。許多開發者分享了第一線的慘痛經驗,例如在電子商務平台上,機器人會瘋狂嘗試商品的所有顏色與尺寸組合,這些請求雖然偽裝成正常流量,卻消耗了極大的系統資源。對於 Anubis 這種基於 PoW 的防禦手段,社群展現了兩極化的看法。支持者引用實驗數據指出,在啟用該機制後,原本每日高達數十萬次的請求在短短一天內驟降至個位數,這種顯著的抑制效果讓不少深受中國地區異常流量困擾的開發者感到振奮,並考慮在自己的專案中實施類似方案,同時搭配 llms.txt 等規範來引導良性爬蟲。
然而,技術層面的質疑也隨之而來。有網友指出 Anubis 目前的實作仍顯得過於簡單,甚至存在低級漏洞,例如系統預設會將特定的 User-Agent 設為白名單,這意味著抓取者只需簡單修改標頭資訊就能繞過防護,讓 PoW 機制形同虛設。此外,隱私保護也是討論的焦點之一,有人批評該專案在展示成效時,直接公開了包含訪客活動的原始日誌文件,這對於可能包含在內的合法使用者來說,無疑是一種隱私侵犯。
更深層的討論則延伸到了網路身分驗證的未來。有意見認為,如果機器人問題持續惡化,由政府管理的數位身分認證或許會成為一種合理的解決方案,讓每個請求都必須證明背後的真實身分。但這種觀點隨即遭到其他成員的冷嘲熱諷,反映出技術社群對於隱私與監管之間權衡的敏感度。最後,有留言者提醒大家,網路環境的惡化速度遠超想像,即便是 2024 年的研究報告,其數據可能也早已過時,無法完全反映當前機器人技術日新月異的現狀。
延伸閱讀
在討論中被提及的相關技術與資源包括:Hashcash(Anubis 所參考的 PoW 原始提案)、JShelter(一種可能干擾此類防禦機制的瀏覽器插件),以及 llms.txt(一種新興的標準,用於向大型語言模型爬蟲提供網站摘要)。