我對 ChatGPT、Claude、Perplexity 和 Gemini 進行提問並觀察我的 Nginx 日誌

Hacker News·大約 5 小時前

這篇文章透過分析 Nginx 存取日誌來區分 AI 供應商端的原始伺服器擷取與實際的人類推薦流量，揭示了不同 AI 模型如何與網頁伺服器進行互動。

nginx logs ai traffic vs referral traffic

背景

隨著人工智慧工具逐漸成為獲取資訊的主要入口，網站經營者開始關注這些 AI 產品究竟是如何與網站互動的。本文作者透過分析 Nginx 伺服器的存取紀錄，實測了 ChatGPT、Claude、Perplexity 以及 Google Gemini 在回應使用者提問時，是即時抓取網頁內容還是僅依賴預先建立的索引。這項實驗揭示了不同 AI 廠商在檢索機制上的顯著差異，並區分了「供應商抓取」與「真實訪客流量」這兩種截然不同的數據訊號。

社群觀點

針對這項實驗結果，Hacker News 的社群討論呈現出多樣的反應，從技術實踐的趣味性到對內容品質的質疑皆有。部分讀者對這種回歸原始日誌分析的作法表示讚賞，認為這是一種既有趣又直觀的驗證方式，並打算在自己的網站上進行類似的測試。這種「動手做」的精神在技術社群中獲得了不少共鳴，甚至有討論者幽默地將各大 AI 的行為進行了擬人化總結：ChatGPT 像是發動輕量化阻斷服務攻擊的常客，Claude 則是會乖乖遵守規則的禮貌訪客，Perplexity 的出現帶有隨機性，而 Google 則展現了其作為搜尋巨頭的壓倒性優勢，早在使用者提問前就已經透過既有的搜尋索引掌握了一切，根本不需要額外的抓取動作。

然而，並非所有讀者都對這篇文章的呈現方式感到滿意。有評論者尖銳地指出，雖然文章探討的技術內容相當有趣，但其寫作風格充滿了典型的 AI 生成痕跡，例如過度使用對比式的修辭與刻意的轉折語氣，這種被形容為「數位廢料」的語感讓部分讀者感到反感，認為這反而削弱了實驗數據的可信度。此外，技術層面的討論也延伸到了防禦與反制手段，有網友提議既然已經確認了特定 AI 的使用者代理字串，網站主便可以針對這些特定對象回傳經過設計的提示詞注入文本，藉此干擾 AI 的判讀或進行惡作劇。

在數據細節方面，社群也展現了對技術規格的好奇心。例如有開發者詢問這些 AI 抓取工具在請求標頭中是否會明確要求 Markdown 格式，這反映出開發者對於 AI 如何解析網頁結構的關注。同時，也有人對這種頻繁抓取所產生的成本與資源消耗表示疑慮。整體而言，社群共識在於認同區分「搜尋索引機器人」與「即時檢索機器人」的重要性，因為這直接影響了網站主如何解讀流量來源，以及如何制定相應的機器人阻擋策略。

延伸閱讀

在討論過程中，有參與者提到了可以利用 robots.txt 檢查工具來確認自家網站對不同類型 AI 機器人的開放程度。這類工具能協助網站主快速辨識哪些是負責訓練的機器人、哪些是負責搜尋索引的機器人，以及哪些是本文重點討論的即時檢索機器人，進而精確控管網站內容被 AI 利用的方式。

— Hacker News

其他收藏 · 0

你的個人知識庫

我對 ChatGPT、Claude、Perplexity 和 Gemini 進行提問並觀察我的 Nginx 日誌

背景

社群觀點

延伸閱讀