我對 ChatGPT、Claude、Perplexity 和 Gemini 進行提問並觀察我的 Nginx 日誌

我對 ChatGPT、Claude、Perplexity 和 Gemini 進行提問並觀察我的 Nginx 日誌

Hacker News·

這篇文章透過分析 Nginx 存取日誌來區分 AI 供應商端的原始伺服器擷取與實際的人類推薦流量,揭示了不同 AI 模型如何與網頁伺服器進行互動。

背景

隨著人工智慧工具逐漸成為獲取資訊的主要入口,網站經營者開始關注這些 AI 產品究竟是如何與網站互動的。本文作者透過分析 Nginx 伺服器的存取紀錄,實測了 ChatGPT、Claude、Perplexity 以及 Google Gemini 在回應使用者提問時,是即時抓取網頁內容還是僅依賴預先建立的索引。這項實驗揭示了不同 AI 廠商在檢索機制上的顯著差異,並區分了「供應商抓取」與「真實訪客流量」這兩種截然不同的數據訊號。

社群觀點

針對這項實驗結果,Hacker News 的社群討論呈現出多樣的反應,從技術實踐的趣味性到對內容品質的質疑皆有。部分讀者對這種回歸原始日誌分析的作法表示讚賞,認為這是一種既有趣又直觀的驗證方式,並打算在自己的網站上進行類似的測試。這種「動手做」的精神在技術社群中獲得了不少共鳴,甚至有討論者幽默地將各大 AI 的行為進行了擬人化總結:ChatGPT 像是發動輕量化阻斷服務攻擊的常客,Claude 則是會乖乖遵守規則的禮貌訪客,Perplexity 的出現帶有隨機性,而 Google 則展現了其作為搜尋巨頭的壓倒性優勢,早在使用者提問前就已經透過既有的搜尋索引掌握了一切,根本不需要額外的抓取動作。

然而,並非所有讀者都對這篇文章的呈現方式感到滿意。有評論者尖銳地指出,雖然文章探討的技術內容相當有趣,但其寫作風格充滿了典型的 AI 生成痕跡,例如過度使用對比式的修辭與刻意的轉折語氣,這種被形容為「數位廢料」的語感讓部分讀者感到反感,認為這反而削弱了實驗數據的可信度。此外,技術層面的討論也延伸到了防禦與反制手段,有網友提議既然已經確認了特定 AI 的使用者代理字串,網站主便可以針對這些特定對象回傳經過設計的提示詞注入文本,藉此干擾 AI 的判讀或進行惡作劇。

在數據細節方面,社群也展現了對技術規格的好奇心。例如有開發者詢問這些 AI 抓取工具在請求標頭中是否會明確要求 Markdown 格式,這反映出開發者對於 AI 如何解析網頁結構的關注。同時,也有人對這種頻繁抓取所產生的成本與資源消耗表示疑慮。整體而言,社群共識在於認同區分「搜尋索引機器人」與「即時檢索機器人」的重要性,因為這直接影響了網站主如何解讀流量來源,以及如何制定相應的機器人阻擋策略。

延伸閱讀

在討論過程中,有參與者提到了可以利用 robots.txt 檢查工具來確認自家網站對不同類型 AI 機器人的開放程度。這類工具能協助網站主快速辨識哪些是負責訓練的機器人、哪些是負責搜尋索引的機器人,以及哪些是本文重點討論的即時檢索機器人,進而精確控管網站內容被 AI 利用的方式。

Hacker News

相關文章

其他收藏 · 0