我抓取了 194 萬張 Airbnb 照片，尋找鴉片煙館、寵物亂入與凌亂廚房

Hacker News·大約 7 小時前

我利用 Burla 高效能平行處理函式庫，結合 CLIP 與 Claude Haiku 等 AI 模型，分析了近 200 萬張 Airbnb 房源照片，從中篩選出極度凌亂的房間、寵物身影以及各種奇特的室內設計與評論。

背景

這篇文章介紹了一項基於 Burla 高效能平行處理庫的大規模數據實驗。開發者抓取了 Inside Airbnb 開放數據集中的 194 萬張房源照片與 5,000 萬條評論，利用 CLIP 模型進行初步篩選，再透過 Claude Haiku Vision 模型進行二次驗證，旨在找出具有「鴉片煙館風格」、混亂廚房、寵物出鏡或電視安裝位置過高等特徵的房源，並篩選出有趣的評論。

社群觀點

這項計畫在 Hacker News 上引發了極大的爭議，社群的反應呈現明顯的兩極化。部分用戶對其技術執行力表示讚賞，認為能在大規模數據上流暢運行視覺模型與嵌入聚類，並將結果視覺化呈現，在技術層面上相當令人驚艷。特別是評論篩選功能，被認為是整個專案中最具趣味性的部分。然而，這種技術上的讚許很快就被排山倒海的道德與法律質疑所淹沒。

最主要的批評集中在數據獲取的正當性與對數據來源的尊重。多位評論者指出，該計畫使用的數據源自 Inside Airbnb，而該組織明確要求使用者僅獲取必要數據，並嚴禁大規模抓取。社群成員批評開發者為了展示 Burla 的運算能力，動用上千個 CPU 核心與 A100 GPU 進行「虛榮式抓取」，不僅對數據提供者的伺服器造成不必要的負擔，也缺乏對開源社群的基本尊重。開發者雖回應若造成負擔願意捐款，但這種「先破壞規則再談補償」的態度被認為缺乏誠意。

此外，專案的分類邏輯與價值觀也遭到強烈抨擊。許多用戶認為將環境簡陋、採光不佳或裝修過時的房源標籤化為「鴉片煙館」或「毒窟」，本質上是在嘲諷經濟條件較差的房東，這種帶有階級歧視的分類方式令人反感。有評論者直言，利用強大的 AI 模型來系統性地嘲笑窮人的生活環境，是科技濫用的典型案例。同時，所謂的「有趣評論」也被指責是在消費他人的痛苦或不安全住宿經驗，缺乏同理心。

最後，社群普遍認為這本質上是一場內容行銷。雖然開發者強調這是為了壓力測試代理程式與分散式運算，但過於顯眼的品牌標誌與缺乏價值的分析結果，讓許多人覺得這只是為了推廣 Burla 服務而製造的技術噱頭。這種為了行銷而浪費大量能源與運算資源的行為，被視為對網路環境與環境資源的負面貢獻。

你的個人知識庫

我抓取了 194 萬張 Airbnb 照片，尋找鴉片煙館、寵物亂入與凌亂廚房

背景

社群觀點

延伸閱讀