Show HN:Hacker News 完整封存檔(超過 4700 萬筆項目,11.6GB)以 Parquet 格式發佈,每 5 分鐘更新一次
這個資料集提供了自 2006 年以來所有 Hacker News 項目的完整且即時更新的封存檔,採用 Parquet 格式,讓我們能透過 Hugging Face 輕鬆地進行研究與分析。
背景
這篇文章介紹了一個名為 Open-index 的開源專案,該專案在 Hugging Face 上發布了自 2006 年以來最完整的 Hacker News(HN)歷史存檔。這份數據集包含超過 4,700 萬個項目,涵蓋了所有的文章、評論、投票與職缺資訊,並透過自動化管線每 5 分鐘更新一次。開發者採用 Parquet 格式儲存,旨在提供一個比現有 API 更高效、更易於進行大規模數據分析與機器學習訓練的資源。
社群觀點
針對這項龐大數據集的釋出,社群討論主要圍繞在數據獲取的便利性、法律合規性以及技術實作細節。許多使用者對此表示歡迎,認為這對於教學與研究極具價值。例如有意見指出,這類數據集非常適合用於數據科學課堂,讓學生練習數據清洗與工程實務,特別是針對特定類別如 Show HN 或招聘資訊進行子集分析。由於 Parquet 格式支援欄位過濾與日期分區,使用者無需下載完整的 11.6GB 檔案即可進行高效查詢,這被視為一項重大的技術優勢。
然而,法律與隱私問題成為討論中的一大爭議點。部分留言者對數據集的授權許可提出質疑,擔心這種大規模抓取行為是否違反了 Y Combinator 的服務條款,甚至觸及 GDPR 或 CPRA 等隱私法規。雖然有觀點引用隱私政策辯稱,使用者在 HN 上的投稿與評論並不被視為個人資訊,但仍有反對意見認為,平台方應更嚴格地執行授權條款,不應任由數據被隨意打包下載。此外,關於數據一致性的技術問題也被提及,有人擔心每日午夜重新抓取當月數據的操作,可能會導致那些被刪除或因違規而被隱藏的評論消失,從而影響數據的完整性。
在技術實作層面,社群成員對儲存效率展開了細膩的探討。有使用者將此 Parquet 版本與 ClickHouse 的儲存效率進行對比,發現 Parquet 的壓縮率似乎不如預期。討論中指出,這可能與數據類型的定義有關,例如將布林值(Boolean)儲存為整數會增加空間負擔。此外,排序方式、壓縮演算法及其等級的選擇,都會顯著影響最終的檔案大小。儘管存在這些細微的技術瑕疵,社群普遍認同這是一個重要的替代方案,因為先前最受歡迎的 ClickHouse 數據源已停止更新數月,此專案填補了即時歷史數據的空白。
延伸閱讀
- ClickHouse Playground:先前社群常用的 HN 數據查詢工具,但目前更新進度有所停滯。
- Hacker News Firebase API:此專案獲取即時數據的原始來源。
- Hugging Face Datasets:存放此 Parquet 存檔的平台,支援透過 DuckDB 進行遠端查詢。