停止發佈垃圾數據，這令人感到難堪

Hacker News·7 天前

這週我兩次遇到了令人難堪的糟糕數據，包含英國政府的燃料價格資料與 RAC 的電動車報告，這些顯而易見的錯誤反映出基本數據驗證的缺失，正削弱大眾對機構的信任。

stop publishing garbage data its embarrassing

背景

本文作者在分析英國政府的燃油價格數據與 RAC 汽車組織的電動車報告時，發現了極其低級的數據錯誤，包括加油站座標位於大西洋、油價比例異常，以及圖表單位誤植導致數據暴跌。作者對此感到憤怒，認為發布未經基本驗證的「垃圾數據」不僅損害機構公信力，更可能在未來 AI 訓練的循環中導致嚴重的資訊污染。

社群觀點

Hacker News 的討論圍繞著「數據品質的責任歸屬」與「原始數據的價值」展開了激烈辯論。支持作者的一方認為，發布者若連最基本的合理性檢查（Smell Test）都不做，確實令人羞愧。有評論指出，數據與指標往往是高層管理人員唯一會看的東西，如果數據本身不可信，即便背後的技術再紮實，也會失去所有商業信任與合作機會。甚至有開發者分享自身經驗，表示曾因不重視展示數據的正確性，導致優秀的技術平台多次被受眾拒絕。

然而，另一派觀點則從實務與法律層面提出反思。部分具有資訊公開法（FOIA）訴訟經驗的參與者主張，與其讓政府因為擔心出醜而拒絕公開數據，他們寧願接收這些未經清洗、甚至充滿錯誤的「原始垃圾」。他們認為數據中的錯誤本身也是一種「訊號」，反映了採集過程的真實狀況；若發布者為了美觀而過度清洗，反而可能抹除重要的原始資訊或引入人為偏見。此外，清洗數據需要昂貴的人力成本，若強制要求政府必須驗證每一筆數據才能發布，最終結果往往是政府選擇完全不發布，這對公眾知情權反而是一種傷害。

討論中也觸及了數據驗證的技術難題。有專家指出，真正的數據清洗非常昂貴，例如在臨床試驗中，必須由人工逐一比對原始紀錄，才能確保數據百分之百正確。雖然有人寄望於大型語言模型（LLM）能自動化這項繁瑣工作，但也有人質疑，若機器本身就需要人類校對，將驗證工作交給機器是否只是在規避責任。最後，社群達成了一種折衷的共識：發布者至少應提供詳細的方法論與免責聲明，告知數據的來源與侷限性，而非將錯誤百出的圖表直接當作權威結論發布。

延伸閱讀

留言中提到了一個具體的案例分析，展示了如何利用資訊公開法取得的原始數據進行分析，並透過技術手段克服數據品質不佳的問題：Using FOIA Data and Unix to Halve Major Sou...。此外，也有開發者提到針對英國燃油數據開發的 Home Assistant 自定義組件，證實了該數據源的混亂現況。

https://successfulsoftware.net/2026/03/29/stop-publishing-garbage-data-its-embarrassing/