從原始編碼附件重構 Epstein 的 PDF 文件

Hacker News·3 個月前

這篇文章詳細說明了從原始編碼附件中重構 PDF 文件的技術過程，並特別提到了 Epstein 的案例。

recreating epstein pdfs from raw encoded attachments

背景

這篇文章探討了如何從美國司法部（DOJ）釋出的愛潑斯坦（Epstein）案卷宗中，透過技術手段還原那些被粗糙遮蓋或以 Base64 編碼形式呈現的原始附件。由於官方在處理這些數位檔案時極其不專業，導致許多原本應被遮蔽的資訊，能透過解碼原始碼中的二進位數據而重新構建出完整的 PDF 或圖像文件。

社群觀點

Hacker News 的社群對此展開了熱烈的技術討論，許多開發者認為這是一個典型的「工程師誘捕（Nerd Snipe）」案例。討論的核心在於如何克服 Base64 掃描件中的字元辨識難題，特別是字體中「1」與「l」難以區分的問題。有網友提議利用 PDF 結構的規律性進行序列化測試，透過驗證解碼後的數據是否符合 PDF 規範來自動修正錯誤，這種方法比單純的暴力破解更具效率。甚至有技術人員展示了利用大型語言模型輔助撰寫腳本，成功從混亂的編碼中還原出可讀的 PDF 內容。

在還原出的內容方面，社群發現部分被遮蔽的附件其實相當平庸，例如一份關於 2012 年慈善晚宴的邀請函。這引發了對司法部審查標準的強烈質疑，網友們爭論這究竟是單純的技術無能，還是刻意的「惡意合規」。有人認為，官方可能利用大範圍且無意義的遮蓋（如連單字「don't」都被遮掉）來分散公眾注意力，掩蓋真正關鍵的共犯資訊。另一種陰謀論則指出，檔案中夾雜未經處理的非法內容（如 CSAM），可能是為了讓下載這些檔案的民眾面臨法律風險，從而限制資訊的傳播。

此外，討論也延伸到了法律與行政層面。不少留言批評現任司法部官員在處理此案時公然違反法律與法院命令，認為這種低品質的資訊公開是對法治的嘲弄。有觀點指出，如果是在歐洲，如此嚴重的個人資料洩漏與程序錯誤早已導致官員下台。社群中也有人對政府長期依賴 PDF 這種複雜且難以安全遮蔽的格式表示不滿，建議應開發更安全、透明的開放格式來處理政府文件的發布，以避免元數據洩漏或編碼殘留導致的二進位數據外流。

延伸閱讀

在討論串中，有網友分享了具體的實作成果與工具。開發者 dperfect 提供了一份由 Claude Opus 輔助撰寫的 Python 腳本，用於嘗試修復並還原損壞的 Base64 數據。此外，也有人提到 vx-underground 的社群正在追蹤相關的還原進度。針對 OCR 技術，有留言建議使用 Tesseract 並針對特定字體進行訓練，以提高辨識精度。對於想要深入研究檔案背景的讀者，網友 sorbus-25 則提供了透過網路存檔（Wayback Machine）找到的 2012 年晚宴活動備份，證實了部分還原內容的真實性。

— Hacker News

你的個人知識庫

從原始編碼附件重構 Epstein 的 PDF 文件

背景

社群觀點

延伸閱讀