在我睡覺時自動運行的 AI 代理程式

Hacker News·26 天前

我正在開發能在睡覺時自動寫程式的 AI 代理，但我發現很難驗證產出內容是否正確，因此我提出了一套結合驗收測試與自動化驗證的流程，確保 AI 產出的程式碼符合預期而非只是自我檢查。

i m building agents that run while i sleep

背景

隨著 Claude Code 等自主代理工具的普及，開發者開始嘗試讓 AI 在無人看管的情況下持續編寫程式碼。然而，這種自動化生產力也帶來了嚴重的信任危機：當 AI 產出的 PR 數量從每週 10 個激增至 50 個時，人類工程師已無法負荷程式碼審查的工作，且 AI 自行編寫測試來驗證自身程式碼的行為，往往演變成一種缺乏實質意義的自我背書。

社群觀點

Hacker News 的討論聚焦於如何建立有效的驗證機制，以防止 AI 產出看似正確實則充滿隱患的「垃圾代碼」。許多開發者指出，傳統的測試驅動開發（TDD）在 AI 時代變得前所未有的重要。支持者認為，人類應該退居二線負責撰寫規格與驗證標準，讓 AI 負責實作。為了避免 AI 在測試中「作弊」或產生循環論證，社群提出了一種「乾淨室」的對抗模式：將代理人拆分為紅隊（撰寫測試）、綠隊（實作代碼）與重構隊，並透過嚴格的權限控制，例如利用 Devcontainers 或系統級的唯讀限制，確保實作代理人無法修改測試文件。這種權限隔離被視為解決 AI 自我評分問題的關鍵技術手段。

然而，並非所有人都對這種高度自動化的流程感到樂觀。部分資深工程師批評，這種過度工程化的代理人架構（Agentic Workflows）實際上是將開發者最核心的職責——思考與理解——外包給了機器。他們擔心這會導致開發者對程式庫失去掌控，變成只會寫 Markdown 規格與調整代理人參數的「保姆」。更有評論指出，目前許多 AI 產出的測試只是在驗證同義反覆的邏輯，雖然提升了測試覆蓋率的數據，卻讓後續的重構變得極其痛苦，因為任何微小的變動都會觸發大量無意義的測試失敗。

此外，關於成本與效益的爭論也十分激烈。有觀點認為，未來企業的競爭力將取決於對 Token 投資的規模，甚至預言每月投入數千美金於 AI 運算的團隊將產生代差級的優勢。但反對者則嘲諷這是一種新型態的「貨物崇拜」，認為開發者花費大量時間在規劃、監視與驗證代理人，其效率未必高於親手撰寫高品質的程式碼。對於初級開發者而言，過度依賴 AI 可能會阻礙其成長為具備深層理解能力的「巫師」級工程師，最終只能在不理解原理的情況下盲目追求交付速度。

延伸閱讀

在討論中，參與者分享了多個實用的工具與參考資料。針對 TDD 流程自動化，有開發者推薦了 rlm-workflow 以及 Mike Pocock 關於紅綠重構的相關研究。在架構參考方面，Steve Yegge 關於 Gas Town 的文章被多次提及，用以說明當前軟體產業正發生的典範轉移。此外，對於想要實踐權限隔離的開發者，Claude Code 官方文件中的 Devcontainer 配置指南以及相關的 Hook 腳本，提供了具體的技術實作路徑。

https://claudecodecamp.com/p/i-m-building-agents-that-run-while-i-sleep