newsence

在我睡覺時自動運行的 AI 代理程式

Hacker News·26 天前

我正在開發能在睡覺時自動寫程式的 AI 代理,但我發現很難驗證產出內容是否正確,因此我提出了一套結合驗收測試與自動化驗證的流程,確保 AI 產出的程式碼符合預期而非只是自我檢查。

背景

隨著 Claude Code 等自主代理工具的普及,開發者開始嘗試讓 AI 在無人看管的情況下持續編寫程式碼。然而,這種自動化生產力也帶來了嚴重的信任危機:當 AI 產出的 PR 數量從每週 10 個激增至 50 個時,人類工程師已無法負荷程式碼審查的工作,且 AI 自行編寫測試來驗證自身程式碼的行為,往往演變成一種缺乏實質意義的自我背書。

社群觀點

Hacker News 的討論聚焦於如何建立有效的驗證機制,以防止 AI 產出看似正確實則充滿隱患的「垃圾代碼」。許多開發者指出,傳統的測試驅動開發(TDD)在 AI 時代變得前所未有的重要。支持者認為,人類應該退居二線負責撰寫規格與驗證標準,讓 AI 負責實作。為了避免 AI 在測試中「作弊」或產生循環論證,社群提出了一種「乾淨室」的對抗模式:將代理人拆分為紅隊(撰寫測試)、綠隊(實作代碼)與重構隊,並透過嚴格的權限控制,例如利用 Devcontainers 或系統級的唯讀限制,確保實作代理人無法修改測試文件。這種權限隔離被視為解決 AI 自我評分問題的關鍵技術手段。

然而,並非所有人都對這種高度自動化的流程感到樂觀。部分資深工程師批評,這種過度工程化的代理人架構(Agentic Workflows)實際上是將開發者最核心的職責——思考與理解——外包給了機器。他們擔心這會導致開發者對程式庫失去掌控,變成只會寫 Markdown 規格與調整代理人參數的「保姆」。更有評論指出,目前許多 AI 產出的測試只是在驗證同義反覆的邏輯,雖然提升了測試覆蓋率的數據,卻讓後續的重構變得極其痛苦,因為任何微小的變動都會觸發大量無意義的測試失敗。

此外,關於成本與效益的爭論也十分激烈。有觀點認為,未來企業的競爭力將取決於對 Token 投資的規模,甚至預言每月投入數千美金於 AI 運算的團隊將產生代差級的優勢。但反對者則嘲諷這是一種新型態的「貨物崇拜」,認為開發者花費大量時間在規劃、監視與驗證代理人,其效率未必高於親手撰寫高品質的程式碼。對於初級開發者而言,過度依賴 AI 可能會阻礙其成長為具備深層理解能力的「巫師」級工程師,最終只能在不理解原理的情況下盲目追求交付速度。

延伸閱讀

在討論中,參與者分享了多個實用的工具與參考資料。針對 TDD 流程自動化,有開發者推薦了 rlm-workflow 以及 Mike Pocock 關於紅綠重構的相關研究。在架構參考方面,Steve Yegge 關於 Gas Town 的文章被多次提及,用以說明當前軟體產業正發生的典範轉移。此外,對於想要實踐權限隔離的開發者,Claude Code 官方文件中的 Devcontainer 配置指南以及相關的 Hook 腳本,提供了具體的技術實作路徑。

https://claudecodecamp.com/p/i-m-building-agents-that-run-while-i-sleep