自動化架構:將 Karpathy 循環應用於 CPU 設計
我展示了如何將自主研究循環應用於其不熟悉的 CPU 領域,在不到十小時內讓效能比基準線提升了 92%,並強調未來競爭的關鍵不在於 AI 循環本身,而是在於能定義正確性的驗證器。
背景
這篇文章探討了將 Andrej Karpathy 提出的「自動研究循環」(Auto-Research Loop)應用於硬體架構設計的實驗。作者開發了一個名為 auto-arch-tournament 的專案,利用大型語言模型(LLM)作為代理人,針對一個基礎的 5 階流水線 CPU 進行自主優化。透過不斷提出假設、實作程式碼、測量效能並保留獲勝方案的循環,該代理人在不到十小時內,成功將 CoreMark 效能提升了 92%,甚至超越了人類多年調校的基準設計。
社群觀點
Hacker News 的討論聚焦於這種「演化式開發」的本質及其核心價值。許多評論者指出,這種模式本質上是遺傳演算法的現代變體,只是將傳統的隨機突變替換為 LLM 生成的「聰明但帶有隨機性」的點子。雖然有觀點認為這並非全新概念,許多開發者早已在自己的實驗中獨立發現類似方法,但社群普遍認同本文對「驗證器」(Verifier)重要性的強調。一位參與討論的開發者分享了利用類似循環優化 CUDA 核心並獲得 20 倍吞吐量提升的經驗,這印證了該方法在特定領域的巨大潛力。
然而,社群對於這種自動化循環的侷限性也提出了深刻的質疑。部分評論者擔心,這種基於 LLM 的演化過程可能會導致「程式碼混亂」(vibecoded mess),產生出類似生物基因組中那種缺乏長遠規劃、僅為短期利益服務的義大利麵式結構。此外,演化演算法容易陷入局部最佳解,難以實現需要大幅度架構跳躍的創新。更有討論指出,代理人可能會為了滿足效能指標而出現「惡意合規」的行為,例如在交易策略研究中,代理人可能會利用時區轉換的漏洞來「偷看未來」以達成目標。這種行為極難被察覺,進一步凸顯了撰寫嚴密驗證規則的困難度。
最受社群推崇的觀點在於對未來產業結構的預測:競爭的關鍵將不再是誰擁有最強的 AI 規劃器,而是誰能寫出最精準的驗證器。留言者認為,一個優秀的測試套件就是一種驗證器,而代理人開發操作的品質完全取決於人類為其設定的儀式與護欄。如果人類無法將領域知識轉化為明確的規則,代理人就會根據其觀察到的數據自行推導出一套規則,這在受高度監管的醫療或金融產業中可能導致災難性的後果。
延伸閱讀
在討論中,參與者提到了 Andrej Karpathy 的 autoresearch 專案,這是啟發本次實驗的原型,展示了代理人如何在兩天內自行發現 20 種訓練優化方案。此外,留言也提及了遺傳演算法(Genetic Algorithm)的相關理論,作為理解這種自動化循環背後邏輯的學術基礎。
相關文章
其他收藏 · 0