我在舊的研究項目上嘗試了 Karpathy 的 Autoresearch 自動化研究工具
我嘗試利用 Karpathy 的 Autoresearch 框架與 Claude Code 來自動化執行我的舊研究項目,透過迭代優化循環,成功讓評估指標提升了 54%。
背景
本文作者 Yogesh Kumar 嘗試將 Andrej Karpathy 提出的 Autoresearch 概念應用於自己過去的研究項目 eCLIP。Autoresearch 的核心在於利用 LLM 代理程式(如 Claude Code)建立一個受限的優化循環,讓 AI 透過修改程式碼、執行訓練、評估指標並根據結果決定提交或回退,從而自動改進模型表現。作者在實驗中發現,該代理程式在一天內自動進行了 42 次實驗,成功將評估指標降低了 54%,展現了 AI 在自動化研究流程中的潛力。
社群觀點
Hacker News 的討論主要圍繞在 Autoresearch 的實際價值、其與傳統優化工具的差異,以及在研究領域的定位。支持者認為,這種模式最顯著的貢獻在於發現人類開發者忽視的低級錯誤與進行枯燥的優化工作。例如,代理程式能迅速識別出程式碼中不合理的參數限制並予以修正,這種「除錯兼優化」的能力讓研究者能從繁瑣的調參工作中解脫。甚至有評論指出,這種代理程式或許能取代那些只會提出空泛建議的顧問,讓開發團隊能更專注於實質工作。
然而,質疑聲浪也相當顯著。許多討論者指出,目前的 Autoresearch 在本質上更接近「帶有基礎推理能力的超參數優化算法」,而非真正的科學研究。當實驗進入到需要深層架構創新或「遠大構想」的階段時,AI 的成功率便大幅下降,往往只是在隨機嘗試。針對純粹的參數搜尋,部分專家認為傳統的貝氏優化框架(如 Vizier)在效率與精確度上可能更勝一籌。此外,代幣成本與運算資源的消耗也是一大爭議點,批評者認為若只是為了微調參數而消耗大量昂貴的 API 額度,其經濟效益仍有待商榷。
另一個有趣的討論點在於這種技術的應用邊界。雖然範例多集中在機器學習模型,但社群指出其核心邏輯「衡量指標並持續改進」可應用於任何可量化的軟體工程問題。例如,Shopify 的執行長曾利用類似機制優化 Liquid 模板引擎,在百餘次實驗後獲得了超過 50% 的效能提升。這顯示出 Autoresearch 雖然在「創新研究」上仍有侷限,但在「工程優化」與「壓榨效能」方面已展現出強大的實用價值。
延伸閱讀
在討論中,有參與者分享了 Shopify 執行長 Tobi Lütke 利用 Autoresearch 變體優化 Liquid 模板引擎的具體案例,該案例詳細記錄了 AI 如何透過 120 次實驗達成 53% 的速度提升。此外,針對超參數搜尋的專業工具,留言中也提到了 Google 開源的 Google Vizier 框架,作為與 LLM 代理程式對標的傳統優化方案。對於對自動化研究感興趣的讀者,這些資源提供了從工程實踐到理論框架的不同視角。