開放權重並不等同於開放訓練
我分享了嘗試利用現有開源基礎設施對 Kimi-K2-Thinking 模型進行後訓練的技術歷程與挫折,揭示了機器學習函式庫以及 GPU 記憶體管理中深藏的各種問題。
背景
本文探討了當前機器學習領域中「開放權重」(Open Weights)與真正「開放訓練」(Open Training)之間的巨大鴻溝。作者透過嘗試微調擁有兆級參數的 Kimi-K2-Thinking 模型,揭示了即便模型權重公開,開發者在缺乏原始訓練代碼、基礎設施文檔與數據管道的情況下,仍會面臨極高的技術門檻與難以調試的底層錯誤。
社群觀點
Hacker News 的討論聚焦於「開放權重」是否足以代表開源精神。許多評論者指出,開放權重更像是軟體工程中的「已編譯二進制文件」而非原始碼。雖然用戶可以運行或對其進行二進制修改,但若缺乏訓練堆疊、超參數決策、損失權重邏輯以及數據過濾流程,社群便無法從根本上理解、驗證或重現模型。這種「被動透明度」雖然有助於安全審計和互操作性,卻無法實現真正的「主動透明度」,即讓開發者能從零開始生成智慧。
然而,也有觀點認為在大型語言模型的經濟規模下,傳統的開源定義已逐漸失效。即便廠商公開了所有訓練代碼,由於預訓練動輒耗資數百萬美元,絕大多數開發者仍無力「編譯」這些源碼。在這種情況下,開放權重反而是最務實的交付方式,讓資源有限的團隊能直接在現成的成果上進行微調或應用。部分留言者對此反駁,認為計算成本並非不公開基礎設施的藉口,因為隨著硬體效能提升,過去昂貴的訓練任務(如 GPT-2 規模)現在已變得極其廉價,若缺乏透明的工程文檔,這些技術債將成為阻礙技術民主化的隱形門檻。
關於訓練數據的透明度,社群存在顯著分歧。支持者認為數據集是理解模型偏見與能力的關鍵;反對者則指出,由於版權爭議、隱私問題以及可能存在的有害內容(如 CSAM 或受版權保護的書籍),商業公司幾乎不可能完全公開其原始語料庫。此外,訓練過程中涉及的大量人工標註勞動往往伴隨著剝削爭議,這也是廠商不願公開的細節。儘管如此,社群仍有共識認為,即便數據無法完全公開,至少軟體架構與訓練流程的工程細節應該標準化,以避免開發者在面對如 HuggingFace 等第三方庫的底層錯誤時束手無策。
最後,有資深研究員指出,作者在文中遇到的困難其實是機器學習領域的常態。由於技術迭代極快,即便擁有完整的開源代碼,要運行三年前的模型往往也充滿挑戰。目前的技術環境已比過去依賴 Docker 和 CUDA 的時代進步許多,但要達到真正的「開源訓練」,仍需在基礎設施的標準化與文檔化上有更多投入。
延伸閱讀
在討論中,參與者提到了幾個致力於提高透明度的項目。OLMo 系列模型與 NVIDIA 的 Nemotron 被視為在開放性上表現較佳的案例。此外,瑞士研究機構推出的 Apertus 模型被特別提及,該項目嘗試公開整個開發過程,包括架構、權重、訓練數據與配方。在數據集方面,Common Crawl、The Pile 與 RedPajama 則是目前少數由志願者或開放社群推動的大規模訓練資源。