
從零開始編寫大型語言模型:完整課程指南
我分享了一套總長約15小時的完整影片課程,透過從頭開始編寫大型語言模型,這可能是學習與理解大型語言模型運作原理最有效且最有趣的方式。
從零開始編寫 LLM:完整課程
在過去幾個月裡,我寫了很多關於推理模型(Reasoning Models)的文章(連續 4 篇)!除了所有與「代理化」(agentic)相關的主題外,推理是 2025 年 LLM 最重大的話題之一。
然而,這個月我想與大家分享更多關於如何編寫 LLM 的基礎或「底層」內容,這是理解 LLM 運作原理的最佳方式之一。
為什麼?因為許多人非常喜歡並受益於我去年分享的簡短版 LLM 工作坊:
從零開始構建 LLM:3 小時編碼工作坊
因此,我認為這套長度約為其 5 倍且更詳細的內容(總計約 15 小時)會更有用。
此外,遺憾的是我最近正受嚴重的頸部傷勢困擾,過去 3 週幾乎無法在電腦前工作。在考慮建議的手術方案之前,我目前正嘗試保守治療。這時機非常糟糕,因為我才剛開始讓生活重回正軌,卻又遇到了意外的挫折。
所以,在康復期間,我想分享這些我在過去幾個月錄製的影片,作為一個不錯的過渡內容。
希望你們覺得這些內容有用,也感謝你們的支持!
備註:這些影片最初是作為我的著作《從零開始構建大型語言模型》(Build a Large Language Model (From Scratch))的補充內容。但事實證明,它們作為獨立內容也運作得非常好。
為什麼要從零開始構建?
這可能是學習 LLM 真正運作原理最好且最有效率的方法。此外,許多讀者告訴我,在這個過程中他們獲得了很大的樂趣。
舉個類比:如果你對汽車感興趣並想了解它們是如何運作的,跟隨一個引導你從頭開始組裝汽車的教程是極佳的學習方式。當然,我們可能不想一開始就建造一輛一級方程式賽車,因為對於第一個項目來說,那樣成本太高且過於複雜。相反,從簡單的東西開始更有意義,比如卡丁車。
建造卡丁車仍然能教會你轉向系統如何運作、引擎如何發揮作用等等。你甚至可以把它帶到賽道上練習(並從中獲得很多樂趣),然後再步入專業賽車領域(或加入專注於建造賽車的公司或團隊)。畢竟,最優秀的賽車手通常是從建造和改裝自己的卡丁車開始的(想想麥可·舒馬克和艾爾頓·冼拿)。透過這樣做,他們不僅培養了對賽車的極佳感悟,還能為技師提供寶貴的反饋,這讓他們比其他車手更具優勢。
參考資料
《從零開始構建 LLM》書籍 (Manning | Amazon)
《從零開始構建 LLM》GitHub 儲存庫
1 - 設置你的代碼環境 (0:21:01)
這是一個補充影片,解釋如何使用 uv 設置 Python 環境。
特別是,我們使用的是「uv pip」,這在本文檔中有詳細說明。
另外,此處描述了原生的「uv add」語法(影片中提到但未詳細介紹)。
注意 / 提示:安裝過程在某些版本的 Windows 上可能會出現問題。如果你使用的是 Windows 機器且在安裝時遇到困難(可能是由於影片 5 中加載 OpenAI 原始 GPT-2 模型權重所需的 TensorFlow 依賴項),請不要擔心,可以隨意跳過 TensorFlow 的安裝(你可以透過從 requirements 文件中刪除 TensorFlow 這一行來實現)。
為了提供替代方案,我將 GPT-2 模型權重從 TensorFlow 張量格式轉換為 PyTorch 張量,並分享在 Hugging Face 模型中心,你可以將其作為影片 5 中權重加載部分的替代方案:https://huggingface.co/rasbt/gpt2-from-scratch-pytorch。
無論如何,在影片 5 結束之前,你都不必擔心這段權重加載代碼。
相關文章