從零開始編寫大型語言模型:完整課程指南

從零開始編寫大型語言模型:完整課程指南

Sebastian Raschka'S Blog·

我分享了一套總長約15小時的完整影片課程,透過從頭開始編寫大型語言模型,這可能是學習與理解大型語言模型運作原理最有效且最有趣的方式。

從零開始編寫 LLM:完整課程

在過去幾個月裡,我寫了很多關於推理模型(Reasoning Models)的文章(連續 4 篇)!除了所有與「代理化」(agentic)相關的主題外,推理是 2025 年 LLM 最重大的話題之一。

然而,這個月我想與大家分享更多關於如何編寫 LLM 的基礎或「底層」內容,這是理解 LLM 運作原理的最佳方式之一。

為什麼?因為許多人非常喜歡並受益於我去年分享的簡短版 LLM 工作坊:

從零開始構建 LLM:3 小時編碼工作坊

因此,我認為這套長度約為其 5 倍且更詳細的內容(總計約 15 小時)會更有用。

此外,遺憾的是我最近正受嚴重的頸部傷勢困擾,過去 3 週幾乎無法在電腦前工作。在考慮建議的手術方案之前,我目前正嘗試保守治療。這時機非常糟糕,因為我才剛開始讓生活重回正軌,卻又遇到了意外的挫折。

所以,在康復期間,我想分享這些我在過去幾個月錄製的影片,作為一個不錯的過渡內容。

希望你們覺得這些內容有用,也感謝你們的支持!

備註:這些影片最初是作為我的著作《從零開始構建大型語言模型》(Build a Large Language Model (From Scratch))的補充內容。但事實證明,它們作為獨立內容也運作得非常好。

為什麼要從零開始構建?

這可能是學習 LLM 真正運作原理最好且最有效率的方法。此外,許多讀者告訴我,在這個過程中他們獲得了很大的樂趣。

舉個類比:如果你對汽車感興趣並想了解它們是如何運作的,跟隨一個引導你從頭開始組裝汽車的教程是極佳的學習方式。當然,我們可能不想一開始就建造一輛一級方程式賽車,因為對於第一個項目來說,那樣成本太高且過於複雜。相反,從簡單的東西開始更有意義,比如卡丁車。

建造卡丁車仍然能教會你轉向系統如何運作、引擎如何發揮作用等等。你甚至可以把它帶到賽道上練習(並從中獲得很多樂趣),然後再步入專業賽車領域(或加入專注於建造賽車的公司或團隊)。畢竟,最優秀的賽車手通常是從建造和改裝自己的卡丁車開始的(想想麥可·舒馬克和艾爾頓·冼拿)。透過這樣做,他們不僅培養了對賽車的極佳感悟,還能為技師提供寶貴的反饋,這讓他們比其他車手更具優勢。

參考資料

《從零開始構建 LLM》書籍 (Manning | Amazon)

《從零開始構建 LLM》GitHub 儲存庫

1 - 設置你的代碼環境 (0:21:01)

這是一個補充影片,解釋如何使用 uv 設置 Python 環境。

特別是,我們使用的是「uv pip」,這在本文檔中有詳細說明。

另外,此處描述了原生的「uv add」語法(影片中提到但未詳細介紹)。

注意 / 提示:安裝過程在某些版本的 Windows 上可能會出現問題。如果你使用的是 Windows 機器且在安裝時遇到困難(可能是由於影片 5 中加載 OpenAI 原始 GPT-2 模型權重所需的 TensorFlow 依賴項),請不要擔心,可以隨意跳過 TensorFlow 的安裝(你可以透過從 requirements 文件中刪除 TensorFlow 這一行來實現)。

為了提供替代方案,我將 GPT-2 模型權重從 TensorFlow 張量格式轉換為 PyTorch 張量,並分享在 Hugging Face 模型中心,你可以將其作為影片 5 中權重加載部分的替代方案:https://huggingface.co/rasbt/gpt2-from-scratch-pytorch。

無論如何,在影片 5 結束之前,你都不必擔心這段權重加載代碼。

Sebastian Raschka'S Blog

相關文章

  1. 從零開始編寫大型語言模型:完整課程

    12 個月前

  2. 從零開始構建大型語言模型:三小時編碼工作坊

    超過 1 年前

  3. 從零開始建構大型語言模型:一個 3 小時的程式設計工作坊

    超過 1 年前

  4. Car-GPT:大型語言模型能否最終實現自動駕駛?

    The Gradient · 大約 2 年前

  5. 從零開始理解大型語言模型評估的四種主要方法

    7 個月前