從零開始編寫大型語言模型：完整課程指南

Sebastian Raschka'S Blog·12 個月前

我分享了一套總長約15小時的完整影片課程，透過從頭開始編寫大型語言模型，這可能是學習與理解大型語言模型運作原理最有效且最有趣的方式。

從零開始編寫 LLM：完整課程

在過去幾個月裡，我寫了很多關於推理模型（Reasoning Models）的文章（連續 4 篇）！除了所有與「代理化」（agentic）相關的主題外，推理是 2025 年 LLM 最重大的話題之一。

然而，這個月我想與大家分享更多關於如何編寫 LLM 的基礎或「底層」內容，這是理解 LLM 運作原理的最佳方式之一。

為什麼？因為許多人非常喜歡並受益於我去年分享的簡短版 LLM 工作坊：

從零開始構建 LLM：3 小時編碼工作坊

因此，我認為這套長度約為其 5 倍且更詳細的內容（總計約 15 小時）會更有用。

此外，遺憾的是我最近正受嚴重的頸部傷勢困擾，過去 3 週幾乎無法在電腦前工作。在考慮建議的手術方案之前，我目前正嘗試保守治療。這時機非常糟糕，因為我才剛開始讓生活重回正軌，卻又遇到了意外的挫折。

所以，在康復期間，我想分享這些我在過去幾個月錄製的影片，作為一個不錯的過渡內容。

希望你們覺得這些內容有用，也感謝你們的支持！

備註：這些影片最初是作為我的著作《從零開始構建大型語言模型》（Build a Large Language Model (From Scratch)）的補充內容。但事實證明，它們作為獨立內容也運作得非常好。

為什麼要從零開始構建？

這可能是學習 LLM 真正運作原理最好且最有效率的方法。此外，許多讀者告訴我，在這個過程中他們獲得了很大的樂趣。

舉個類比：如果你對汽車感興趣並想了解它們是如何運作的，跟隨一個引導你從頭開始組裝汽車的教程是極佳的學習方式。當然，我們可能不想一開始就建造一輛一級方程式賽車，因為對於第一個項目來說，那樣成本太高且過於複雜。相反，從簡單的東西開始更有意義，比如卡丁車。

建造卡丁車仍然能教會你轉向系統如何運作、引擎如何發揮作用等等。你甚至可以把它帶到賽道上練習（並從中獲得很多樂趣），然後再步入專業賽車領域（或加入專注於建造賽車的公司或團隊）。畢竟，最優秀的賽車手通常是從建造和改裝自己的卡丁車開始的（想想麥可·舒馬克和艾爾頓·冼拿）。透過這樣做，他們不僅培養了對賽車的極佳感悟，還能為技師提供寶貴的反饋，這讓他們比其他車手更具優勢。

參考資料

《從零開始構建 LLM》書籍 (Manning | Amazon)

《從零開始構建 LLM》GitHub 儲存庫

1 - 設置你的代碼環境 (0:21:01)

這是一個補充影片，解釋如何使用 uv 設置 Python 環境。

特別是，我們使用的是「uv pip」，這在本文檔中有詳細說明。

另外，此處描述了原生的「uv add」語法（影片中提到但未詳細介紹）。

注意 / 提示：安裝過程在某些版本的 Windows 上可能會出現問題。如果你使用的是 Windows 機器且在安裝時遇到困難（可能是由於影片 5 中加載 OpenAI 原始 GPT-2 模型權重所需的 TensorFlow 依賴項），請不要擔心，可以隨意跳過 TensorFlow 的安裝（你可以透過從 requirements 文件中刪除 TensorFlow 這一行來實現）。

為了提供替代方案，我將 GPT-2 模型權重從 TensorFlow 張量格式轉換為 PyTorch 張量，並分享在 Hugging Face 模型中心，你可以將其作為影片 5 中權重加載部分的替代方案：https://huggingface.co/rasbt/gpt2-from-scratch-pytorch。

無論如何，在影片 5 結束之前，你都不必擔心這段權重加載代碼。

— Sebastian Raschka'S Blog