從零開始構建大型語言模型：三小時編碼工作坊

Sebastian Raschka'S Blog·超過 1 年前

如果你想在這個週末花幾個小時深入研究大型語言模型並了解它們的工作原理，我準備了一個關於實現、訓練和使用大型語言模型的三小時編碼工作坊簡報。

從零開始構建大型語言模型：3 小時程式實作工作坊

如果你想在這個週末花幾個小時深入研究大型語言模型（LLM）並了解它們的工作原理，我準備了一個為期 3 小時的程式實作工作坊簡報，內容涵蓋 LLM 的實作、訓練與使用。

以下是目錄，讓你可以了解這段影片涵蓋的內容（影片本身設有可點擊的章節標記，方便你直接跳轉到感興趣的主題）：

0:00 – 工作坊概覽

2:17 – 第一部分：LLM 簡介

9:14 – 工作坊教材

10:48 – 第二部分：理解 LLM 輸入數據

23:25 – 一個簡單的 Tokenizer 類別

41:03 – 第三部分：編寫 LLM 架構程式碼

45:01 – GPT-2 與 Llama 2

1:07:11 – 第四部分：預訓練

1:29:37 – 第五部分 5.1：載入預訓練權重

1:45:12 – 第五部分 5.2：透過 LitGPT 使用預訓練權重

1:53:09 – 第六部分 6.1：指令微調 (Instruction finetuning)

2:08:21 – 第六部分 6.2：透過 LitGPT 進行指令微調

02:26:45 – 第六部分 6.3：基準測試評估 (Benchmark evaluation)

02:36:55 – 第六部分 6.4：評估對話表現

02:42:40 – 結語

這與我平時以文字為主的內容略有不同，但幾個月前我嘗試這樣做時大受好評，所以我想再做一次或許也不錯！

祝觀影愉快！

《Build an LLM from Scratch》書籍

《Build an LLM from Scratch》GitHub 儲存庫

工作坊程式碼 GitHub 儲存庫

本工作坊的 Lightning Studio

LitGPT GitHub 儲存庫

這本雜誌是我個人的熱情所在。對於那些希望支持我的人，請考慮購買一本我的《Build a Large Language Model (From Scratch)》書籍。（我有信心你會從這本書中獲益良多，因為它對 LLM 工作原理的解釋詳盡程度是其他地方找不到的。）

如果你讀過這本書並且有幾分鐘空閒時間，我會非常感激你寫下簡短的評論。這對我們作者很有幫助！

或者，我最近也在 Substack 上啟用了付費訂閱選項，以直接支持這本雜誌。

《Ahead of AI》是一個由讀者支持的刊物。欲接收新文章並支持我的工作，請考慮成為免費或付費訂閱者。