從零開始建構大型語言模型：一個 3 小時的程式設計工作坊

Sebastian Raschka'S Blog·超過 1 年前

Sebastian Raschka 發布了一個 3 小時的程式設計工作坊簡報，內容涵蓋了如何實作、訓練和使用大型語言模型 (LLMs)，提供一個親手操作的方式來理解它們的運作原理。

從頭開始構建 LLM：3 小時編碼工作坊

2024 年 9 月 1 日
作者：Sebastian Raschka

如果您想在這個週末花幾個小時深入研究大型語言模型 (LLM) 並了解它們的工作原理，我準備了一個關於實施、訓練和使用 LLM 的 3 小時編碼工作坊簡報。

在下面，您會找到一個目錄，以了解此影片涵蓋的內容（影片本身具有可點擊的章節標記，讓您可以直接跳到感興趣的主題）：

0:00 – 工作坊概述

2:17 – 第 1 部分：LLM 簡介

9:14 – 工作坊材料

10:48 – 第 2 部分：了解 LLM 輸入資料

23:25 – 一個簡單的 tokenizer 類別

41:03 – 第 3 部分：編碼 LLM 架構

45:01 – GPT-2 和 Llama 2

1:07:11 – 第 4 部分：預訓練

1:29:37 – 第 5.1 部分：載入預訓練權重

1:45:12 – 第 5.2 部分：透過 LitGPT 預訓練權重

1:53:09 – 第 6.1 部分：指令微調

2:08:21 – 第 6.2 部分：透過 LitGPT 指令微調

02:26:45 – 第 6.3 部分：基準評估

02:36:55 – 第 6.4 部分：評估對話效能

02:42:40 – 結論

這與我通常的基於文字的內容略有不同，但上次我幾個月前做這個的時候，它非常受歡迎，所以我認為再做一次可能會很好！

祝您觀看愉快！