
從零開始建構大型語言模型:一個 3 小時的程式設計工作坊
Sebastian Raschka 發布了一個 3 小時的程式設計工作坊簡報,內容涵蓋了如何實作、訓練和使用大型語言模型 (LLMs),提供一個親手操作的方式來理解它們的運作原理。
![]()



![]()
從頭開始構建 LLM:3 小時編碼工作坊
2024 年 9 月 1 日
作者:Sebastian Raschka
![]()
如果您想在這個週末花幾個小時深入研究大型語言模型 (LLM) 並了解它們的工作原理,我準備了一個關於實施、訓練和使用 LLM 的 3 小時編碼工作坊簡報。
在下面,您會找到一個目錄,以了解此影片涵蓋的內容(影片本身具有可點擊的章節標記,讓您可以直接跳到感興趣的主題):
0:00 – 工作坊概述
2:17 – 第 1 部分:LLM 簡介
9:14 – 工作坊材料
10:48 – 第 2 部分:了解 LLM 輸入資料
23:25 – 一個簡單的 tokenizer 類別
41:03 – 第 3 部分:編碼 LLM 架構
45:01 – GPT-2 和 Llama 2
1:07:11 – 第 4 部分:預訓練
1:29:37 – 第 5.1 部分:載入預訓練權重
1:45:12 – 第 5.2 部分:透過 LitGPT 預訓練權重
1:53:09 – 第 6.1 部分:指令微調
2:08:21 – 第 6.2 部分:透過 LitGPT 指令微調
02:26:45 – 第 6.3 部分:基準評估
02:36:55 – 第 6.4 部分:評估對話效能
02:42:40 – 結論
這與我通常的基於文字的內容略有不同,但上次我幾個月前做這個的時候,它非常受歡迎,所以我認為再做一次可能會很好!
祝您觀看愉快!
參考文獻
評論
加入 Substack 上的討論。
![]()

如果您閱讀了這本書並有幾分鐘的空閒時間,我將非常感謝您提供簡短的評論。 這對我們作者幫助很大!
© 2013-2026 Sebastian Raschka
相關文章