從零開始建構大型語言模型:一個 3 小時的程式設計工作坊

從零開始建構大型語言模型:一個 3 小時的程式設計工作坊

Sebastian Raschka'S Blog·

Sebastian Raschka 發布了一個 3 小時的程式設計工作坊簡報,內容涵蓋了如何實作、訓練和使用大型語言模型 (LLMs),提供一個親手操作的方式來理解它們的運作原理。

圖片

圖片

圖片

圖片

圖片

從頭開始構建 LLM:3 小時編碼工作坊

2024 年 9 月 1 日
作者:Sebastian Raschka

圖片

如果您想在這個週末花幾個小時深入研究大型語言模型 (LLM) 並了解它們的工作原理,我準備了一個關於實施、訓練和使用 LLM 的 3 小時編碼工作坊簡報。

在下面,您會找到一個目錄,以了解此影片涵蓋的內容(影片本身具有可點擊的章節標記,讓您可以直接跳到感興趣的主題):

0:00 – 工作坊概述

2:17 – 第 1 部分:LLM 簡介

9:14 – 工作坊材料

10:48 – 第 2 部分:了解 LLM 輸入資料

23:25 – 一個簡單的 tokenizer 類別

41:03 – 第 3 部分:編碼 LLM 架構

45:01 – GPT-2 和 Llama 2

1:07:11 – 第 4 部分:預訓練

1:29:37 – 第 5.1 部分:載入預訓練權重

1:45:12 – 第 5.2 部分:透過 LitGPT 預訓練權重

1:53:09 – 第 6.1 部分:指令微調

2:08:21 – 第 6.2 部分:透過 LitGPT 指令微調

02:26:45 – 第 6.3 部分:基準評估

02:36:55 – 第 6.4 部分:評估對話效能

02:42:40 – 結論

這與我通常的基於文字的內容略有不同,但上次我幾個月前做這個的時候,它非常受歡迎,所以我認為再做一次可能會很好!

祝您觀看愉快!

參考文獻

評論

加入 Substack 上的討論。

圖片

圖片

如果您閱讀了這本書並有幾分鐘的空閒時間,我將非常感謝您提供簡短的評論。 這對我們作者幫助很大!

© 2013-2026 Sebastian Raschka

Sebastian Raschka'S Blog

相關文章

  1. 從零開始構建大型語言模型:三小時編碼工作坊

    超過 1 年前

  2. 從零開始建構大型語言模型:一場為期三小時的程式設計工作坊

    超過 1 年前

  3. 開發大型語言模型:建構、訓練與微調

    將近 2 年前

  4. 從零開始編寫大型語言模型:完整課程

    12 個月前

  5. 從零開始編寫大型語言模型:一個完整課程

    12 個月前