Car-GPT：大型語言模型能否最終實現自動駕駛？

The Gradient·大約 2 年前

本文探討大型語言模型在自動駕駛中的效用，研究它們是否能被信任用於無人駕駛汽車，以及目前面臨的核心挑戰為何。

1928 年，倫敦正處於一場可怕的健康危機之中，受到肺炎、肺結核和腦膜炎等細菌性疾病的摧殘。科學家和醫生被困在無菌實驗室裡，陷入不斷試錯的循環，試圖用傳統的醫療方法來解決複雜的問題。

就在這時，1928 年 9 月，一場意外事件改變了世界的進程。一位名叫亞歷山大·弗萊明（Alexander Fleming）的蘇格蘭醫生忘記關上培養皿（就是你在科學課上用的那種透明圓形盒子），導致其被黴菌污染。這時弗萊明注意到一個奇特的現象：所有靠近水分的細菌都死掉了，而其他的則存活了下來。

「那水分是由什麼組成的？」弗萊明先生感到好奇。這時他發現，黴菌的主要成分青黴素（Penicillin）是一種強大的細菌殺手。這促成了青黴素的突破性發現，進而演變成我們今天使用的抗生素。在一個醫生依賴現有成熟研究方法的時代，青黴素是一個意想不到的答案。

自動駕駛汽車可能也正經歷類似的事件。 回到 2010 年代，大多數自動駕駛汽車是使用我們所謂的「模組化」（modular）方法構建的。軟體的「自主」部分被拆分為多個模組，例如感知（Perception，觀察世界的任務）、定位（Localization，在世界中準確定位自己的任務）或規劃（Planning，為汽車創建行駛軌跡並實現汽車「大腦」的任務）。最後，所有這些都進入最後一個模組：控制（Control），產生諸如「向右轉 20 度」等指令。這就是眾所周知的方法。

但十年後，各家公司開始非常嚴肅地對待另一個學科：端到端學習（End-To-End learning）。核心思想是用一個預測轉向和加速度的單一神經網路取代每個模組，但正如你可以想像的，這引入了黑箱問題。

自動駕駛汽車的四大支柱是感知、定位、規劃和控制。大型語言模型（LLM）能複製它們嗎？（來源）這些方法雖然廣為人知，但尚未解決自動駕駛問題。因此，我們可能會好奇：「如果目前正在徹底改變世界的 LLM（大型語言模型），正是自動駕駛意想不到的答案呢？」

這就是我們將在本文中探討的內容，首先從簡單解釋什麼是 LLM 開始，然後深入探討它們如何造福自動駕駛。

前言：LLM 是什麼？

在閱讀本文之前，你必須知道一件事：我完全不是 LLM 專家。這意味著，我非常了解學習它的艱辛。我明白在 Google 搜尋「學習 LLM」是什麼感覺；然後看到 3 個贊助貼文要求你下載電子書（裡面什麼具體內容都沒有）……然後看到 20 個終極路線圖和 GitHub 倉庫，其中第 1/54 步是觀看 2 小時長的影片（而且沒人知道第 54 步是什麼，因為它實在太長了）。

所以，與其讓你親自經歷這種痛苦，不如讓我們將 LLM 拆解為 3 個核心概念：

標記化 (Tokenization)
Transformer 模型
語言處理 (Processing Language)

標記化 (Tokenization)

在 ChatGPT 中，你輸入一段文字，它返回文字，對吧？事實上，實際發生的是你的文字首先被轉換為「標記」（tokens）。

句子標記化的例子，每個單詞變成一個「標記」。但你可能會問，標記是什麼？標記可以對應一個單詞、一個字符或任何我們想要的東西。想一想——如果你要將一個句子發送到神經網路，你本來就沒打算發送實際的單詞，不是嗎？

神經網路的輸入總是一個數字，所以你需要將文字轉換為數字；這就是標記化。

標記化實際上是：從單詞到數字的轉換。根據模型（ChatGPT、LLAMA 等）的不同，標記可以代表不同的含義：一個單詞、一個子詞（subword），甚至是一個字符。我們可以採用英語詞彙並將其定義為單詞，或者採用單詞的一部分（子詞）來處理更複雜的輸入。例如，單詞「a」可以是標記 1，而單詞「abracadabra」則是標記 121。

Transformer 模型

現在我們了解了如何將句子轉換為一系列數字，我們就可以將該序列發送到我們的神經網路中！從高層次來看，我們有以下結構：

Transformer 是一種編碼器-解碼器（Encoder-Decoder）架構，它接收一系列標記作為輸入，並輸出另一系列標記。如果你開始四處查看，你會發現有些模型是基於編碼器-解碼器架構的，有些是純編碼器的，而其他的（如 GPT）則是純解碼器的。

無論情況如何，它們都共享核心的 Transformer 區塊：多頭注意力（multi-head attention）、層歸一化（layer normalization）、加法與串聯、區塊、交叉注意力（cross-attention）等。

這只是一系列引導你獲得輸出的注意力區塊。那麼這種單詞預測是如何運作的呢？

輸出 / 下一個單詞預測

編碼器學習特徵並理解上下文……但解碼器做什麼？在物件檢測的情況下，解碼器預測邊界框。在分割的情況下，解碼器預測分割掩碼。那在這裡呢？

在我們的情況下，解碼器正試圖生成一系列單詞；我們稱這項任務為「下一個單詞預測」（next-word prediction）。

當然，它通過預測數字或標記來以類似的方式完成。這構成了我們的完整模型，如下所示：

我會說這個特定輸出的損失函數產生了一個接近 0 的值。現在，除了這個簡介之外，你還應該學習許多「概念」：所有與 Transformer 和注意力相關的內容，還有少樣本學習（few-shot learning）、預訓練、微調等等……

好吧……但這與自動駕駛汽車有什麼關係？我想是時候進入第二階段了。

自動駕駛汽車的 Chat-GPT

事實上，你已經度過了最困難的部分。剩下的只是：「我如何將其應用於自動駕駛？」。想一想；我們需要做一些修改：

我們的輸入現在變成了圖像、感測器數據（LiDAR 點雲、RADAR 點雲等），甚至是演算法數據（車道線、物體等）。所有這些都是「可標記化的」，就像視覺 Transformer（Vision Transformers）或影片視覺 Transformer 所做的那樣。
我們的 Transformer 模型幾乎保持不變，因為它只對標記進行操作，與輸入的類型無關。
輸出基於我們想要執行的一系列任務。 它可以是解釋圖像中發生的事情，也可以是直接的駕駛任務，如切換車道。

所以，讓我們從結果開始：

LLM 可以解決哪些自動駕駛汽車任務？

自動駕駛涉及許多任務，但並非所有任務都可以「GPT 化」。2023 年最活躍的研究領域包括：

感知 (Perception)：基於輸入圖像，描述環境、物體數量等。
規劃 (Planning)：基於圖像、鳥瞰圖或感知的輸出，描述我們應該做什麼（繼續行駛、讓行等）。
生成 (Generation)：使用「擴散」（diffusion）生成訓練數據、替代場景等。
問答 (Question & Answers)：創建聊天界面，並要求 LLM 根據場景回答問題。

感知中的 LLM

在感知中，輸入是一系列圖像，輸出通常是一組物體、車道等。在 LLM 的情況下，我們有 3 個核心任務：檢測、預測和追蹤。下面顯示了一個使用 Chat-GPT 的例子，當你向它發送一張圖像並要求描述發生了什麼時：

GPT-4 Vision 模型可以返回圖像中的物體，就像物件檢測器所做的那樣（來源）。其他模型如 HiLM-D 和 MTD-GPT 也可以做到這一點，有些還適用於影片。像 PromptTrack 這樣的模型還具有分配唯一 ID 的能力（我前面的這輛車是 ID #3），類似於 4D 感知模型。

PromptTrack 將 DETR 物件檢測器與大型語言模型相結合。在這個模型中，多視角圖像被發送到一個編碼器-解碼器網路，該網路經過訓練以預測物體的標註（如邊界框和注意力圖）。然後將這些圖與諸如「尋找正在右轉的車輛」之類的提示相結合。下一個區塊隨後找到 3D 邊界框定位，並使用二分圖匹配演算法（如匈牙利演算法）分配 ID。

這很酷，但這還不是 LLM 到目前為止「最佳」的應用：

決策、導航與規劃中的 LLM

如果 Chat-GPT 可以在圖像中找到物體，它應該能夠告訴你如何處理這些物體，不是嗎？這就是規劃（Planning）的任務，即根據當前的感知定義從 A 到 B 的路徑。雖然為此任務開發了眾多模型，但令我印象深刻的是 Talk2BEV：

Talk2BEV 將感知更進一步，並告訴你該做什麼。規劃模型與僅感知模型之間的主要區別在於，這裡我們將根據人類行為訓練模型，以建議理想的駕駛決策。我們還將輸入從多視角更改為鳥瞰圖 (Bird Eye View)，因為它更容易理解。

該模型同時適用於 LLaVA 和 ChatGPT4，這是架構的演示：

Talk2BEV（來源）。如你所見，這並非純粹基於「提示」，因為核心物件檢測模型仍保持鳥瞰圖感知，但 LLM 被用來通過建議裁剪某些區域、查看特定位置和預測路徑來「增強」該輸出。我們稱之為「語言增強的 BEV 地圖」。

其他模型如 DriveGPT 則被訓練將感知的輸出發送到 Chat-GPT，並對其進行微調以直接輸出駕駛軌跡。

DriveGPT 模型簡直瘋狂……如果訓練得當的話！（修改自來源）。我可以一直說下去，但我認為你已經明白了。如果我們總結一下，我會說：

輸入是標記化的圖像或感知演算法的輸出（BEV 地圖等）。
我們將現有模型（BEV 感知、二分匹配等）與語言提示（尋找移動的汽車）融合。
更改任務主要是更改數據、損失函數和進行仔細的微調。

問答應用非常相似，所以讓我們看看 LLM 的最後一個應用：

用於圖像生成的 LLM

試過 Midjourney 和 DALL-E 嗎？是不是超級酷？是的，在自動駕駛方面還有比這更酷的。事實上，你聽說過 Wayve 的 GAIA-1 模型嗎？該模型以文字和圖像作為輸入，直接生成影片，就像這樣：

這些影片是由 Wayve 的 GAIA-1 模型生成的。該架構將圖像、動作和文字提示作為輸入，然後使用世界模型（World Model，對世界及其交互的理解）來生成影片。

GAIA-1 的架構（來源）。你可以在 Wayve 的 YouTube 頻道和這篇專題文章中找到更多範例。

同樣地，你可以看看 MagicDrive，它將感知的輸出作為輸入，並用它來生成場景：

（來源）。其他模型，如 Driving Into the Future 和 Driving Diffusion，可以直接根據當前場景生成未來場景。你明白了吧；我們可以以無限的方式生成場景，為我們的模型獲取更多數據，並形成這種無止境的正向循環。

我們剛剛看到了 LLM 在自動駕駛汽車中的 3 個主要應用家族：感知、規劃和生成。真正的問題是……

我們能信任自動駕駛汽車中的 LLM 嗎？

我的意思是……如果你的模型產生幻覺怎麼辦？ 如果它的回答完全荒謬，就像 ChatGPT 有時那樣怎麼辦？我記得，在我進入自動駕駛領域的初期，大集團就已經對深度學習持懷疑態度，因為它不是「確定性」的（如他們所稱）。

我們不喜歡黑箱，這也是端到端方法難以被採用的主要原因之一。ChatGPT 會更好嗎？我不這麼認為，我甚至會說它在許多方面更糟。然而，LLM 正在變得越來越透明，黑箱問題最終可能會得到解決。

要回答「我們能信任它們嗎？」這個問題……現在還處於研究的非常早期階段，我不確定是否有人真的在「線上」使用過它們——意思是「實時」地在汽車裡、在街道上使用，而不是在總部僅用於訓練或圖像生成目的。我絕對可以想像有一天 Tesla 上會出現一個 Grok 模型，僅用於問答目的。所以目前，我會給你一個膽小且保險的答案……

現在下結論還太早！

因為事實確實如此。第一波提到自動駕駛汽車中 LLM 的論文出現在 2023 年中期，所以讓我們給它一些時間。與此同時，你可以從這篇綜述開始，它展示了迄今為止的所有演變。

好了，是時候進入文章最精采的部分了……

LLM 於自動駕駛 (AD) 的總結

大型語言模型 (LLM) 的運作分為 3 個關鍵步驟：輸入、Transformer、輸出。 輸入是一組標記化的單詞，Transformer 是經典的 Transformer，輸出任務是「下一個單詞預測」。
在自動駕駛汽車中，我們可以使用 LLM 解決 3 個關鍵任務： 感知（檢測、追蹤、預測）、規劃（決策、軌跡生成）和生成（場景、影片、訓練數據等）。
在感知中，主要目標是描述我們正在觀察的場景。 輸入是一組原始的多視角圖像，Transformer 旨在預測 3D 邊界框。LLM 也可以用於詢問特定查詢（「計程車在哪裡？」）。
在規劃中，主要目標是為汽車生成行駛軌跡。 輸入是一組物體（感知的輸出、BEV 地圖等），Transformer 使用 LLM 來理解上下文並推理該做什麼。
在生成中，主要目標是生成與所用提示相對應的影片。 像 GAIA-1 這樣的模型具有聊天界面，並以影片作為輸入來生成替代場景（雨天等）或未來場景。
目前，要判斷這是否能長期使用還為時過早，但該領域的研究是自動駕駛汽車空間中最活躍的研究之一。這一切都回到了那個問題：「我們真的能信任一般的 LLM 嗎？」

後續步驟

如果你想開始研究用於自動駕駛汽車的 LLM，你可以做幾件事：

⚠️ 在此之前，最重要的一點：如果你想繼續學習自動駕駛汽車。我每天都會通過私人郵件討論自動駕駛汽車。我會發送許多技巧和直接內容。你應該點此加入。
✅ 首先，建立對自動駕駛汽車 LLM 的理解。這部分已經完成，你可以繼續探索我在文章中提供的資源。
➡️ 其次，建立與自動編碼器（Auto-Encoders）和 Transformer 網路相關的技能。我的圖像分割系列課程非常適合這一點，並將幫助你在沒有 NLP 範例的情況下理解 Transformer 網路，這非常適合電腦視覺工程師的大腦。
➡️ 然後，了解鳥瞰圖 (Bird Eye View) 網路是如何運作的。 一般的 LLM 課程中可能不會提到它，但在自動駕駛汽車中，鳥瞰圖是核心格式，我們可以在其中融合所有數據（LiDAR、相機、多視角等）、構建地圖並直接創建行駛路徑。你可以在我的鳥瞰圖課程中學習（如果已關閉，請加入我的郵件列表以獲得通知）。
最後，練習在自動駕駛場景中訓練、微調和運行 LLM。運行像 Talk2BEV 以及我在文章中提到的其他倉庫。它們大多是開源的，但數據可能很難找到。這被列在最後，但這一切其實並沒有固定的順序。

作者簡介

Jérémy Cohen 是一位自動駕駛汽車工程師，也是 Think Autonomous 的創始人。該平台旨在幫助工程師學習自動駕駛汽車和高級電腦視覺等尖端技術。2022 年，Think Autonomous 榮獲教育技術類別年度全球最佳企業獎，Jérémy Cohen 被《Analytics Insight》雜誌（最大的 AI 紙本雜誌）評為 2023 年 40 位 40 歲以下創新者。你可以點擊這裡加入 10,000 名工程師的行列，閱讀他關於自動駕駛汽車的每日私人郵件。

引用

如需在學術背景或書籍中引用，請標註為：

Jérémy Cohen, "Car-GPT: Could LLMs finally make self-driving cars happen?", The Gradient, 2024. BibTeX 引用格式：

@article{cohen2024cargpt,
author = {Jérémy Cohen},
title = {Car-GPT: Could LLMs finally make self-driving cars happen?},
journal = {The Gradient},
year = {2024},
howpublished = {\url{https://thegradient.pub/car-gpt},
}

— The Gradient