大型語言模型聊天機器人所缺失的：目標感

The Gradient·超過 1 年前

目前的大型語言模型基準測試專注於靜態性能，但未能衡量對人類與人工智慧協作至關重要的有目的多輪對話以及指令穩定性。

基於大型語言模型（LLM）的聊天機器人能力每個月都在進步。這些提升大多透過 MMLU、HumanEval 和 MATH 等基準測試（例如 Sonnet 3.5、GPT-4o）來衡量。然而，隨著這些指標趨於飽和，使用者體驗是否與這些分數成比例增加？如果我們展望的是人類與 AI 協作而非 AI 取代人類的未來，目前衡量對話系統的方式可能不足，因為它們是以非互動的方式進行測量的。

為什麼有目的性的對話很重要？

有目的性的對話是指圍繞著某個目標或意圖展開的多輪使用者與聊天機器人對話。這個目標可以從通用的「無害且有幫助」，到更具體的角色如「旅遊規劃代理人」、「心理治療師」或「客服機器人」。

旅遊規劃是一個簡單且具說明性的例子。我們的偏好、同伴的偏好以及現實世界情況的所有複雜性，使得一次性傳輸所有資訊的成本過高。然而，如果允許進行多次來回的資訊交換，則只有重要的資訊會被選擇性地交換。談判理論對此提供了一個類比——迭代討價還價比「要不要隨你（take-it-or-leave-it）」的出價能產生更好的結果。

事實上，分享資訊只是對話的一個面向。用 Terry Winograd 的話來說：「所有的語言使用都可以被視為在聽者內部啟動程序的一種方式。」我們可以將每一次發話視為一方為了改變另一方的世界模型而採取的刻意行動。如果雙方都有更複雜、甚至隱藏的目標呢？透過這種方式，有目的性的對話為我們提供了一種將人機互動公式化為「協作遊戲」的方法，其中聊天機器人的目標是幫助人類實現特定目標。

這看起來似乎是只有學術界才關心的不必要複雜性。然而，有目的性的對話即使對於像程式碼生成這樣最務實、以產品為導向的研究方向也是有益的。現有的程式碼基準測試大多衡量單次生成的表現；然而，要讓 AI 自動化解決普通的 Github issue（如 SWE-bench 中所示），不太可能透過單一行動實現——AI 需要與人類軟體工程師來回溝通，以確保正確理解需求、要求缺失的文檔和數據，甚至在需要時請求人類協助。這與結對程式設計（pair programming）類似，可以在不增加工時負擔的情況下減少程式碼缺陷。

此外，隨著輪流對話（turn-taking）的引入，許多新的可能性將被解鎖。隨著互動變得長期化並建立記憶，聊天機器人可以逐漸更新使用者檔案，也可以適應他們的偏好。想像一個個人助理（例如 IVA、Siri），透過日常互動學習您的偏好和意圖。它可以自動閱讀您的新資訊來源（例如 Twitter、arXiv、Slack、紐約時報），並根據您的偏好提供晨間新聞摘要；它可以為您起草郵件，並透過學習您的修改而不斷改進。

簡而言之，人與人之間有意義的互動很少始於完全陌生並在一次交換中結束。人類自然地透過多輪對話相互互動，並在整個對話過程中相應地調整。然而，這難道不正是「預測下一個標記（token）」的反面嗎？而後者正是現代 LLM 的基石。下面，讓我們來看看對話系統的構成。

對話系統是如何製造的？

讓我們回到 1970 年代，當時 Roger Schank 引入了他的「餐廳劇本（restaurant script）」作為一種對話系統 [1]。這個劇本將典型的餐廳體驗分解為進入、點餐、用餐和結帳等步驟，每一步都有特定的腳本發話。當時，這些場景中的每一段對話都是精心策劃的，使 AI 系統能夠模仿現實的對話。ELIZA（羅傑斯心理治療模擬器）和 PARRY（模仿偏執狂個體的系統）是機器學習黎明前的另外兩個早期對話系統。

將這種方法與今天的基於 LLM 的對話系統相比，受訓於預測下一個標記的模型竟然能參與對話，這似乎顯得有些神祕。因此，讓我們仔細檢查對話系統是如何製造的，重點在於對話格式如何發揮作用：

(1) 預訓練：訓練一個序列模型，在包含各種網路文本的巨量語料庫上預測下一個標記。組成成分可能有所不同，但主要是新聞、書籍、Github 程式碼，並混合了少量從 Reddit、Stack Exchange 等論壇爬取的數據，這些數據可能包含類對話數據。

來自 Llama 技術報告的預訓練數據混合表

(2) 引入對話格式：因為序列模型只處理字串，而對話歷史最自然的表示方式是系統提示（system prompts）和過去交換內容的結構化索引，因此為了轉換目的必須引入某種格式。一些 Huggingface 分詞器提供了名為 tokenizer.apply_chat_template 的方法以方便使用者。具體格式因模型而異，但通常涉及使用 <system> 或 <INST> 來保護系統提示，希望預訓練模型能分配更多的注意力權重給它們。系統提示在使語言模型適應下游應用並確保其安全行為方面發揮著重要作用（我們將在下一節詳細討論）。值得注意的是，在這一步中格式的選擇是任意的——預訓練語料庫並不遵循這種格式。

聊天機器人的上下文視窗

(3) RLHF：在這一步中，聊天機器人會因為生成理想或不理想的答案而直接受到獎勵或懲罰。值得注意的是，這是引入的對話格式第一次出現在訓練數據中。RLHF 是一個「微調」步驟，不僅是因為其數據規模與預訓練語料庫相比微不足道，還因為 KL 懲罰和目標權重調整（例如 LoRA）。使用 Lecun 的蛋糕比喻，RLHF 只是頂部的小櫻桃。

圖片來自 Yann Lecun 的投影片

現有的對話系統（在 2024 年）有多一致？

我們對對話系統的最低要求是它能堅持執行我們交給它的任務。事實上，我們人類經常在話題之間漂移。目前的系統表現如何？

目前，「系統提示」是使用者控制語言模型行為的主要方法。然而，研究人員發現證據表明，在對抗性條件下，LLM 在遵循這些指令方面可能很脆弱 [12, 13]。讀者在日常與 ChatGPT 或 Claude 的互動中可能也經歷過這種情況——當一個新的聊天視窗剛開啟時，模型可以相當好地遵循您的指令 [2]，但在幾輪對話之後，它就不再「新鮮」了，甚至完全停止遵循其角色。

我們如何定量地捕捉這種現象？對於單輪指令遵循，我們已經擁有了豐富的基準測試，如 MT-Bench 和 Alpaca-Eval。然而，當我們以互動方式測試模型時，很難預料模型會生成什麼並提前準備回覆。在我和合作者的一個項目中 [3]，我們建立了一個環境來合成無限長度的對話，以對 LLM 聊天機器人的指令遵循能力進行壓力測試。

為了允許在時間尺度上進行不受限制的擴展，我們讓兩個帶有系統提示的語言模型代理相互聊天多輪。這形成了對話的主幹 [a1, b1, a2, b2, …, a8, b8]（假設對話為 8 輪）。此時，我們或許可以僅透過檢查這段對話來了解 LLM 如何堅持其系統提示，但許多發話可能與指令無關，這取決於對話的走向。因此，我們假設在每一輪都分支出去，直接詢問一個與系統提示相關的問題，並使用相應的評判函數來量化其表現。數據集提供的只是由（系統提示、探測問題和評判函數）組成的三元組庫。

衡量指令穩定性過程的草圖

透過對不同場景和系統提示對進行平均，我們得到了一條跨輪次的指令穩定性曲線。令我們驚訝的是，LLaMA2-chat-70B 和 gpt-3.5-turbo-16k 的匯總結果都令人擔憂。除了增加提示工程的難度外，指令穩定性的缺乏還帶來了安全疑慮。當聊天機器人偏離規定安全方面的系統提示時，它變得更容易受到越獄攻擊，並產生更多的幻覺。

LLaMA2-chat-70B 和 gpt-3.5-turbo-16k 上的指令穩定性

實驗結果也與 LLM 不斷增加的上下文長度形成對比。理論上，一些長上下文模型可以處理高達 10 萬個標記的視窗。然而，在對話設定中，它們僅在 1.6k 個標記後就會分心（假設每句發話為 100 個標記）。在 [3] 中，我們進一步從理論上展示了在當前的提示方案下，這在基於 Transformer 的語言模型聊天機器人中是如何不可避免的，並提出了一種稱為 split-softmax 的簡單技術來減輕這種影響。

此時有人可能會問，為什麼情況這麼糟？為什麼人類不會僅僅因為與另一個人交談 8 輪就失去自己的人格？可以說，人類的互動是基於目的和意圖的 [5]，而這些目的是手段的前提，而非相反——LLM 從根本上是一個流利的英文生成器，而人格僅僅是一個薄薄的附加層。

缺少了什麼？

預訓練？
預訓練賦予了語言模型對網路人格分佈以及每個人格底層語言分佈建模的能力 [4]。然而，即使當一個個人格（或其中少數幾個的混合）被系統提示的指令指定時，目前的方法仍無法將其單獨提取出來。

RLHF？
RLHF 提供了一個強大的解決方案，將這種多人格模型調整為「有幫助且無害的助手」。然而，原始的 RLHF 方法將獎勵最大化公式化為單步的多臂老虎機（bandit）問題，通常不可能在對話循環中利用人類回饋進行訓練。（我意識到對齊技術有很多進展，但我在此討論原始的 RLHF 算法作為典型例子。）這種多輪規劃的缺乏可能導致模型遭受任務歧義 [6]，並學習到表面的類人性而非目標導向的社交互動 [7]。

在 RLHF 中加入更多對話數據會有幫助嗎？我的猜測是，在一定程度上會有幫助，但由於缺乏目的，它仍然會力有未逮。Sergey Levine 在他的部落格中指出，偏好學習與意圖之間存在根本區別：「關鍵區別在於，是將語言生成視為在序列過程中選擇目標導向的行動，還是將其視為產生滿足使用者偏好的輸出的問題。」

有目的性的對話系統

堅持執行任務是對 LLM 的一個謙卑要求。然而，即使 LLM 保持專注於任務，也不一定意味著它能擅長達成目標。

長程規劃（long-horizon planning）的問題已引起 LLM 社群的一些關注。例如，「決策導向對話（decision-oriented dialogue）」被提出作為一類通用任務 [8]，其中 AI 助手與人類協作，幫助他們做出複雜的決策，例如規劃城市行程和在朋友之間協商旅遊計劃。另一個例子 Sotopia [10] 是一個綜合性的社交模擬平台，彙編了各種目標驅動的對話場景，包括協作、談判和說服。

建立這樣的基準測試不僅提供了一種衡量領域進展的方法，還直接提供了新算法可以追求的獎勵信號，而這些信號的收集成本可能很高且定義起來很棘手 [9]。然而，目前並沒有太多技術可以對語言模型施加控制，使其能夠朝著這些目標在長程範圍內表現一致。

為了填補這一空白，我和我的合作者提出了一種輕量級算法（對話行動標記，Dialogue Action Tokens, DAT [11]），引導語言模型聊天機器人完成多輪目標驅動的對話。如下圖所示，在每一輪對話中，對話歷史的最後一個標記嵌入被用作規劃器（actor）的輸入（狀態），規劃器預測幾個前綴標記（行動）來控制生成過程。透過使用相對穩定的強化學習算法 TD3+BC 訓練規劃器，我們在 Sotopia 上展示了相對於基準模型的顯著改進，甚至超過了 GPT-4 的社交能力評分。

對話行動標記 (DAT) 的草圖

透過這種方式，我們提供了一條技術路徑，將語言模型從僅僅猜測下一個標記的預測模型，升級為能有目的地與人類進行對話的模型。我們可以想像，這種技術也可能被誤用於有害的應用。出於這個原因，我們還進行了「多輪紅隊測試」實驗，並建議在此進行更多研究，以更好地理解多輪對話作為潛在攻擊面的風險。

結語

我回顧了當前 LLM 對話系統的製作方式，以及為什麼它是不足的。我假設「目的」是缺失的部分，並介紹了一種透過強化學習將其補回的技術。

以下是我最感興趣的兩個研究問題：

(1) 透過轉向（steering）技術更好地監控和控制對話系統。例如，最近提出的 TalkTurner (Chen et al.) 為開源 LLM 增加了一個儀表板 (Viégas et al.)，使用戶能夠看到並控制 LLM 如何看待自己。目前轉向技術的許多弱點已被揭露，需要更好的解決方案。例如，發現使用激活轉向（activation steering）同時控制兩個屬性（例如年齡和教育程度）非常困難，且會導致更多的語言退化。另一個有趣的問題是如何區分 LLM 對自身的內部模型與對使用者的模型。有趣的是，與金門大橋版 Claude 聊天顯示，對 SAE 發現的特定金門大橋特徵進行轉向，有時會導致 Claude 認為自己是舊金山的地標，有時認為使用者是那座橋，有時則認為話題就是關於橋。

(2) 更好地利用離線獎勵信號。在 Sotopia 和「決策導向對話」等設定環境中，獎勵信號是預先設計好的。在現實世界中，使用者不會留下滿意度的數值回饋。然而，語言中可能存在其他線索（例如「謝謝！」、「這很有幫助！」）或來自外部資源（例如使用者為銷售 AI 購買了產品，使用者在短時間內轉向 Copilot 的下一個程式碼問題）。推斷並利用這些隱藏的獎勵信號可以加強線上聊天機器人的網絡效應：好的模型 → 更多使用者 → 從與使用者的互動中學習 → 更好的模型。

致謝
作者感謝 Martin Wattenberg 和 Hugh Zhang（按字母順序排列）提供的建議和文本編輯。

引用

在學術背景或書籍中引用此內容，請標註為：

Kenneth Li, "What's Missing From LLM Chatbots: A Sense of Purpose", The Gradient, 2024.

BibTeX 引用（本部落格）：

💡@article{li2024from,
author = {Li, Kenneth},
title = {What's Missing From LLM Chatbots: A Sense of Purpose},
journal = {The Gradient},
year = {2024},
howpublished = {\url{https://thegradient.pub/dialogue}},
}

參考文獻

[1] Schank, Roger C., and Robert P. Abelson. Scripts, plans, goals, and understanding: An inquiry into human knowledge structures. Psychology press, 2013.
[2] Zhou, Jeffrey, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. "Instruction-following evaluation for large language models." arXiv preprint arXiv:2311.07911 (2023).
[3] Li, Kenneth, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Viégas, Hanspeter Pfister, and Martin Wattenberg. "Measuring and controlling persona drift in language model dialogs." arXiv preprint arXiv:2402.10962 (2024).
[4] Andreas, Jacob. "Language models as agent models." arXiv preprint arXiv:2212.01681 (2022).
[5] Austin, John Langshaw. How to do things with words. Harvard university press, 1975.
[6] Tamkin, Alex, Kunal Handa, Avash Shrestha, and Noah Goodman. "Task ambiguity in humans and language models." arXiv preprint arXiv:2212.10711 (2022).
[7] Bianchi, Federico, Patrick John Chia, Mert Yuksekgonul, Jacopo Tagliabue, Dan Jurafsky, and James Zou. "How well can llms negotiate? negotiationarena platform and analysis." arXiv preprint arXiv:2402.05863 (2024).
[8] Lin, Jessy, Nicholas Tomlin, Jacob Andreas, and Jason Eisner. "Decision-oriented dialogue for human-ai collaboration." arXiv preprint arXiv:2305.20076 (2023).
[9] Kwon, Minae, Sang Michael Xie, Kalesha Bullard, and Dorsa Sadigh. "Reward design with language models." arXiv preprint arXiv:2303.00001 (2023).
[10] Zhou, Xuhui, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency et al. "Sotopia: Interactive evaluation for social intelligence in language agents." arXiv preprint arXiv:2310.11667 (2023).
[11] Li, Kenneth, Yiming Wang, Fernanda Viégas, and Martin Wattenberg. "Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner." arXiv preprint arXiv:2406.11978 (2024).
[12] Li, Shiyang, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, and Hongxia Jin. "Instruction-following evaluation through verbalizer manipulation." arXiv preprint arXiv:2307.10558 (2023).
[13] Wu, Zhaofeng, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, and Yoon Kim. "Reasoning or reciting? exploring the capabilities and limitations of language models through counterfactual tasks." arXiv preprint arXiv:2307.02477 (2023).

— The Gradient

你的個人知識庫

大型語言模型聊天機器人所缺失的：目標感

現有的對話系統（在 2024 年）有多一致？

缺少了什麼？

有目的性的對話系統

結語