Ecom-RLVE：電子商務對話代理的自適應可驗證環境

Huggingface·1 天前

AI 生成摘要

本專案介紹了 EcomRLVE-GYM，這是一個利用具備可驗證獎勵與自適應難度的強化學習框架，旨在訓練電子商務代理處理複雜的多輪購物任務。

Ecom-RLVE：電子商務對話代理的自適應可驗證環境

本專案起源於 Pytorch OpenEnv 黑客松（Hackathon）並持續演進中，請關注我們以獲取最新動態 🔥

為什麼購物代理需要強化學習（RL）？

大型語言模型雖然能進行流暢的對話，但將其部署為購物助手時，會顯現出一個持續存在的差距：流暢度不等於任務完成度。一位要求「幫我找一個 25 美元以下且兩天內到貨的 USB-C 充電器」的顧客，需要的是一個能夠調用正確目錄搜索、過濾三個硬性約束、避免對從未檢索到的產品 ID 產生幻覺，並在首選結果缺貨時處理後續跟進的代理。

監督式微調（SFT）可以透過演示教學表層的工具使用，但無法擴展到真實電子商務所需的約束配置、部分資訊對話以及多步驟交易工作流的組合空間。

具有可驗證獎勵的強化學習（RLVR）提供了一種替代方案：代理針對結果進行優化——產品是否滿足約束？購物車是否正確？退貨是否針對正確的訂單項啟動？挑戰在於構建既可驗證（無「LLM 作為裁判」的主觀性）又具自適應性（難度隨策略能力增長）的獎勵函數。

從 RLVE-Gym 到 EcomRLVE-GYM

RLVE-Gym 為排序、乘法、數獨和其他算法推理任務提供了 400 個環境；然而，這些都是單輪、文本輸入/文本輸出的謎題——擴展到代理（agentic）領域被留作未來的工作。

EcomRLVE-GYM 填補了這一空白：我們保持在可驗證的範疇內（電商結果可以透過算法檢查），同時擴展到多輪、工具增強的代理對話——在這些環境中，代理必須採取行動（調用工具、修改世界狀態）而不僅僅是推理（產生文本答案），並補償搜索系統的不足。

EcomRLVE-GYM 將客戶服務結果轉化為結構化可驗證的形式：

verifiable_signals_dark

上述每個信號都可以由一個能夠訪問隱藏真實目標（ground-truth goal）的程式進行評估。不需要人工標註或 LLM 作為裁判。

一個訓練情節（Episode）的樣子

在解釋框架之前，以下是難度 d = 4 時單個 EcomRLVE 情節的樣子。環境生成一個隱藏目標，模擬用戶開啟對話，代理必須使用工具來滿足請求。每個動作都經過算法驗證——不需要 LLM 裁判。

Sample Episode

獎勵完全由代碼計算：針對（產品、變體、數量）元組的 F1 分數、在較少輪次內完成的效率獎勵，以及檢查每個推薦的產品 ID 是否確實被檢索過的幻覺檢查。如果代理選擇了 Lightning 變體而不是 USB-C，模擬用戶會在對話中途糾正，而 F1 分數將會下降。

八個環境

每個環境涵蓋一個獨特的真實購物場景。代理必須使用工具（目錄搜索、購物車操作、訂單查詢、政策查詢）完成任務，並由程式評分——而非人類或其他 LLM。

每個環境都使用相同的三部分獎勵信號：

無效輸出（格式錯誤的 JSON、非法的工具調用）會立即觸發失敗評分，從第一步就為格式良好的響應創造強大的激勵。

自適應難度課程

單個難度數字 d 同時控制任務的 12 個獨立維度。這很重要，因為電商對話在許多不同方面都很困難——而不僅僅是單一維度。

Screenshot 2026-03-08 at 11.27.11

以下是四個具代表性的難度軸：

其他八個軸涵蓋輪次預算、輸入噪聲（拼寫錯誤、俚語）、上下文切換、檢索深度、訂單歷史大小、政策複雜性和工具預算。詳細細節請參閱技術報告。

自適應調度。每個環境獨立追蹤代理的成功率，只有在代理能夠可靠地通過當前級別後，才會推進到更難的問題。這使每個環境的訓練都保持在代理的能力邊界——既避免了「太簡單而學不到東西」，也避免了「太難而無法取得進展」。

深度探討：購物車構建 (E_CART)

購物車構建是一個很好的展示案例，因為它需要完整的「搜索 → 檢查 → 澄清 → 行動」循環，具有二進制的真實結果，並引入了大多數推薦基準測試中所缺少的挑戰：變體選擇。

為了成功，代理必須培養五種不同的技能：

代理使用六個工具來完成此任務：

問題所在

生成器抽取 1–5 個目標產品（隨難度 d 擴展），每個產品可能需要特定的變體（USB-C vs Lightning，霧面 vs 亮面）和數量 > 1。代理必須：

為什麼變體很重要

真實的產品目錄具有稀疏的變體數據——許多產品沒有變體，而有的產品通常僅在顏色或尺寸上有所不同。為了創造更豐富的區分任務，我們在情節初始化時合成變體：

難度擴展

在 d = 0 時，代理添加單個產品且無變體複雜性——學習基本的 catalog.search → cart.add 工作流。在 d = 6 時，它需要處理 3 個項目，幾乎所有項目都需要特定變體，且有一半需要數量 > 1。

評分

購物車必須完全正確——正確的產品、正確的變體、正確的數量。部分正確的購物車會給予部分分數，但完美的分數要求每個項目都匹配。如果代理添加了錯誤的變體，模擬用戶會在對話中途糾正（「那是 Lightning 版本，但我需要 USB-C」），讓代理在情節結束前有機會自我修正。

軌跡：簡單 vs. 困難

來自 Qwen 3 8B 代理的兩個真實 E_CART 情節。相同的環境，相同的代理——僅難度改變了遊戲規則。

在 d=1 時，代理在 3 個乾淨的輪次內解決了任務。在 d=8 時，它陷入混亂——選擇了 Bamboo 而不是 Charcoal，XL 而不是 XS，儘管用戶兩次糾正仍未修復氣炸鍋，然後幻覺變體不存在。這正是難度課程所揭示的多步錯誤連鎖反應，也是自適應訓練應該教會代理如何從中恢復的情況。

用戶模擬

一個可驗證的環境需要一個行為真實的用戶模擬器。我們使用 Qwen3.5 (9.7B) 來生成自然、多樣的用戶消息，而不是死板的模板——涵蓋從充滿拼寫錯誤的請求到對話中途的主題切換。

兩個設計選擇對訓練質量至關重要：

偏好與陳述的約束相匹配。每個模擬用戶都有一組隱藏的偏好（價格敏感度、品牌忠誠度、物流速度等）。這些偏好被刻意偏向用戶溝通的任何約束——因此，如果用戶說「25 美元以下」，獎勵函數實際上會關心價格。如果沒有這一點，代理可能會因為正確遵循用戶指令而受到懲罰。

策略性省略。LLM 會刻意從開場消息中保留某些約束，以迫使代理提出澄清問題。系統會精確追蹤哪些內容被提到、哪些沒被提到，因此代理絕不會因為從未獲得的資訊而受到懲罰。

環境擴展

遵循 RLVE 的方法論，我們定義了嵌套的環境集合：

C1 ⊂ C2 ⊂ C4 ⊂ C8

我們假設——與 RLVE 的發現一致——C8 代理的表現優於單一環境專家，甚至在專家自己的任務上也是如此。

初期結果

作為初步可行性研究，我們使用 DAPO 在 C1（購物車構建）上訓練了 Qwen 3 8B 達 300 個步驟。

accuracy_levels

我們觀察到所達到的難度級別逐步增長，證實了自適應調度產生了穩定的學習信號，而不是 RLVE 論文中預測的飽和（靜態低難度）或匱乏（靜態高難度）模式。

親自嘗試

使用下方嵌入的演示，直接在瀏覽器中運行實時情節。以下是開始方法：

資源

環境、驗證器和訓練配置均已開源：

包含 200 萬個產品的目錄已上傳至 Hub：

參考文獻

Zeng, Z., Ivison, H., Wang, Y., et al. (2025). RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments. ICML 2025. arXiv:2511.07317

Yu, Q., Zhang, Z., Zhu, R., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476

Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning. Nature.

Meta AI. (2024). Llama 3.1: A Foundation Model for General Intelligence. llama.meta.com

Qwen Team. (2025). Qwen3 Technical Report. arXiv:2505.09388

本文提到的數據集 1

本文提到的集合 1

更多來自我們部落格的文章

免費使用 Unsloth 和 Hugging Face Jobs 訓練 AI 模型

Codex 正在開源 AI 模型

社群

· 註冊或登入以發表評論

本文提到的數據集 1

本文提到的集合 1

— Huggingface

其他收藏 · 0

收藏夾

你的個人知識庫

Ecom-RLVE：電子商務對話代理的自適應可驗證環境

Ecom-RLVE：電子商務對話代理的自適應可驗證環境

為什麼購物代理需要強化學習（RL）？

從 RLVE-Gym 到 EcomRLVE-GYM

一個訓練情節（Episode）的樣子

八個環境

自適應難度課程

深度探討：購物車構建 (E_CART)

問題所在

為什麼變體很重要

難度擴展

評分

軌跡：簡單 vs. 困難

用戶模擬

環境擴展

初期結果

親自嘗試

資源

參考文獻

本文提到的數據集 1

本文提到的集合 1

免費使用 Unsloth 和 Hugging Face Jobs 訓練 AI 模型

Codex 正在開源 AI 模型

社群

本文提到的數據集 1

本文提到的集合 1