Ecom-RLVE:電子商務對話代理的自適應可驗證環境
AI 生成摘要
本專案介紹了 EcomRLVE-GYM,這是一個利用具備可驗證獎勵與自適應難度的強化學習框架,旨在訓練電子商務代理處理複雜的多輪購物任務。
Ecom-RLVE:電子商務對話代理的自適應可驗證環境
本專案起源於 Pytorch OpenEnv 黑客松(Hackathon)並持續演進中,請關注我們以獲取最新動態 🔥
為什麼購物代理需要強化學習(RL)?
大型語言模型雖然能進行流暢的對話,但將其部署為購物助手時,會顯現出一個持續存在的差距:流暢度不等於任務完成度。一位要求「幫我找一個 25 美元以下且兩天內到貨的 USB-C 充電器」的顧客,需要的是一個能夠調用正確目錄搜索、過濾三個硬性約束、避免對從未檢索到的產品 ID 產生幻覺,並在首選結果缺貨時處理後續跟進的代理。
監督式微調(SFT)可以透過演示教學表層的工具使用,但無法擴展到真實電子商務所需的約束配置、部分資訊對話以及多步驟交易工作流的組合空間。
具有可驗證獎勵的強化學習(RLVR)提供了一種替代方案:代理針對結果進行優化——產品是否滿足約束?購物車是否正確?退貨是否針對正確的訂單項啟動?挑戰在於構建既可驗證(無「LLM 作為裁判」的主觀性)又具自適應性(難度隨策略能力增長)的獎勵函數。
從 RLVE-Gym 到 EcomRLVE-GYM
RLVE-Gym 為排序、乘法、數獨和其他算法推理任務提供了 400 個環境;然而,這些都是單輪、文本輸入/文本輸出的謎題——擴展到代理(agentic)領域被留作未來的工作。
EcomRLVE-GYM 填補了這一空白:我們保持在可驗證的範疇內(電商結果可以透過算法檢查),同時擴展到多輪、工具增強的代理對話——在這些環境中,代理必須採取行動(調用工具、修改世界狀態)而不僅僅是推理(產生文本答案),並補償搜索系統的不足。
EcomRLVE-GYM 將客戶服務結果轉化為結構化可驗證的形式:

上述每個信號都可以由一個能夠訪問隱藏真實目標(ground-truth goal)的程式進行評估。不需要人工標註或 LLM 作為裁判。
一個訓練情節(Episode)的樣子
在解釋框架之前,以下是難度 d = 4 時單個 EcomRLVE 情節的樣子。環境生成一個隱藏目標,模擬用戶開啟對話,代理必須使用工具來滿足請求。每個動作都經過算法驗證——不需要 LLM 裁判。

獎勵完全由代碼計算:針對(產品、變體、數量)元組的 F1 分數、在較少輪次內完成的效率獎勵,以及檢查每個推薦的產品 ID 是否確實被檢索過的幻覺檢查。如果代理選擇了 Lightning 變體而不是 USB-C,模擬用戶會在對話中途糾正,而 F1 分數將會下降。
八個環境
每個環境涵蓋一個獨特的真實購物場景。代理必須使用工具(目錄搜索、購物車操作、訂單查詢、政策查詢)完成任務,並由程式評分——而非人類或其他 LLM。
每個環境都使用相同的三部分獎勵信號:
無效輸出(格式錯誤的 JSON、非法的工具調用)會立即觸發失敗評分,從第一步就為格式良好的響應創造強大的激勵。
自適應難度課程
單個難度數字 d 同時控制任務的 12 個獨立維度。這很重要,因為電商對話在許多不同方面都很困難——而不僅僅是單一維度。

以下是四個具代表性的難度軸:
其他八個軸涵蓋輪次預算、輸入噪聲(拼寫錯誤、俚語)、上下文切換、檢索深度、訂單歷史大小、政策複雜性和工具預算。詳細細節請參閱技術報告。
自適應調度。每個環境獨立追蹤代理的成功率,只有在代理能夠可靠地通過當前級別後,才會推進到更難的問題。這使每個環境的訓練都保持在代理的能力邊界——既避免了「太簡單而學不到東西」,也避免了「太難而無法取得進展」。
深度探討:購物車構建 (E_CART)
購物車構建是一個很好的展示案例,因為它需要完整的「搜索 → 檢查 → 澄清 → 行動」循環,具有二進制的真實結果,並引入了大多數推薦基準測試中所缺少的挑戰:變體選擇。
為了成功,代理必須培養五種不同的技能:
代理使用六個工具來完成此任務:
問題所在
生成器抽取 1–5 個目標產品(隨難度 d 擴展),每個產品可能需要特定的變體(USB-C vs Lightning,霧面 vs 亮面)和數量 > 1。代理必須:
為什麼變體很重要
真實的產品目錄具有稀疏的變體數據——許多產品沒有變體,而有的產品通常僅在顏色或尺寸上有所不同。為了創造更豐富的區分任務,我們在情節初始化時合成變體:
難度擴展
在 d = 0 時,代理添加單個產品且無變體複雜性——學習基本的 catalog.search → cart.add 工作流。在 d = 6 時,它需要處理 3 個項目,幾乎所有項目都需要特定變體,且有一半需要數量 > 1。
評分
購物車必須完全正確——正確的產品、正確的變體、正確的數量。部分正確的購物車會給予部分分數,但完美的分數要求每個項目都匹配。如果代理添加了錯誤的變體,模擬用戶會在對話中途糾正(「那是 Lightning 版本,但我需要 USB-C」),讓代理在情節結束前有機會自我修正。
軌跡:簡單 vs. 困難
來自 Qwen 3 8B 代理的兩個真實 E_CART 情節。相同的環境,相同的代理——僅難度改變了遊戲規則。
在 d=1 時,代理在 3 個乾淨的輪次內解決了任務。在 d=8 時,它陷入混亂——選擇了 Bamboo 而不是 Charcoal,XL 而不是 XS,儘管用戶兩次糾正仍未修復氣炸鍋,然後幻覺變體不存在。這正是難度課程所揭示的多步錯誤連鎖反應,也是自適應訓練應該教會代理如何從中恢復的情況。
用戶模擬
一個可驗證的環境需要一個行為真實的用戶模擬器。我們使用 Qwen3.5 (9.7B) 來生成自然、多樣的用戶消息,而不是死板的模板——涵蓋從充滿拼寫錯誤的請求到對話中途的主題切換。
兩個設計選擇對訓練質量至關重要:
偏好與陳述的約束相匹配。每個模擬用戶都有一組隱藏的偏好(價格敏感度、品牌忠誠度、物流速度等)。這些偏好被刻意偏向用戶溝通的任何約束——因此,如果用戶說「25 美元以下」,獎勵函數實際上會關心價格。如果沒有這一點,代理可能會因為正確遵循用戶指令而受到懲罰。
策略性省略。LLM 會刻意從開場消息中保留某些約束,以迫使代理提出澄清問題。系統會精確追蹤哪些內容被提到、哪些沒被提到,因此代理絕不會因為從未獲得的資訊而受到懲罰。
環境擴展
遵循 RLVE 的方法論,我們定義了嵌套的環境集合:
C1 ⊂ C2 ⊂ C4 ⊂ C8
我們假設——與 RLVE 的發現一致——C8 代理的表現優於單一環境專家,甚至在專家自己的任務上也是如此。
初期結果
作為初步可行性研究,我們使用 DAPO 在 C1(購物車構建)上訓練了 Qwen 3 8B 達 300 個步驟。

我們觀察到所達到的難度級別逐步增長,證實了自適應調度產生了穩定的學習信號,而不是 RLVE 論文中預測的飽和(靜態低難度)或匱乏(靜態高難度)模式。
親自嘗試
使用下方嵌入的演示,直接在瀏覽器中運行實時情節。以下是開始方法:
資源
環境、驗證器和訓練配置均已開源:
包含 200 萬個產品的目錄已上傳至 Hub:
參考文獻
Zeng, Z., Ivison, H., Wang, Y., et al. (2025). RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments. ICML 2025. arXiv:2511.07317
Yu, Q., Zhang, Z., Zhu, R., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476
Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning. Nature.
Meta AI. (2024). Llama 3.1: A Foundation Model for General Intelligence. llama.meta.com
Qwen Team. (2025). Qwen3 Technical Report. arXiv:2505.09388
本文提到的數據集 1
本文提到的集合 1
更多來自我們部落格的文章
![]()
免費使用 Unsloth 和 Hugging Face Jobs 訓練 AI 模型
![]()
Codex 正在開源 AI 模型
社群
· 註冊或登入以發表評論
本文提到的數據集 1
本文提到的集合 1
相關文章
其他收藏 · 0
收藏夾