Ecom-RLVE:電子商務對話代理的自適應可驗證環境

Ecom-RLVE:電子商務對話代理的自適應可驗證環境

Huggingface·

AI 生成摘要

本專案介紹了 EcomRLVE-GYM,這是一個利用具備可驗證獎勵與自適應難度的強化學習框架,旨在訓練電子商務代理處理複雜的多輪購物任務。

Ecom-RLVE:電子商務對話代理的自適應可驗證環境

本專案起源於 Pytorch OpenEnv 黑客松(Hackathon)並持續演進中,請關注我們以獲取最新動態 🔥

為什麼購物代理需要強化學習(RL)?

大型語言模型雖然能進行流暢的對話,但將其部署為購物助手時,會顯現出一個持續存在的差距:流暢度不等於任務完成度。一位要求「幫我找一個 25 美元以下且兩天內到貨的 USB-C 充電器」的顧客,需要的是一個能夠調用正確目錄搜索、過濾三個硬性約束、避免對從未檢索到的產品 ID 產生幻覺,並在首選結果缺貨時處理後續跟進的代理。

監督式微調(SFT)可以透過演示教學表層的工具使用,但無法擴展到真實電子商務所需的約束配置、部分資訊對話以及多步驟交易工作流的組合空間。

具有可驗證獎勵的強化學習(RLVR)提供了一種替代方案:代理針對結果進行優化——產品是否滿足約束?購物車是否正確?退貨是否針對正確的訂單項啟動?挑戰在於構建既可驗證(無「LLM 作為裁判」的主觀性)又具自適應性(難度隨策略能力增長)的獎勵函數。

從 RLVE-Gym 到 EcomRLVE-GYM

RLVE-Gym 為排序、乘法、數獨和其他算法推理任務提供了 400 個環境;然而,這些都是單輪、文本輸入/文本輸出的謎題——擴展到代理(agentic)領域被留作未來的工作。

EcomRLVE-GYM 填補了這一空白:我們保持在可驗證的範疇內(電商結果可以透過算法檢查),同時擴展到多輪、工具增強的代理對話——在這些環境中,代理必須採取行動(調用工具、修改世界狀態)而不僅僅是推理(產生文本答案),並補償搜索系統的不足。

EcomRLVE-GYM 將客戶服務結果轉化為結構化可驗證的形式:

verifiable_signals_dark

上述每個信號都可以由一個能夠訪問隱藏真實目標(ground-truth goal)的程式進行評估。不需要人工標註或 LLM 作為裁判。

一個訓練情節(Episode)的樣子

在解釋框架之前,以下是難度 d = 4 時單個 EcomRLVE 情節的樣子。環境生成一個隱藏目標,模擬用戶開啟對話,代理必須使用工具來滿足請求。每個動作都經過算法驗證——不需要 LLM 裁判。

Sample Episode

獎勵完全由代碼計算:針對(產品、變體、數量)元組的 F1 分數、在較少輪次內完成的效率獎勵,以及檢查每個推薦的產品 ID 是否確實被檢索過的幻覺檢查。如果代理選擇了 Lightning 變體而不是 USB-C,模擬用戶會在對話中途糾正,而 F1 分數將會下降。

八個環境

每個環境涵蓋一個獨特的真實購物場景。代理必須使用工具(目錄搜索、購物車操作、訂單查詢、政策查詢)完成任務,並由程式評分——而非人類或其他 LLM。

每個環境都使用相同的三部分獎勵信號:

無效輸出(格式錯誤的 JSON、非法的工具調用)會立即觸發失敗評分,從第一步就為格式良好的響應創造強大的激勵。

自適應難度課程

單個難度數字 d 同時控制任務的 12 個獨立維度。這很重要,因為電商對話在許多不同方面都很困難——而不僅僅是單一維度。

Screenshot 2026-03-08 at 11.27.11

以下是四個具代表性的難度軸:

其他八個軸涵蓋輪次預算、輸入噪聲(拼寫錯誤、俚語)、上下文切換、檢索深度、訂單歷史大小、政策複雜性和工具預算。詳細細節請參閱技術報告。

自適應調度。每個環境獨立追蹤代理的成功率,只有在代理能夠可靠地通過當前級別後,才會推進到更難的問題。這使每個環境的訓練都保持在代理的能力邊界——既避免了「太簡單而學不到東西」,也避免了「太難而無法取得進展」。

深度探討:購物車構建 (E_CART)

購物車構建是一個很好的展示案例,因為它需要完整的「搜索 → 檢查 → 澄清 → 行動」循環,具有二進制的真實結果,並引入了大多數推薦基準測試中所缺少的挑戰:變體選擇。

為了成功,代理必須培養五種不同的技能:

代理使用六個工具來完成此任務:

問題所在

生成器抽取 1–5 個目標產品(隨難度 d 擴展),每個產品可能需要特定的變體(USB-C vs Lightning,霧面 vs 亮面)和數量 > 1。代理必須:

為什麼變體很重要

真實的產品目錄具有稀疏的變體數據——許多產品沒有變體,而有的產品通常僅在顏色或尺寸上有所不同。為了創造更豐富的區分任務,我們在情節初始化時合成變體:

難度擴展

在 d = 0 時,代理添加單個產品且無變體複雜性——學習基本的 catalog.searchcart.add 工作流。在 d = 6 時,它需要處理 3 個項目,幾乎所有項目都需要特定變體,且有一半需要數量 > 1。

評分

購物車必須完全正確——正確的產品、正確的變體、正確的數量。部分正確的購物車會給予部分分數,但完美的分數要求每個項目都匹配。如果代理添加了錯誤的變體,模擬用戶會在對話中途糾正(「那是 Lightning 版本,但我需要 USB-C」),讓代理在情節結束前有機會自我修正。

軌跡:簡單 vs. 困難

來自 Qwen 3 8B 代理的兩個真實 E_CART 情節。相同的環境,相同的代理——僅難度改變了遊戲規則。

在 d=1 時,代理在 3 個乾淨的輪次內解決了任務。在 d=8 時,它陷入混亂——選擇了 Bamboo 而不是 Charcoal,XL 而不是 XS,儘管用戶兩次糾正仍未修復氣炸鍋,然後幻覺變體不存在。這正是難度課程所揭示的多步錯誤連鎖反應,也是自適應訓練應該教會代理如何從中恢復的情況。

用戶模擬

一個可驗證的環境需要一個行為真實的用戶模擬器。我們使用 Qwen3.5 (9.7B) 來生成自然、多樣的用戶消息,而不是死板的模板——涵蓋從充滿拼寫錯誤的請求到對話中途的主題切換。

兩個設計選擇對訓練質量至關重要:

偏好與陳述的約束相匹配。每個模擬用戶都有一組隱藏的偏好(價格敏感度、品牌忠誠度、物流速度等)。這些偏好被刻意偏向用戶溝通的任何約束——因此,如果用戶說「25 美元以下」,獎勵函數實際上會關心價格。如果沒有這一點,代理可能會因為正確遵循用戶指令而受到懲罰。

策略性省略。LLM 會刻意從開場消息中保留某些約束,以迫使代理提出澄清問題。系統會精確追蹤哪些內容被提到、哪些沒被提到,因此代理絕不會因為從未獲得的資訊而受到懲罰。

環境擴展

遵循 RLVE 的方法論,我們定義了嵌套的環境集合:

C1 ⊂ C2 ⊂ C4 ⊂ C8

我們假設——與 RLVE 的發現一致——C8 代理的表現優於單一環境專家,甚至在專家自己的任務上也是如此。

初期結果

作為初步可行性研究,我們使用 DAPO 在 C1(購物車構建)上訓練了 Qwen 3 8B 達 300 個步驟。

accuracy_levels

我們觀察到所達到的難度級別逐步增長,證實了自適應調度產生了穩定的學習信號,而不是 RLVE 論文中預測的飽和(靜態低難度)或匱乏(靜態高難度)模式。

親自嘗試

使用下方嵌入的演示,直接在瀏覽器中運行實時情節。以下是開始方法:

資源

環境、驗證器和訓練配置均已開源:

包含 200 萬個產品的目錄已上傳至 Hub:

參考文獻

Zeng, Z., Ivison, H., Wang, Y., et al. (2025). RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments. ICML 2025. arXiv:2511.07317

Yu, Q., Zhang, Z., Zhu, R., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476

Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning. Nature.

Meta AI. (2024). Llama 3.1: A Foundation Model for General Intelligence. llama.meta.com

Qwen Team. (2025). Qwen3 Technical Report. arXiv:2505.09388

本文提到的數據集 1

本文提到的集合 1

更多來自我們部落格的文章

Image

免費使用 Unsloth 和 Hugging Face Jobs 訓練 AI 模型

Image

Codex 正在開源 AI 模型

社群

· 註冊或登入以發表評論

本文提到的數據集 1

本文提到的集合 1

Huggingface

相關文章

其他收藏 · 0

收藏夾