Show HN:在8GB GPU上以每秒1個詞元的吞吐量運行Qwen3-Next-80B
Hacker News·
一個名為oLLM的新Python函式庫,能夠讓使用者在配備僅8GB VRAM的消費級GPU上運行大型上下文的語言模型,例如Qwen3-Next-80B,並實現每秒1個詞元的吞吐量,且無需量化。
暫無內容
相關文章
一個名為oLLM的新Python函式庫,能夠讓使用者在配備僅8GB VRAM的消費級GPU上運行大型上下文的語言模型,例如Qwen3-Next-80B,並實現每秒1個詞元的吞吐量,且無需量化。
暫無內容
相關文章