LFM2-24B-A2B:擴展 LFM2 架構規模

LFM2-24B-A2B:擴展 LFM2 架構規模

Hacker News·

我們發布了 LFM2-24B-A2B 的早期檢查點,這是我們最大的 LFM2 模型,這款擁有 240 億參數的稀疏混合專家模型證明了 LFM2 架構能有效擴展至更大規模,並可在消費級筆記型電腦等邊緣環境中部署。

背景

Liquid AI 近期發布了 LFM2-24B-A2B 的早期訓練檢查點(checkpoint),這是目前 LFM2 系列中規模最大的模型。該模型採用稀疏混合專家(MoE)架構,總參數達 240 億,但每代標記僅需 20 億活動參數,旨在證明其混合架構在擴展規模時的有效性。此模型設計目標是能在 32GB RAM 的消費級硬體上運行,強調在邊緣設備與雲端環境間的部署靈活性與推理效率。

社群觀點

Hacker News 的討論主要聚焦於該模型在實際硬體上的運行表現與架構特性。許多使用者對其在非 GPU 環境下的推理速度印象深刻,有留言指出即使僅使用 DDR4 記憶體的 CPU 運作,也能達到每秒 20 至 30 個標記的生成速度,這對於缺乏高階顯卡的用戶而言極具吸引力。然而,這種速度優勢也伴隨著對模型品質的質疑。部分評論者認為,如果使用者擁有超過 4GB 顯存的 GPU,目前市場上如 Gemma 4 或 Qwen 3.6 等模型在綜合表現上可能更具競爭力。

針對官方發布早期檢查點而非最終模型的做法,社群內出現了分歧。支持者認為在訓練中期發布數據有助於展示推理速度的穩定性,並能讓開發者提早測試其獨特的架構設計;但批評者則指出,缺乏與其他主流模型在品質上的橫向對比,使得行銷敘事顯得不夠全面。此外,有使用者反映 LFM 系列模型在長對話的連貫性上存在問題,容易在多輪互動中偏離需求,這與 Gemma 等模型在保持邏輯一致性上的強悍表現形成對比。

關於架構的討論也延伸到了上下文處理能力。有觀點分析指出,Qwen 採用的混合門控注意機制與 Gemma 的滑動窗口注意機制在處理長文本與代碼時各有優劣,而 LFM2 這種結合卷積與注意力機制的混合設計,雖然在離線或資源受限的環境下能提供「足夠好」的代碼建議,但在處理複雜的多輪迭代任務時仍顯吃力。儘管如此,社群中仍有開發者對其潛力表示樂觀,甚至有人嘗試透過蒸餾技術將其小參數版本訓練出媲美大模型的代碼能力,顯示出該架構在特定垂直領域的應用價值。

延伸閱讀

在討論中,社群成員分享了 LFM2-24B-A2B 的 Q4 量化版本資源,可於 Hugston 平台取得。此外,留言也提到 LFM2.5 系列的小型模型已於 Hugging Face 上架,預示著該架構後續更成熟的更新。對於追求穩定輸出的使用者,討論中亦推薦參考 Google 的 Gemma 系列與阿里巴巴的 Qwen 系列作為對標工具。

Hacker News

相關文章

  1. CPU 尚未過時:Gemma 2B 在成名基準測試中得分超越 GPT-3.5 Turbo

    17 天前

  2. Mercury 2:由擴散模型驅動、全球最快的推理大型語言模型

    2 個月前

  3. Gemma 4:以位元組衡量,效能最強大的開放模型

    Google Deepmind · 30 天前

  4. Qwen3.6-27B:在 27B 稠密模型中實現旗艦級程式碼編寫能力

    10 天前

  5. iPhone 17 Pro 成功演示運行 4000 億參數大型語言模型

    大約 1 個月前