I-DLM:內省擴散語言模型
AI 生成摘要
I-DLM 是首個在品質上能與自迴歸模型媲美的擴散語言模型,透過內省步進解碼技術在單次前向傳播中同時驗證與生成標記,並在保持高效能的同時顯著提升了吞吐量。
背景
擴散語言模型(Diffusion Language Models, DLMs)一直被視為突破自回歸模型(AR)序列生成瓶頸的潛在方案,其平行生成代幣的特性理論上能大幅提升速度,但在生成品質上始終難以與 AR 模型匹敵。近期發表的 I-DLM(內省擴散語言模型)提出了一種名為「內省步進解碼」(ISD)的新技術,透過在單次前向傳播中同時驗證舊代幣並生成新代幣,成功讓 8B 規模的模型在多項基準測試中達到甚至超越同規模 AR 模型的表現,並在維持品質的同時提供數倍的吞吐量。
社群觀點
在 Hacker News 的討論中,社群對 I-DLM 的技術突破展現出高度興趣,特別是其將現有自回歸模型(如 Qwen)轉化為擴散模型的做法。有評論者指出,這項研究最令人驚艷之處在於它並非從零開始訓練一個原生的擴散模型,而是透過巧妙的訓練與 LoRA 適配器技術,讓擴散模型能與原始 AR 模型的機率分佈對齊。這種做法不僅解決了傳統擴散模型品質不佳的問題,還能透過殘差內省步進解碼(R-ISD)實現位元級的無損加速,這意味著使用者可以在不犧牲任何輸出精確度的前提下,獲得約兩倍的生成速度提升。
然而,對於擴散模型在實際應用中的穩定性,社群仍存有疑慮。部分使用者分享了測試其他擴散文字生成產品的經驗,指出雖然生成速度極快,但輸出內容往往會隨著長度增加而出現嚴重的「崩壞」現象,例如程式碼中出現亂碼或邏輯斷裂。雖然 I-DLM 聲稱解決了品質落差,但這種對擴散模型生成一致性的不信任感依然存在。此外,也有開發者提到目前擴散模型在小規模實作(如 Swift 版本)中的表現尚不理想,且生成過程往往仍帶有明顯的由左至右傾向,並未完全發揮平行生成的優勢。
關於擴散模型的未來演進,社群展開了有趣的想像。有觀點認為,擴散模型或許能像目前的推理模型一樣,透過多輪的「內省」與修正來強化邏輯推理能力,即在每一輪生成後重新檢視並優化區塊內容,直到輸出結果令人滿意為止。雖然目前已有類似將輸出重新餵回模型進行修正的嘗試,但如何將這種「思考」過程與擴散模型的平行特性完美結合,仍是眾人期待的研究方向。此外,也有人提到這類模型在本地端 LLM 社群中,正被探索用於投機解碼(Speculative Decoding)等加速場景,顯示其應用潛力不僅限於獨立生成。
延伸閱讀
在討論過程中,社群成員提到了幾個值得關注的相關資源。Inception Labs 是一家長期深耕擴散語言模型領域的新創公司,其產品展示了極高的生成速度,儘管在長文本品質上仍面臨挑戰。此外,針對本地端模型加速,dFlash 專案正嘗試將區塊擴散技術應用於投機解碼。對於想要嘗試實作的開發者,WeDLM 則是一個基於 Swift 語言的擴散模型實驗性實作,雖然目前效能尚待優化,但提供了另一種架構參考。
相關文章
其他收藏 · 0
收藏夾