
微軟參與 NSDI 2026:大規模網路系統的技術進展
微軟研究人員在 NSDI 2026 分享了在構建與營運大規模分散式系統方面的進展,涵蓋資料中心、網路以及與 AI 日益增長的交集。
大型網路系統是雲端運算、人工智慧(AI)以及分散式應用與服務的基石。USENIX 網路系統設計與實作研討會 2026 (在新分頁中開啟) (NSDI ’26) 是一個領先的論壇,研究人員與從業者在此分享關於這些系統設計與運作的新研究、見解與進展。
Microsoft 很榮幸能再次作為贊助商支持 NSDI ’26,這反映了我們對推動系統與網路研究以及與廣大社群交流的持續承諾。Microsoft 的研究人員與工程主管也擔任了程式委員會成員及其他組織職務。
今年,共有 11 篇由 Microsoft 作者及其合作者撰寫的論文被大會接收,涵蓋了資料中心與廣域網路、AI 系統以及雲端基礎設施。這些論文共同展示了在建構與運作大型網路系統方面的進展。
播客系列
[
](https://www.microsoft.com/en-us/research/story/ai-testing-and-evaluation-learnings-from-science-and-industry/)
AI 測試與評估:來自科學界與工業界的經驗
了解 Microsoft 如何借鑒其他領域的經驗,將評估與測試提升為 AI 治理的支柱。
[
立即收聽 ](https://www.microsoft.com/en-us/research/story/ai-testing-and-evaluation-learnings-from-science-and-industry/)
在新分頁中開啟
技術分組會議
5 月 4 日星期一,下午 2:00–3:20
DroidSpeak: 跨微調模型變體的 KV 快取共享 (在新分頁中開啟)
Yuhan Liu, Yuyang Huang, Jiayi Yao, Zhuohan Gu, Kuntai Du, Hanchen Li, Yihua Cheng, and Junchen Jiang, 芝加哥大學; Shan Lu, Madan Musuvathi, and Esha Choukse, Microsoft
DroidSpeak 讓具有相同架構的大型語言模型(LLM)能夠跨模型共享並部分重用 KV 快取,在對輸出品質影響極小的情況下,提供高達 4 倍的吞吐量和更快的響應速度。
5 月 4 日星期一,下午 3:50–5:30
Eywa: 使用 LLM 自動化模型導向測試 (在新分頁中開啟)
Rajdeep Mondal, Rathin Singha, Todd D. Millstein, and George Varghese, 加州大學洛杉磯分校 (UCLA); Ryan Beckett and Siva Kesava Reddy Kakarla, Microsoft Research
Eywa 利用 LLM 從自然語言來源自動構建協定模型,從而實現模型導向測試(model-based testing)。它在廣泛使用的網路協定實作中發現了 33 個錯誤,其中包括 16 個先前未知的錯誤。
5 月 5 日星期二,下午 2:00–3:20
Octopus: 透過稀疏拓撲增強 CXL 記憶體池 (在新分頁中開啟)
Yuhong Zhong, 哥倫比亞大學; Fiodar Kazhamiaka, Pantea Zardoshti, Shuwei Teng and Rodrigo Fonseca, Microsoft Azure; Mark D. Hill, 威斯康辛大學麥迪遜分校; Daniel S. Berger, Microsoft Azure 與華盛頓大學
Octopus 為解耦式記憶體池(disaggregated memory pods)引入了一種無交換機設計,可降低成本並擴展至多機架規模。在三伺服器硬體原型上,Octopus RPC 比機架內 RDMA 快 3.2 倍,比 CXL 交換機快 2.4 倍。
5 月 5 日星期二,下午 3:50–5:30
HEDGE: 具備機率性鏈路容量的流量工程 (在新分頁中開啟)
Arjun Devraj, 康乃爾大學; Bill Owens, NYSERNet; Umesh Krishnaswamy, Microsoft; Ying Zhang, Meta; Rachee Singh, 康乃爾大學
HEDGE 透過結合鏈路局部與全域網路範圍的韌性,減輕光學網路中特定波長的故障,在鏈路效能波動的情況下仍能維持穩定的容量並優化流量。它在匹配現有系統吞吐量的同時,減少了網路中斷。
5 月 6 日星期三,上午 9:00–10:20
AVA: 邁向基於視覺語言模型的影片分析 (在新分頁中開啟)
Yuxuan Yan, 浙江大學; Shiqi Jiang, Microsoft Research; Ting Cao, 清華大學; Yifan Yang, Microsoft Research; Qianqian Yang and Yuanchao Shu, 浙江大學; Yuqing Yang and Lili Qiu, Microsoft Research
AVA 透過結合事件知識圖譜與視覺語言模型上的代理檢索,支持開放式影片分析。此外,為了評估超長、開放世界場景下的影片分析,作者引入了 AVA-100 基準測試,包含 8 段時長均超過 10 小時的影片,以及 120 個手動標註、多樣且複雜的問答對,AVA 在該基準上達到了 75.8% 的準確率。
5 月 6 日星期三,上午 9:00–10:20
使用 Pyrocumulus 為存儲優化型虛擬機實現 SmartNIC 驅動的熱遷移 (在新分頁中開啟)
Jiechen Zhao, 多倫多大學與 Microsoft Research Asia; Ran Shu, Lei Qu, Ziyue Yang, and Rui Ma, Microsoft Research Asia; Derek Chiou, Microsoft 與德州大學奧斯汀分校; Natalie Enright Jerger, 多倫多大學; Peng Cheng and Yongqiang Xiong, Microsoft Research Asia
Pyrocumulus 透過硬體可客製化性以及 FPGA SmartNIC 的高效網路存取能力,配合熱遷移(LM)協定、架構與演算法設計,為存儲優化型虛擬機實現了快速、低開銷的熱遷移。
5 月 6 日星期三,上午 10:50–下午 12:30
ForestColl: 異質網路架構上的吞吐量最優集體通信 (在新分頁中開啟)
Liangyu Zhao, 華盛頓大學; Saeed Maleki, 獨立研究員; Yuanhong Wang, 清華大學; Zezhou Wang, 華盛頓大學; Ziyue Yang, Microsoft Research; Hossein Pourreza, Microsoft; Arvind Krishnamurthy, 華盛頓大學
ForestColl 構建廣播/聚合生成樹作為通信調度方案,達到了理論上的最優性。其調度生成過程在多項式時間內運行,且具備高度可擴展性。它支持任何網路架構,包括交換網路與直接加速器連接。
5 月 6 日星期三,上午 10:50–下午 12:30
透過符號引導優化從原始碼進行啟發式分析 (在新分頁中開啟)
Pantea Karimi, 麻省理工學院 (MIT); Siva Kesava Reddy Kakarla and Ryan Beckett, Microsoft Research; Santiago Segarra, 萊斯大學; Pooria Namyar, Microsoft Research; Mohammad Alizadeh, MIT; Behnaz Arzani, Microsoft Research
MetaEase 直接從原始碼分析啟發式演算法,以發現最壞情況下的效能場景,消除了對複雜形式化建模的需求。它在各個領域的表現均匹配或優於最先進的分析器,並揭示了現實系統中先前未知的效能差距。
5 月 6 日星期三,下午 2:00–3:20
在容器系統中回收閒置 CPU 資源 (在新分頁中開啟)
Adam Hall and Anirudh Sarma, 佐治亞理工學院; Esha Choukse, Microsoft Azure Research; Umakishore Ramachandran, 佐治亞理工學院; Sameh Elnikety, Microsoft Research
HarvestContainers 保護延遲敏感型容器免受干擾,同時利用其閒置的 CPU 核心來運行延遲容忍型工作負載。它能動態確定可以安全回收的核心數量,且無需更改應用程式或作業系統。它能實現高達 75% 的閒置 CPU 利用率,同時將尾部延遲控制在獨立運行效能的 4% 以內。
5 月 6 日星期三,下午 3:50–5:30
使用 SONiC DASH SmartSwitch 在生產規模下卸載雲端網路服務 (在新分頁中開啟)
社群獎得主
Shaofeng Wu, 香港中文大學與 Microsoft Research Asia; Zhixiong Niu, Microsoft Research Asia; Riff Jiang, Lawrence Lee, Junhua Zhai, Ze Gan, Vasundhara Volam, Prabhat Aravind, Prince Sunny, Prince George, Qi Luo, Evan Langlais, Soumya Tiwari, Venkat Satish Katta, Weixi Chen, Rishiraj Hazarika, Sachin Jain, Deven Jagasia, Michal Zygmunt, Avijit Gupta, Neeraj Motwani, and Pranjal Shrivastava, Microsoft; Qiang Su, 香港中文大學; Anil Reddy Pannala, Kristina Moore, James Grantham, Anupam Pandey, Xin Liu, Guohan Lu, Gerald De Grace, Rishabh Tewari, Lihua Yuan, Erica Lan, Deepak Bansal, and Dave Maltz, Microsoft; Yongqiang Xiong, Microsoft Research Asia; Hong Xu, 香港中文大學
SONiC DASH SmartSwitch 透過硬體友善的流水線、統一的交換機架構和開放的開發模式,重新設計了雲端網路卸載,同時解決了關鍵的可擴展性與部署挑戰。該系統已在 Azure 大規模部署,提供了高吞吐量和連接容量,同時顯著提高了電力與空間效率。
5 月 6 日星期三,下午 3:50–5:30
KRAKENGUARD: 邁向細粒度的 eBPF 隔離 (在新分頁中開啟)
Jainil Patel, 印度理工學院魯爾基分校; Lucas Graeff Buhl-Nielsen, Quantco; Adrien Ghosn, Microsoft; Marios Kogias, 倫敦帝國學院
KRAKENGUARD 在載入時使用符號執行對 eBPF 程式實施細粒度的、基於策略的控制,使其能在多租戶環境中安全使用,而無需依賴粗粒度的 Linux 權限(capabilities)。它能防止惡意行為、檢測漏洞,並允許在強隔離保證下安全執行不受信任的程式。
來自 Microsoft 的研討會組織者
程式委員會
Ganesh Ananthanarayanan
Behnaz Arzani
Hitesh Ballani
Ryan Beckett
Ranveer Chandra
Paolo Costa
Rodrigo Fonseca
Xenofon Foukas
Kevin Hsieh
Umesh Krishnaswamy (在新分頁中開啟)
Jing Liu
Jonathan Mace
Dave Maltz
Sathiya Mani
Dushyanth Narayanan
Suman Nath
Ram Ramjee
Stefan Saroiu
指導委員會
在新分頁中開啟文章 Microsoft at NSDI 2026: Advances in large-scale networked systems 首先發佈於 Microsoft Research。
相關文章