醫療機器人實體人工智慧的崛起
一個社群協作計畫推出了 Open-H-Embodiment,這是第一個旨在推動手術機器人與超音波領域實體人工智慧及自主推理能力的規模化開放數據集與基礎模型。
醫療機器人實體人工智慧的興起
Open-H-Embodiment 介紹:首個由社群協作建立的醫療機器人開源數據集
作者:Nigel Nelson, Lukas Zbinden, Mostafa Toloui, Sean Huver
醫療人工智慧主要以感知為基礎,專注於解釋訊號並對病理或解剖結構進行分類或分割的模型。然而,醫療涉及「執行」,這使得過去缺乏具身性(Embodiment)、接觸動力學和閉環控制的靜態、僅限感知的數據集顯得不足。該領域需要標準化的機器人本體、同步的視覺–力量–運動學數據、模擬到現實(sim-to-real)的配對,以及跨具身基準測試,以建立實體人工智慧(Physical AI)的基礎。
1. Open-H-Embodiment
Open-H-Embodiment 是一個由社群驅動的數據集計畫,旨在建立訓練和評估手術機器人與超音波之 AI 自主性及世界基礎模型(World Foundation Models)所需的開放、共享基礎。該計畫由包括 Axel Krieger 教授(約翰霍普金斯大學)、Nassir Navab 教授(慕尼黑工業大學)和 Mahdi Azizian 博士(NVIDIA)在內的指導委員會發起,目前已涵蓋 35 個組織。
來自世界各地的參與者共同建立了首個大規模數據集,以推動醫療機器人領域實體人工智慧的發展。
Open-H-Embodiment 樣本數據

參與者
Balgrist、CMR Surgical、香港中文大學、大灣區大學、香港浸會大學、Hamlyn、ImFusion、約翰霍普金斯大學、里茲大學、穆罕默德·本·扎耶德人工智慧大學、Moon Surgical、NVIDIA、Northwell Health、奧布達大學、香港理工大學、山東大學齊魯醫院、Rob Surgical、Sanoscience、Surgical Data Science Collective、Semaphor Surgical、史丹佛大學、德勒斯登工業大學、慕尼黑工業大學、拓道、都靈、英屬哥倫比亞大學、加州大學柏克萊分校、加州大學聖地牙哥分校、伊利諾大學芝加哥分校、田納西大學、德州大學、范德堡大學以及 Virtual Incision。
數據集
2. GR00T-H:手術機器人視覺語言動作模型
首先是 GR00T-H,它是 Isaac GR00T N 系列視覺-語言-動作(VLA)模型的衍生版本。GR00T-H 採用約 600 小時的 Open-H-Embodiment 數據進行訓練,是首個用於手術機器人任務的策略模型。
基於 NVIDIA 的開源生態系統,Isaac GR00T-H 利用 Cosmos Reason 2 2B 作為其視覺語言模型(VLM)骨幹。

架構設計選擇
手術機器人需要高精度,但專用硬體(如電纜驅動系統)使得模仿學習(IL)變得困難。為了應對這一挑戰,GR00T-H 採用了四個關鍵設計選擇:
GR00T-H 的原型已展示出在 SutureBot 基準測試中執行完整端到端縫合的能力,突顯了其強大的長時程靈巧性。
GR00T-H 執行端到端縫合。

3. Cosmos-H-Surgical-Simulator
Cosmos-H-Surgical-Simulator 是一個用於動作條件手術機器人的世界基礎模型(WFM)。傳統模擬器因無法處理現實世界的複雜性(如軟組織、反射、血液和煙霧)而失敗。
關鍵能力

微調細節
該模型在 Open-H-Embodiment 數據集(包含 9 種機器人具身、32 個數據集)上進行微調,使用了 64 張 A100 GPU,耗時約 10,000 GPU 小時。它採用了統一的 44 維動作空間。
4. 下一步:邁向手術機器人的推理能力
Open-H-Embodiment 計畫第 2 版的目標是超越感知控制,邁向具備推理能力的自主性——這將是手術機器人的「ChatGPT 時刻」——系統能夠在漫長的手術過程中進行解釋、規劃和適應。這需要將 Open-H-Embodiment 擴展為具備推理能力的數據,並附帶標註了意圖、結果和失敗模式的任務軌跡。這項工作需要社群的參與,我們邀請您加入。請訪問我們的 Open-H Github 倉庫,共同塑造醫療機器人的未來。
5. 立即開始
訪問以下資源,開始使用 Open-H-Embodiment 數據集和模型:
社群
· 註冊或登入以發表評論