
當機器人迎來它們的 ChatGPT 時刻,請記住這些鉗子
從分類雞塊到旋入燈泡,Eka 的機器人動作靈巧得令人感到不可思議。但它們是否真的具備實體智慧?這家新創公司正試圖透過模擬訓練讓機器人掌握連人類都覺得自然的靈巧動作。
一個機器人爪子猛地衝向桌上的燈泡。我不禁縮了一下,等待著破碎聲響起。但突然間,爪子減速了。它開始在桌面上小心翼翼地摸索,彷彿在床頭櫃上尋找眼鏡一般。它輕柔地將燈泡置於兩個夾爪之間。燈泡滾開了,爪子便在桌上追逐著它。經過幾次輕巧的夾取,燈泡回到了它的掌控中。機器人迅速將燈泡擰入附近的插座,照亮了它的工作區域。
在十多年報導機器人的生涯中,我從未見過動作如此自然的機器人。大多數機器人即使由人工遠端控制,動作也顯得笨手笨腳。目前市面上數十種機器手臂中,沒有一個能旋入燈泡。
我來到位於麻薩諸塞州劍橋市肯德爾廣場(Kendall Square)的初創公司 Eka 參訪。這裡離麻省理工學院(MIT)只有幾步之遙,離我家也僅需一段稍長的單車車程。公司的辦公室就在我最喜歡的餐廳之一「Shy Bird」樓上,我經常在那裡用我自己的「夾爪」——在鍵盤上為《連線》(WIRED)敲打故事。

Eka 的辦公室不大,裡面塞滿了各種機器手臂、各式抓取器和手掌,桌上則擺滿了形狀、大小和質地各異的小玩意——手套、小盒耳塞、髮刷、鑰匙圈等等。
我嘗試在機器人下方放幾樣東西。先是耳塞盒,接著是髮刷,最後——為了試圖難倒它——我放了一串掛著毛絨鑰匙圈的雜亂鑰匙。每一次,機器人都會俯衝而下,在抓起並舉高之前,先對物品進行幾次輕柔的試探。當我試圖從 Eka 的機器手中奪回鑰匙時,機器人抵抗了片刻,隨即鬆手,並立即將注意力轉回桌面,尋找下一個可以抓取的目標。它對「抓取」的專注度令人印象深刻,甚至讓人感到有些不可思議。
看著 Eka 機器人的運作,讓我想起第一次嘗試使用 ChatGPT 的情景。這些機器人的動作是如此流暢、如此自然,讓我禁不住感覺到在它們背後,似乎存在著某種真正的智能,即便那並非完全的人類智能。
在離機器人不遠的會議室裡,Eka 的共同創辦人——MIT 教授 Pulkit Agrawal 和前 Google DeepMind 機器人研究員 Tuomas Haarnoja,闡述了他們對這台奇特新機器的願景。「幾年前,我們意識到靈巧性(dexterity)終於可以被攻克了,」Agrawal 說。Eka 的機器人演示表明,該公司的方法只要經過進一步訓練,就能實現真正的機器人靈巧性。如果這是真的,它將徹底改變機器人的用途——不僅是在工廠和倉庫,還包括商店、餐廳,甚至是家庭。「數兆美元的價值流經人類的雙手,」Agrawal 說。「對我來說,這是世界上最需要被解決的大問題。」
這兩位創辦人相信他們已經成功了一半。他們表示,解決靈巧性問題現在只是擴大規模(scaling up)的問題。
人類最快可以在大約三秒內解開魔術方塊。在同樣的三秒內,一台擁有虛擬魔術方塊的電腦可以解開數千種變化。正如奧地利電腦科學家 Hans Moravec 在 1980 年代後期著名的觀察:對我們人類來說看似最困難的任務,對機器來說往往是兒戲;而一個孩子不假思索就能做到的事情,對機器來說卻往往是種掙扎。Moravec 認為,與物理領域互動的能力在很久以前就已經進化完成,因此對我們來說是與生俱來的,甚至比「高層次」推理更本能。問題一直在於:我們能否將這種「具身智能」(embodied intelligence)賦予機器?

早在 2018 年 10 月,也就是推出 ChatGPT 的四年前,OpenAI 創造了 Dactyl,這是一隻後來利用 AI 解開魔術方塊的機器手。該公司採用了 Shadow Robot 的現成機械手,並為其關節、伺服器、馬達等創建了詳細的模擬——一隻虛擬手握著一個虛擬方塊。透過結合實驗與正負回饋的「強化學習」,OpenAI 訓練了一個神經網絡來反覆操作數位方塊。在經過數萬次虛擬手指的扭動後,Dactyl 終於學會了如何移動實體方塊的各個面。
在新聞稿中,OpenAI 宣稱 Dactyl 達到了「接近人類水平的靈巧度」。事實上,該機器人缺乏我們視為理所當然的物理智能元素。如果方塊開始從手中滑落,它無法挽回;如果手掌沒有放置在精確的角度,它根本無法操作方塊。即使在完美條件下,它唯一能處理的物體也只有魔術方塊。而且那個魔術方塊甚至不是標準的——它內建了感測器來追蹤方塊的移動,並將數據回傳給 Dactyl。
幾年後,OpenAI 放棄了機器人研究,轉而專注於大型語言模型和聊天機器人(該公司後來已重啟機器人工作)。與 Dactyl 團隊成員保持聯繫的 Agrawal 表示,該項目的模擬方法當時被認為是死路一條,因為存在所謂的「模擬到現實的差距」(sim-to-real gap)。但他和 Haarnoja 在各自的實驗室裡,始終堅信可以透過讓模擬更接近現實來彌補這一差距。
在 Google DeepMind 時,Haarnoja 參與了一個利用虛擬強化學習訓練小型人形機器人踢足球的項目(如果這聽起來比訓練機器手擰燈泡更複雜,請考慮到足球場並不會在球員腳下滾動)。在 MIT,Agrawal 則在研究如何訓練機器手從上方抓取物體,而不僅僅是握在掌心。Dactyl 只是簡單地移動它無感的夾爪,直到魔術方塊中的感測器顯示其方塊移動到理想狀態;而 Agrawal 的系統則需要知道手指在做什麼,以及方塊在任何時刻的反應——同時還要考慮重力的影響。當他向一位曾參與 Dactyl 項目的人提到這個計劃時,他說:「我聽了他們一個小時的訓誡,說這絕對行不通。」

Agrawal 堅持了下來。「Pulkit 是一位非常有創意的思想家,」加州大學柏克萊分校教授 Ken Goldberg 說,他從 Agrawal 學生時代就認識他,目前擔任該公司的顧問。「他總是推向別人不曾涉足的方向。」(我第一次見到他是在 2017 年加州長灘的一個大型 AI 會議上。當時他還是一名研究生,剛發表了一篇論文,概述了一種讓電腦學習玩電子遊戲的新方法。)
到 2021 年底,Agrawal 已經創造出一隻能在倒置狀態下操作 2,000 種物體的虛擬手。然而,模擬方法在機器人學界依然不被看好,而 ChatGPT 熱潮正席捲而來。如果海量的人類文本可以產生卓越的通用語言智能,那麼或許向機器人展示足夠多人類使用雙手的範例,也能賦予它們物理智能。

少數資金充裕的初創公司正在追求這一願景,訓練所謂的「視覺-語言-動作」(VLA)模型。為了建立這種模型,你會向模型展示影片,例如人類摺疊 T 恤,或人類控制摺疊 T 恤的機器人。人們希望隨著數據量的增加,新的機器人技能會隨之湧現。網路上已有大量影片,但現在也出現了一個小型產業專門生成更多這類數據。公司付錢請人戴著攝影機和動作捕捉手套,花費數小時用雙手執行例行任務。
最初在柏克萊認識的 Agrawal 和 Haarnoja,則選擇在 Eka 追求不同的路徑。該公司不依賴人類提供訓練數據,而是希望機器人學會「自學」。它們在模擬世界中花費數千個電腦小時練習動作,並發明自己的解決方案。從這個意義上說,Eka 的機器人更像 AlphaZero——那個學會以超人技能玩各種棋類遊戲,並在西洋棋等遊戲中自行發現全新策略的 Google DeepMind 程式。
Eka 的創辦人表示,他們的機器人能比其他任何公司更可靠地將學習成果從模擬器轉移到現實世界——儘管他們不願透露具體做法。Agrawal 對他們的方法能帶來日益增強的能力感到樂觀。「有些人希望機器人達到人類水平,」Agrawal 說。「對我們來說,目標是超越人類。」

由於這是他們的商業優勢,Agrawal 和 Haarnoja 拒絕透露訓練機器人的細節。但他們透露,他們已經開發了結合觸覺的客製化機器人抓取器。Agrawal 和 Haarnoja 還表示,他們開發了一種名為「視覺-力量-動作」(vision-force-action)模型的新型 AI 演算法。該模型從模擬中學習,模擬中不僅包含真實的關節和馬達,還包含質量和慣性等物理原理。它既學習移動如何影響螢幕上的像素,也學習其動作的重量和速度如何與手中的物體互動。
或許 Eka 最有趣的演示是關於雞塊的。
公司的工程師設置了一個工作站,桌上散落著雞塊。一條傳送帶在側面運送塑膠盒。Eka 的機器人必須抓起雞塊並放入盒中。它不僅速度驚人,還展現出類似人類的即興發揮:有時小心翼翼地放置,但有時——如果盒子快要移出接觸範圍——它會從短距離外幾乎是用「投擲」的方式丟進去。

食品處理是一個仍然高度依賴人類的領域。水果、蔬菜、肉類和其他食物需要快速但輕柔地處理。這也很難自動化,因為沒有兩顆水果、蔬菜或雞塊長得完全一樣。
Eka 的演示表明該公司可能正在醞釀大事。我不自覺地在心中將他們的機器人與 GPT-1 進行比較——那是 OpenAI 在 ChatGPT 問世四年前開發的第一個大型語言模型。GPT-1 雖然經常語無倫次,但已展現出通用語言智能的曙光。
我看到的機器人似乎也具備類似的初期物理智能。當我觀看一段它伸手拿鑰匙的慢動作影片時,我注意到它做了一個非常像人類的動作:它讓夾爪尖端觸碰桌面,沿著表面滑動,然後才接觸到鑰匙並將其固定在指間。Eka 的演算法似乎本能地知道如何從失誤中恢復。這種事情對其他機器人來說很難學習,除非訓練它們的人類刻意製造各種錯誤。
與我能想到的任何其他機器人不同,我幾乎可以想像機器人眼中的世界。它的感測器似乎能感受到手臂的重量,以及衝向鑰匙並減速時的慣性。一旦鑰匙在手,它似乎能感覺到鑰匙懸掛在爪子上的重量。
我不知道 Eka 的方法是否真的是通往機器人領域「ChatGPT 式突破」的路徑。一些非常聰明的專家認為,將人類演示與模擬相結合會比單純模擬產生更好的結果。也許最終需要這兩種方法的某種結合?但顯而易見的是,機器人最終需要具備 Eka 正在研發的那種觸覺物理智能,才能獲得類人的靈巧度。
Agrawal 告訴我,同樣的通用方法應該也適用於更精細的操作。例如,製造 iPhone 所需的精細靈巧度,可以透過構建不同的致動器和感測器,並在模擬中練習任務來實現。
在 Eka 待了幾個小時後,我決定去樓下的餐廳坐坐。我坐在櫃檯邊,看著工作人員準備食物和沖泡咖啡。樓上機器的後代或許能把這些事做得一樣好,甚至更好。但考慮到我多麼享受與那裡的工作人員聊天,我想我願意多付一點錢來留住人類。除非,我自己的雙手也被自動化取代了。
歡迎告訴我們您對本文的看法。請致信編輯部:[email protected]。
相關文章
其他收藏 · 0