機器人如何學習:當代簡史

機器人如何學習:當代簡史

MIT Technology Review·

AI 生成摘要

機器人專家過去常懷抱遠大夢想卻只能做出小規模成果,但隨著機器學習方式的革命,從編寫規則轉向利用大型語言模型與數據驅動的 AI,矽谷正重新燃起對開發能與人類互動且適應環境的通用機器人的雄心。

機器人專家過去總是夢想遠大,但實作規模卻很小。他們希望能匹配甚至超越人體非凡的複雜性,但職業生涯卻往往花在為汽車工廠改良機械手臂。目標是 C-3P0,最後做出來的卻是 Roomba 掃地機器人。

對許多研究人員來說,真正的野心是科幻電影中的機器人——一種能在世界中穿梭、適應不同環境,並能安全且有益地與人類互動的機器。對於具備社會關懷的人來說,這樣的機器可以幫助行動不便者、緩解孤獨,或從事對人類過於危險的工作。對於更具財務頭腦的人來說,這意味著無窮無盡的免薪勞動力來源。無論如何,長期的失敗史讓矽谷大多數人對投資「助人型機器人」猶豫不決。

情況已經改變。雖然機器尚未完全成型,但資金正源源不絕地湧入:光是在 2025 年,各公司和投資者就向人形機器人領域投入了 61 億美元,是 2024 年投資額的四倍。

發生了什麼事?一場關於機器如何學習與世界互動的革命。

想像一下,你想在家中安裝一對機械手臂,純粹只做一件事:摺衣服。它該如何學習?你可以從編寫規則開始。檢查織物以確定它在撕裂前能承受多少形變。辨識襯衫的領口。將抓取器移至左袖,提起它,並向內摺疊精確的距離。右袖重複同樣動作。如果襯衫旋轉了,相應地調整計畫。如果袖子扭曲了,糾正它。規則的數量很快就會爆炸式增長,但完整的規則清單確實能產生可靠的結果。這就是機器人技術最初的工藝:預測每一種可能性並預先編碼。

大約在 2015 年,尖端技術開始嘗試不同的做法:建立機械手臂和衣服的數位模擬,每當程式成功摺疊時給予獎勵信號,失敗時則給予懲罰。透過這種方式,它經由數百萬次的試錯嘗試各種技巧來改進——這與 AI 擅長玩遊戲的方式如出一轍。

2022 年 ChatGPT 的出現催化了當前的熱潮。大型語言模型在海量文本上進行訓練,其運作並非透過試錯,而是學習預測句子中下一個應該出現的單字。適配於機器人技術的類似模型很快就能吸收圖片、感測器讀數和機器人關節的位置,並預測機器下一步應採取的行動,每秒發出數十條馬達指令。

這種觀念轉變——依賴攝取大量數據的 AI 模型——似乎行得通,無論該機器人是要與人交談、在環境中移動,還是執行複雜任務。此外,這還結合了實現這種新學習方式的其他想法,例如即使機器人尚未完美也將其部署,以便它們能從預定工作的環境中學習。今天,矽谷的機器人專家再次重拾遠大夢想。以下是這一切發生的過程。

Jibo

Jibo

早在 LLM 時代之前,這款可移動的社交機器人就能進行對話。

2014 年,一位名叫 Cynthia Breazeal 的麻省理工學院(MIT)機器人研究員向世界介紹了一款名為 Jibo 的機器人,它沒有手、沒有腳、也沒有臉。事實上,它看起來像一盞燈。Breazeal 的目標是為家庭創造一個社交機器人,這個想法在群眾募資活動中吸引了 370 萬美元。早期的預訂價格為 749 美元。

早期的 Jibo 可以自我介紹並跳舞逗小孩開心,但僅此而已。願景一直是讓它成為一種具象化的助手,可以處理從排程、電子郵件到講故事的一切事務。它贏得了一批忠實用戶,但最終公司在 2019 年倒閉。

2014 年發起的群眾募資活動吸引了 4,800 份 Jibo 預訂單。圖片來源:MIT MEDIA LAB

回想起來,Jibo 真正需要的一件事是更好的語言能力。它當時正與蘋果的 Siri 和亞馬遜的 Alexa 競爭,而當時所有這些技術都高度依賴腳本。廣義上講,當你對它們說話時,軟體會將你的語音轉換為文本,分析你的需求,並從預先核准的片段中產生回應。那些片段可能很有趣,但也充滿重複性且枯燥乏味——簡直就是「機器人式」的反應。對於一個旨在社交和面向家庭的機器人來說,這尤其是一個挑戰。

當然,從那時起,機器產生語言的方式發生了革命。現在任何領先 AI 供應商的語音模式都極具吸引力且令人印象深刻,多家硬體新創公司正試圖(雖然有些失敗了)打造利用這一優勢的產品。

但這也帶來了新風險:雖然腳本化的對話不會真正脫軌,但由 AI 產生的對話肯定會。例如,一些受歡迎的 AI 玩具曾與孩子討論如何尋找火柴和刀具。

OpenAI

Dactyl

一隻透過模擬訓練的機器手,試圖模擬現實世界中的不可預測性和變化。

到了 2018 年,每個領先的機器人實驗室都試圖廢除舊的腳本規則,轉而透過試錯來訓練機器人。OpenAI 嘗試虛擬訓練其機器手 Dactyl——使用手部和 Dactyl 預定操作的掌心大小方塊的數位模型。方塊表面有字母和數字;模型可能會設定一個任務,如「旋轉方塊,使帶有字母 O 的紅色面朝上」。

問題在於:機器手可能在模擬世界中表現得非常好,但當你把該程式拿到現實世界中運作時,兩者之間的細微差異會導致出錯。顏色可能略有不同,或者機器人指尖的可變形橡膠可能比模擬中更有彈性。

Dactyl 是 OpenAI 在機器人領域的首次嘗試,它在模擬環境中接受訓練以解開魔術方塊。圖片來源:OPENAI

解決方案被稱為「領域隨機化」(domain randomization)。你基本上創造了數百萬個模擬世界,每個世界都彼此存在細微且隨機的差異。在每個世界中,摩擦力可能較小,光線可能更刺眼,或者顏色更深。接觸到足夠多的變異意味著機器人將能更好地在現實世界中操作方塊。這種方法在 Dactyl 上奏效了,一年後,它能使用相同的核心技術完成更難的事情:解開魔術方塊(儘管成功率僅為 60%,而在方塊被打亂得特別嚴重時,成功率僅為 20%)。

儘管如此,模擬的局限性意味著這項技術在今天扮演的角色遠小於 2018 年。OpenAI 在 2021 年關閉了其機器人研發工作,但最近又重新啟動了該部門——據報導重點在於人形機器人。

Google DeepMind

RT-2

利用來自整個網路的圖像進行訓練,幫助機器人將語言轉化為行動。

大約在 2022 年,Google 的機器人團隊正在做一些奇怪的事情。他們花了 17 個月的時間,把機器人控制器交給人們,並拍攝他們做各種事情,從拿起洋芋片袋到打開罐子。團隊最終編錄了 700 種不同的任務。

目的是建立並測試首批大規模的機器人基礎模型之一。與大型語言模型一樣,其想法是輸入大量文本,將其標記化(tokenize)為演算法可以處理的格式,然後產生輸出。Google 的 RT-1 接收關於機器人所見事物以及機械手臂各部分位置的輸入;然後接收指令並將其轉化為移動機器人的馬達指令。當它之前見過這些任務時,成功率達 97%;在面對未見過的指令時,成功率為 76%。

RT-2 模型(Robotic Transformer 2)結合了網路數據,幫助機器人處理它們所看到的內容。圖片來源:GOOGLE DEEPMIND

第二代模型 RT-2 於次年發布,功能更進一步。它不再僅針對機器人特定的數據進行訓練,而是廣泛攝取:它在來自整個網路的更通用圖像上進行訓練,就像當時許多研究人員正在開發的視覺語言模型一樣。這讓機器人能夠解釋場景中某些物體的位置。

「所有這些其他功能都被解鎖了,」領導這兩代模型研發的 Google DeepMind 機器人專家 Kanishka Rao 表示。「我們現在可以執行像『把可樂罐放在泰勒絲的照片附近』這樣的指令。」

2025 年,Google DeepMind 進一步融合了大型語言模型與機器人領域,發布了 Gemini Robotics 模型,提升了理解自然語言指令的能力。

Covariant

RFM-1

一個讓機械手臂能像同事一樣行動的 AI 模型。

2017 年,在 OpenAI 關閉其首個機器人團隊之前,一群工程師分拆出一個名為 Covariant 的項目,目標不是打造科幻的人形機器人,而是最務實的機器人:一種能在倉庫中拿起並移動物品的手臂。在建立了基於類似 Google 基礎模型的系統後,Covariant 將該平台部署到 Crate & Barrel 等公司經營的倉庫中,並將其視為數據收集管道。

到 2024 年,Covariant 發布了一個機器人模型 RFM-1,你可以像對待同事一樣與它互動。例如,如果你向機械手臂展示許多筒網球,你可以指示它將每一筒移到不同區域。機器人可以做出回應——或許預測自己無法抓穩該物品,然後詢問應該使用哪種特定的吸盤。

這類事情曾在實驗中實現過,但 Covariant 正在以相當大的規模推行。該公司現在在每個客戶所在地都設有攝影機和數據收集機器,回傳更多數據供模型訓練。

Covariant 機器人展示了「入庫」(induction)——這是常見的倉庫任務,即將物體放置在分揀機或傳送帶上。圖片來源:COVARIANT

它並不完美。在 2024 年 3 月的一次展示中,面對一堆廚房用品,當機器人被要求將香蕉「放回」原位時顯得有些吃力。它先拿起了海綿,接著是蘋果,然後是一堆其他物品,最後才完成任務。

共同創辦人 Peter Chen 當時告訴我,它「還不理解回溯步驟的新概念」。但「這是一個很好的例子——在沒有良好訓練數據的地方,它可能還運作得不夠好。」

Chen 和另一位創辦人 Pieter Abbeel 很快就被亞馬遜挖角,亞馬遜目前正獲得 Covariant 機器人模型的授權(亞馬遜未回應關於如何使用該技術的問題,但該公司光是在美國就經營著約 1,300 個倉庫)。

Agility Robotics

Digit

各家公司正嘗試在現實環境中測試這款人形機器人。

流向機器人新創公司的新投資資金,主要瞄準的不是形狀像燈或手臂的機器人,而是像人的機器人。人形機器人被認為能無縫進入人類目前工作的空間和職位,避免為了適應新形狀(如巨大的機械臂)而重新調整生產線。

這說起來容易做起來難。在人形機器人出現在真實倉庫的少數案例中,它們通常被限制在測試區和試點計畫中。

亞馬遜和其他公司正使用 Digit 來協助移動運輸籃。圖片來源:AGILITY ROBOTICS

儘管如此,Agility 的人形機器人 Digit 似乎正在從事一些實質工作。其設計——擁有外露的關節和明顯不像人類的頭部——更多是由功能而非科幻美學驅動的。亞馬遜、豐田和 GXO(一家擁有蘋果和 Nike 等客戶的物流巨頭)都部署了它——這使它成為企業視為能提供實際成本節省而非僅僅是新鮮感的人形機器人首批案例之一。它們的 Digit 整天都在搬運、移動和堆疊運輸籃。

然而,目前的 Digit 距離矽谷所押注的類人助手還有很長的路要走。例如,它只能舉起 35 磅的重量——而且每次 Agility 讓 Digit 變得更強壯時,電池就會變得更重,充電頻率也隨之增加。此外,標準組織表示,人形機器人需要比大多數工業機器人更嚴格的安全規則,因為它們被設計為可移動的,並且會長時間待在人類附近。

但 Digit 證明了這場機器人訓練革命並未收斂於單一方法。Agility 依賴類似 OpenAI 訓練機器手時使用的模擬技術,同時也與 Google 的 Gemini 模型合作,幫助機器人適應新環境。這就是十多年的實驗帶給這個行業的成果:現在,它正朝著宏大的目標邁進。

MIT Technology Review

相關文章

其他收藏 · 0

收藏夾