熱門機器人新創公司 Physical Intelligence 稱其新型機器人大腦可理解未經訓練的任務

熱門機器人新創公司 Physical Intelligence 稱其新型機器人大腦可理解未經訓練的任務

Techcrunch·

AI 生成摘要

機器人新創公司 Physical Intelligence 推出了 π0.7 模型,這代表了邁向通用機器人大腦目標中早期但具備意義的一步,該模型能透過自然語言指導完成未經訓練的陌生任務。

Physical Intelligence 是一家成立兩年、總部位於舊金山的機器人新創公司,已悄然成為灣區最受關注的 AI 公司之一。該公司週四發布了新研究,顯示其最新模型可以指揮機器人執行從未明確訓練過的任務——該公司研究人員表示,這項能力讓他們也感到措手不及。

這個名為 π0.7 的新模型,代表了該公司所描述的朝向長期追求的「通用機器人大腦」目標邁出的早期但有意義的一步:這種大腦可以被指派一項陌生的任務,透過簡單的語言進行指導,並實際完成它。如果這些發現經得起推敲,它們表明機器人 AI 可能正接近一個類似於大型語言模型領域所見的拐點——即能力的複合增長開始超過基礎數據所能預測的程度。

但首先:論文的核心主張是「組合泛化」(compositional generalization)——即結合在不同背景下學到的技能,來解決模型從未遇到過的問題的能力。到目前為止,機器人訓練的標準方法基本上是死記硬背——收集特定任務的數據,在該數據上訓練專門模型,然後對每個新任務重複此過程。Physical Intelligence 表示,π0.7 打破了這一模式。

「一旦跨越了那個門檻,從只能精確執行你收集數據的內容,轉變為能以新方式重新組合事物,」Physical Intelligence 共同創辦人、專注於機器人 AI 的加州大學柏克萊分校教授 Sergey Levine 表示,「能力隨數據量增長的幅度將超過線性。這種更有利的縮放特性是我們在語言和視覺等其他領域中已經看到的。」

該論文最引人注目的演示涉及一個模型在訓練中基本上從未見過的氣炸鍋。當研究團隊調查時,他們在整個訓練數據集中只發現了兩個相關片段:一個是另一個機器人僅僅將氣炸鍋推入關閉,另一個來自開源數據集,其中又有一台機器人根據指令將塑料瓶放入其中。模型不知何故地合成了這些碎片,加上更廣泛的網路預訓練數據,形成了對該電器運作方式的功能性理解。

「很難追蹤知識從何而來,或者它會在何處成功或失敗,」Physical Intelligence 研究科學家、史丹佛大學計算機科學博士生 Ashwin Balakrishna 表示。儘管如此,在零指導的情況下,該模型嘗試使用該電器烹飪地瓜,表現尚可。而在逐步的口頭指令下——基本上就像人類引導新員工完成任務那樣——它成功完成了任務。

這種指導能力至關重要,因為它表明機器人可以部署在新的環境中,並在不增加數據收集或模型重新訓練的情況下即時改進。

那麼這一切意味著什麼?研究人員對模型的局限性直言不諱,並小心不讓自己過於樂觀。在至少一個案例中,他們直接將問題歸咎於自己的團隊。

「有時失敗模式不在機器人或模型上,」Balakrishna 說,「而是在我們身上。不擅長提示工程(prompt engineering)。」他描述了一個早期的氣炸鍋實驗,成功率僅為 5%。他說,在花了約半小時改進向模型解釋任務的方式後,成功率躍升至 95%。

圖片

該模型目前還無法根據單一的高階指令自主執行複雜的多步驟任務。「你不能告訴它:『嘿,去幫我做份吐司』,」Levine 說。「但如果你引導它——『對於烤麵包機,打開這個部分,按下那個按鈕,做這個』——那麼它通常運作得相當好。」

團隊也承認,機器人領域目前還不存在標準化的基準測試,這使得外部驗證其主張變得困難。相反,該公司將 π0.7 與其之前的專門模型(針對單一任務訓練的專用系統)進行了對比,發現這個通用模型在包括沖咖啡、摺衣服和組裝紙箱在內的一系列複雜工作中,表現與專門模型相當。

關於這項研究最值得注意的一點——如果你相信研究人員的話——並非任何單一的演示,而是結果讓他們驚訝的程度。這些人的工作正是要確切了解訓練數據中包含什麼,以及模型應該和不應該具備什麼能力。

「我的經驗一直是,當我深知數據內容時,我大致能猜到模型能做什麼,」Balakrishna 說。「我很少感到驚訝。但過去幾個月是第一次讓我感到由衷的驚訝。我隨機買了一套齒輪組,問機器人:『嘿,你能轉動這個齒輪嗎?』結果它就成功了。」

Levine 回憶起研究人員第一次遇到 GPT-2 生成關於安地斯山脈獨角獸故事的時刻。「它到底是在哪裡學到秘魯獨角獸的?」他說。「那是多麼奇怪的組合。我認為在機器人領域看到這種情況真的很特別。」

當然,批評者會指出這裡存在一種令人不安的不對稱性:語言模型有整個網際網路可以學習。機器人則沒有,再巧妙的提示也無法完全彌補這一差距。但當被問及他預期懷疑論會出現在何處時,Levine 指向了完全不同的方向。

「任何機器人泛化演示總會遭到的批評是,任務有點無聊,」他說。「機器人沒有在做後空翻。」他反駁了這種觀點,認為令人印象深刻的機器人演示與真正具備泛化能力的機器人系統之間的區別,正是重點所在。他暗示,泛化看起來總是比精心編排的特技動作平淡,但它要實用得多。

論文本身全程使用了謹慎的措辭,將 π0.7 描述為顯示出泛化的「早期跡象」和新能力的「初步演示」。這些是研究結果,而非已部署的產品,Physical Intelligence 從一開始就對商業化時間表保持克制。

當被直接問及基於這些發現的系統何時能準備好進行現實世界部署時,Levine 拒絕推測。「我認為有理由保持樂觀,而且進展確實比我幾年前預期的要快,」他說。「但我很難回答那個問題。」

Physical Intelligence 迄今已募資超過 10 億美元,最近一次估值為 56 億美元。投資者對該公司的熱情很大程度上源於共同創辦人 Lachy Groom,他多年來一直是矽谷最受推崇的天使投資人之一——曾投資過 Figma、Notion 和 Ramp 等公司——之後他認定 Physical Intelligence 正是他一直在尋找的公司。這種背景幫助這家新創公司吸引了大量的機構資金,儘管它拒絕向投資者提供商業化時間表。

據悉,該公司目前正在討論新一輪融資,這將使估值翻倍至近 110 億美元。團隊對此拒絕置評。

Techcrunch

相關文章

其他收藏 · 0

收藏夾