特斯拉人形機器人 Optimus 二代來了!手捏雞蛋、深蹲蹦跳更像真人

作者 愛范兒 發布日期 2023 年 12 月 14 日

首圖來源:影片截圖

悄無聲息,特斯拉突然發表二代人形機器人 Tesla Optimus Gen 2。一句話劃重點:和前代相比,Optimus Gen 2 動作更像真人。

主要升級點如下:

  • 特斯拉全新執行器和感測器,提高執行任務效率和精準度。
  • 2-Dof(自由度)驅動頸部,頭部轉動更自由。
  • 11-Dof 手關節,手部運動更靈活。
  • 整合執行器與電子元件、線束,提高系統穩定性。
  • 步行速度提升 30%,增強環境適應性。
  • 引入腳力/扭矩感測,靈活適應各種地面。
  • 重量減輕 10 公斤,機動性更強。

從馬斯克分享的影片可看到,Optimus Gen 2 能平穩行走,速度比前代快 30%,還能 90 度左右蹲下,肢體控制度相當不錯。Optimus Gen 2 還升級手部,11 個自由度讓它像人手,準確度和流暢度均佳。Optimus Gen 2 所有手指都有觸覺感測,能拿取雞蛋等易碎物,好像會料理。

最後看到兩台 Optimus Gen 2 隨著音樂節拍和燈光手舞足蹈,這也算特斯拉給粉絲的小彩蛋。

特斯拉高階工程師表示,一切都是真的,沒有用 CGI 偷吃步,且動作都是即時沒有加速播放,盛讚特斯拉機器人硬體性能有難以置信進步。若他所說屬實,特斯拉人形機器人的進化一目了然。

特斯拉機器人的進化之旅

特斯拉推出第一台人形機器人開始,短短三年就有如此進步,2021 年 8 月 AI Day 馬斯克宣布開發人形機器人 Tesla Bot,高 5 呎 8 吋,重 125 磅,能承載 45 磅和舉起 150 磅,主要執行危險或重複性任務。但那時機器人只是幾張「活在」螢幕的 PPT 概念圖,就連上台跳舞也是由扮成機器人的人類負責。

接著第二年 AI Day 2022 大會,主角變了,自己走上台的 Optimus 成了主角。裸露機械結構讓顏值有些粗糙,但搬箱子、澆水還是在超級工廠搬磚,示範影片顯示它能做的工作可不少。

提供 Optimus 能量的不是火種,而是一塊容量 2.3kWh 的電池包,充分保護放在最核心的位置,即圖中藍色區域。馬斯克稱 Optimus「非常適合一整天工作」,靜坐功耗約 100W,快走 500W。可能有人會問走多快,答案是秒速約 2 公尺。為了確保靈活性,特斯拉甚至設計了 28 個關節,每個關節都有多套執行器,能後台分析執行效率,減少無效工作。

特斯拉表示,Optimus 有 200 多個自由度,手就占了 27 個,為促動機(actuator)驅動,經視覺系統和演算法,Optimus 能準確辨識手與物體位置,做出澆花取物等動作。從邁出第一步到自如擺出各種姿勢,Optimus 可是花了五個月時間。

3 月特斯拉投資者大會,Optimus 再次史詩級進化。亮點之一是 Optimus 從桌上拿起機械手臂並自己固定到身體,另一台 Optimus 則幫組裝中第三台 Optimus 裝手臂,敏捷流暢,比最初版進步甚大。Optimus 動作仍僵硬,還不能做跑酷等複雜動作,但可短距離行走、搬運物體和使用基本工具等一般功能。

僅半年,9 月 AI Day Optimus 不僅能根據顏色分類方塊,還能自信將雙臂舉起,用一條腿做出瑜伽姿勢,展露優異的平衡力和協調力。更栩栩如生的身軀,靈活的手指,流暢輕盈的步行,Optimus Gen 2 運動和操作能力更貼近人類。也許再過不久,機動性更強的 Optimus 可複製人類「爬、跳、抓、舉」等複雜動作。

當然照馬斯克設想,Optimus 遠景不僅只取代人類完成重複勞動、危險性高等任務,而要成為通用機器人,融入家庭、辦公場所和商業場景等更複雜背景。故機器人硬體只是基石,完整的人形智慧體還要「大腦」等級軟體和演算法賦能。

把 GPT-4 塞入人形機器人會發生什麼事?

今年大模型不斷升級,智慧泛化能力高速提升,讓人看到人形機器人的潛力,更不時看到新玩家加入人形機器人賽道。他們不約而同選擇具身智慧,顧名思義指智慧體用物理身體透過感測、運動和環境互動取得資訊、判斷並採取行動,可視為人工智慧的終極形態。

強調身體對認知和行為的關鍵作用,比起純思維型智慧,具身智慧更貼近人類自然智慧,強調身體、行為和環境對認知的作用。不嚴謹的表達是,AI 大模型為大腦,機器人是軀殼,AI 大模型套上機器人就是具身智慧。

除了特斯拉機器人,更直覺案例是,東京大學發表人形機器人 Alter3 便是首款 GPT-4 驅動的人形機器人。因 GPT-4 加持,不需先程式設計調教,口頭回饋就能讓它做出各種動作,彈出重金屬音樂、自拍、投球、扮鬼嚇人,GPT-4 智慧語言描述映射後都不在話下。

Alter3 當然無法理解「抬手多高」等細節,故無法改善動作,只透過人類口頭回饋,如「自拍時手抬高點」,接收資訊的 GPT-4 會將人類指令分解為一連串步驟,再轉化為控制 Alter3 各部位運動的 Python 程式碼,也就是所謂的思維鏈(CoT),然後 Alter3 會儲存改善後運動程式,形成「運動記憶」。

碰到再生成相同的運動時,它會根據經驗推理如何最佳執行任務,就不用從零開始,零樣本學習能力(zero-shot)也是機器人獲得真智慧的關鍵。更離譜的是,沒有意識的它甚至可從 GPT-4 回饋文本推斷出適當情感,並用清楚動作表達,又是機器人「超群」表現。華為天才少年稚暉君的智元機器人遠征 A1,雷軍「鐵蛋」也屬 AI+機器人範圍。

大模型以前,機器人屬專用設備,如今有大模型通用能力,通用機器人開始曙光乍現,正如稚暉君說不只需 ChatGPT,還要 WorkGPT。進化間接印證一條清晰可見的道路:當 AI 大模型生根發芽,總要走進現實世界,具身智慧就是最佳路徑。

活躍於 AI 前線的輝達創辦人黃仁勳:「具身智慧將引領下波人工智慧浪潮。」

成熟 AI 大模型為人工大腦,類比人腦複雜神經網路,實現語言理解、視覺辨識、情景推理等認知功能,解決機器人更高層次認知和決策問題。各種感測器、執行器、計算單元整合至機器人軀體,達成環境感測和互動,如視覺系統可捕捉圖像和影片,觸覺感測器可感受物體形狀和質地等。

因此,AI 大模型與機器人實體融合基礎上,假設有一日,究極體 Grok 結合 Optimus,也許能初步虛擬和物理現實界限,讓智慧 AI 徹底走出螢幕,真正融入人類生活社會。最後放上網友 @cb_doge 叫 Grok 評價 Optimus Gen 2 的回答:

特斯拉 Optimus Gen 2 進步真讓人矚目!上次上線後,無論速度、重量減輕,還是處理像雞蛋等易碎物體的能力,都有顯著提高。這就像看到小鳥勇敢嘗試第一次飛行,儘管它有更多執行器而非羽毛。

放眼全球,我們要明白,發展 Optimus 這類機器人是長跑而不是衝刺,就像看技術與人性一起緩慢優雅跳舞,每步伐都使我們更接近理想未來,機器人和人類和諧相處,一起工作。

至少,這是我們的夢想。

文章來源:特斯拉人形機器人 Optimus 二代來了!手捏雞蛋、深蹲蹦跳更像真人