自駕車在繁忙的城市街道上行駛,熟練地避開障礙物並禮讓匆匆過路的行人;倉儲機器人在偌大的物流中心內穿梭自如,精準地揀貨、分類、放置商品,大幅提高效率和準確度。這些人機協作的畫面,對 2024 年的人們來說已不陌生,但這僅僅是人工智慧改變未來世界的一個縮影。
如同 NVIDIA 執行長黃仁勳所說:「下一波 AI 浪潮,將是物理性的 AI。屆時,AI 將可以理解物理原則,並與人類一起工作。」(The next wave of AI is physical AI. AI that understands the laws of physics, AI that can work among us.)這是「體現 AI 機器人」(embodied AI robotics) 的概念,簡單來說,就是機器人能像人類一樣「看」到周遭環境、並在複雜的物理世界中推理,並能即時做出正確的反應。
不止黃仁勳看好,Tesla 執行長馬斯克(Elon Musk)也寄與厚望。2024 上半年,Tesla 正式發表的人形機器人 Optimus Gen 2,可以如同人類一樣走路、蹲下、能搬重物、也能輕握雞蛋,甚至還能跳舞,讓人大為驚艷。
未來,小至家事清潔、掃地煮飯、大至工業製造,都將由機器人來完成。這是一場千億級美元的產業革命,傳統的機器人將被顛覆,體現 AI 機器人將進入百工百業。而這個人機協作的新未來,可能很快就來臨。
在這場革命的中心,是一間名為 Hillbot 的美國新創。
Hillbot:一群 AI 先鋒與創業老手打造的超強部隊
Hillbot 雖然才成立不久,但卻是由一群 AI 先鋒與創業老手組成。而他們正在開發的,就是最先進的體現 AI 技術。
Hillbot 共同創辦人暨執行長 Robin Han 是連續創業家,過去他創立的兩家公司皆被美國上市公司收購,Robin 擁有 40 項物聯網、電腦視覺、自然語言處理和系統相關的專利,更在 2015 年被《Fast Company》評為中國 100 位創新者之一。
Hillbot 的另一名核心成員是技術長蘇昊。他是加州大學聖地亞哥分校資工系副教授,更是 AI 領域中的思想領袖與指標性人物。他坦言,「我對 AI 的興趣始於中學的時候,當時我接觸到『最小生成樹』演算法(Minimum Spanning Tree Algorithms)」,「那時是我第一次感覺到,人類的智慧或許並不是那麼獨特,而是可能被機器複製的。」
2008 年,蘇昊在史丹佛大學攻讀博士時,參與了世界上最大的影像識別資料庫 ImageNet,是該項目的主要重要貢獻者之一。這個項目徹底顛覆了電腦視覺領域。「在 ImageNet 之前,人們過去以為要花上 200 年才能破解電腦視覺,但我們在短短 10 年內就已經取得了驚人的進展。」
2013 年,蘇昊跨入 3D 深度學習領域,解決 3D 感知以及數據收集的問題,並將這些技術應用到自動駕駛、電腦視覺和機器人等領域。隨後,蘇昊帶領了兩個突破性的項目:ShapeNet 與 PointNet,前者是「3D 數據版的 ImageNet」,後者則是機器人關鍵的感知骨幹,每一個項目都為 AI 系統奠定了基礎,更為 Hillbot 打下良好的基礎。
從足球到機器人:感知、認知與行動的交融
鏡頭轉到美國麻省理工學院(MIT),蘇昊正在與台下 MIT 的學生分享最新的體現 AI 趨勢。「我小時後很喜歡踢足球,」,蘇昊指著投影幕上兩個孩子在罰球的畫面,「我對於人們能控制球的軌跡、踢出曲線球的能力感到驚艷。」
「不過,單純觀看影片並不足以讓你成為一名優秀的足球運動員,」蘇昊解釋道,「因為踢球是一個感知 (perception)、認知 (cognition) 與行動 (actions) 相互交織的過程。」
他進一步闡述:「當我們踢球時,我們的感知引導行動,行動又帶來反饋。這種反饋不斷調整我們的感知,甚至重塑我們對環境的理解。」(It’s not only that perception provides the grounds for performing actions, there is the feedback.You will adapt your perception, and you will even define the concept perceived based upon the interaction.)
蘇昊總結道:「這就是為什麼智能不僅僅依賴於大腦,還與身體和環境的互動密不可分。感知、認知、行動這三個要素的緊密結合,才是智能進步的關鍵。」
而這個過程,正是體現 AI 機器人在真實世界中學習和互動的核心。
體現 AI 機器人為什麼這麼難訓練?缺乏數據是最大難題
過去 10 年內,商業機器人技術興起,然而,傳統的機器人倚賴 if / then 的條件式程式語言,僅能執行預先寫好的程式語言,靈活性有限,也無法進一步做複雜的任務。體現 AI 機器人,則是基於現實世界的數據來訓練,再加上強化學習(reinforcement learning),因此可以如同人類一樣,在不同環境下完成各種工作。
近年來,由 AI 驅動的感知、控制系統等技術大幅躍進,促使體現 AI 逐漸邁向大眾市場。以宏觀經濟來看,勞動力短缺,讓不少企業開始尋求不同的解決方案。根據統計,美國製造業有超過 50 萬個空缺尚未補滿,倉儲、零售業等行業,都需要極大的人力。體現 AI 機器人將可以幫助人類解放雙手,執行重複、危險性高的工作。
不過,要開發出能執行複雜任務的機器人並不是一件易事。蘇昊解釋,如同上面踢球的例子,機器人不可能看了影片就變成足球高手,而是需要豐富的、高品質的、來自真實世界的 3D 數據,包括觸覺、重量、壓力、質感等。
但是問題來了,對於互聯網公司,從網路上獲得數據是簡單的事情,但是對機器人來說,這些物理數據難以取得,且過程曠日廢時,成本還相當高昂。
除了數據難以蒐集以外,還有準確度的問題。蘇昊表示,目前的機器人在特定任務中,可以達到 99% 的準確率。或許這聽起來很高,但若把這樣的機器人放到製造業進行規模化,就算只有 1% 的失誤,也是不能被接受的(特別是當人類只需要極少的培訓,就能達到 100% 的正確性時),因為即便是微小的差距,也可能引發重大問題。
Hillbot 怎麼做?
面對這些複雜的問題,Hillbot 是怎麼解決的?蘇昊表示,Hillbot 的團隊,開發了一整套完整的體現 AI 機器人的訓練方法。首先,在解決數據收集的問題時,Hillbot 利用最先進的 3D 生成式 AI 技術。以 2D 來說,大家較熟悉的 2D 生成式 AI 工具,可能是 Midjourney 或 Stable Diffusion,但 Hillbot 開發的,則是 3D 生成式 AI 工具,使用者只要給出文字提示(text prompt),就可以立即生成 3D 物件。
舉個例子,為了訓練機器人去排列椅子,Hillbot 的團隊可以用簡單的文字提示,直接生成出 1 萬種不同的椅子設計,確保機器人可以適應各種形狀。若要服務特定的場景,Hillbot 的團隊也可以拍攝某個空間的照片,並將這些 2D 圖片轉換為可操作的 3D 幾何體,並用於虛擬環境。
接下來,Hillbot 會將這些生成好的 3D 物件,放入他們自主開發的模擬器 SAPIEN 中,創建互動式的場景並訓練機器人。SAPIEN 是目前市面上速度最快、性能最高的機器人模擬器,透過真實性高的模擬技術,Hillbot 的團隊可將機器人的訓練速度提高 5 倍,並將訓練時間從 12 個月縮短至僅幾個月,遠超過市面上其他主流的方法。蘇昊示,這樣快速的開發方式,是因為 Hillbot 團隊手握獨特的模擬數創建方法,也避開高昂的成本以及繁瑣冗長的訓練過程。
此外,他們也把一項複雜的任務,事先拆分成各種不同的簡單小任務,如此一來,機器人便可以逐步學習推理,慢慢地適應更複雜、開放式的工作。蘇昊表示,這些訓練機器人的方法非常重要,結合在一起後,將可以開發出能在現實世界中執行複雜任務的機器人。
目前,Hillbot 主要聚焦在工業應用,例如汽車製造、倉儲與零售等。Hillbot 的團隊正與汽車製造商探討,讓機器人負責某些組裝貨檢查任務,同時也在零售產業中尋找與機器人整合的機會,以開發高效的揀貨解決方案。Hillbot 將透過軟體與現有的第三方硬體整合,以快速進入市場,接下來也將推出專屬的機器人。
重塑人機協作的未來
「人類會被 AI 跟機器人取代嗎?」,在生成式 AI 橫空出世之後,這個問題已經成為社會最關注的話題之一。對此,蘇昊認為,體現 AI 的興起,確實將讓許多低技能、重複性的工作自動化,人們將有望脫離單調與危險的工作,並提高生產力與生活品質。同時,體現 AI 也將創造新角色,未來將出現新型的就業機會,預計將會有數百萬個新的工作崗位誕生。
「我們正處在體現 AI 的關鍵時刻」,蘇昊表示,可能在不遠的將來,在工廠、工地、倉庫、路上、家庭裡,都能看到各式各樣機器人的身影。隨著技術障礙不斷被突破,未來不僅僅是人類的未來,更是人類與機器人共存的未來,而這場革命才剛剛開始。