今年十月,特斯拉在「We, Robot」大會上大秀最新人形機器人Optimus,引發了廣泛討論,掀起「機器人元年」的浪潮。雖然後來有消息指出,這些機器人部分動作仍需人類遠端操控,但這也反映出,目前機器人發展速度仍難以滿足人們的期望。
目前,AI已在多個專業領域中展現了超越人類的能力,如通過複雜測驗、破解數學難題,甚至能取代部分白領工作者的工作。然而,對四歲小孩來說再簡單不過的動作,例如拿筆或小心捧起雞蛋,對機器人卻是一大難題。
現在,機器人領域的新研究方向——Embodied AI(擁有「身體」的AI),有機會解開這項難題。
傳統的機器人訓練,是根據事前設定好的規則和指令,來完成任務,因此雖然可以快速完成重複性動作,但較難適應陌生任務和環境變化。例如,一個傳統的機器人只會按照程式移動到指定位置,若遇到障礙或新任務,便可能無法自我調整。
相較下,Embodied AI則強調「學習」能力,像人類小孩一樣,透過環境中的感知逐步修正行為。例如,一個學習中的機器人若想從桌子上拿起杯子,會先利用鏡頭辨識杯子位置,若第一次拿取失敗,則會根據觸覺感測器調整力量與角度,直到成功拿到杯子。
這種能夠「邊做邊學」的方式,讓Embodied AI比傳統機器人更靈活,能迅速適應環境變化,未來有機會應對許多複雜且多變的場景,並具備自主學習新任務的潛力,這對實現更「聰明」的通用型機器人是一大進展。
儘管如此,讓機器人具備類似人類的「推理」和「適應」的能力,仍需大量的訓練數據。以ChatGPT為例,它能達到一定的推理效果,是仰賴從網路上取得的大量語言數據;而目前機器人的互動訓練數據相對稀缺,也導致開發速度較緩慢。
據估計,ChatGPT用於訓練模型的文字量約4000億個字元;圖像生成模型Midjourney也使用約60億組圖文訓練資料,但目前由Deepmind推出的機器人開源資料庫,資料量僅約240萬,遠不足以訓練出夠聰明的通用機器人。
為了應對這一挑戰,部分新創公司開始尋求新的解決方案。Hillbot是其中一個例子,它利用3D模擬技術生成虛擬環境場景,並讓機器人能在虛擬環境中「學習」各種複雜情境。
例如,若要訓練機器人如何排列不同形狀的椅子,Hillbot團隊只需輸入簡單的文字指令,就能生成上萬種不同造型的椅子,幫助機器人學會應對多種情況。如果需要讓機器人熟悉某個特定場地,例如咖啡廳或倉庫,Hillbot也可以拍攝該場地照片,再轉換成3D虛擬模型,讓機器人進行操作練習。
機器人的「ChatGPT時刻」或許還不會瞬間到來,但隨著技術逐漸成熟,我們將會看到它們從工業、服務業逐步滲透到家庭生活中,在未來某天,機器人將成為我們日常環境中最常見的夥伴。
本文授權刊登於《經濟日報》專欄