機器人元年來臨

今年十月，特斯拉在「We, Robot」大會上大秀最新人形機器人Optimus，引發了廣泛討論，掀起「機器人元年」的浪潮。雖然後來有消息指出，這些機器人部分動作仍需人類遠端操控，但這也反映出，目前機器人發展速度仍難以滿足人們的期望。

目前，AI已在多個專業領域中展現了超越人類的能力，如通過複雜測驗、破解數學難題，甚至能取代部分白領工作者的工作。然而，對四歲小孩來說再簡單不過的動作，例如拿筆或小心捧起雞蛋，對機器人卻是一大難題。

現在，機器人領域的新研究方向——Embodied AI（擁有「身體」的AI），有機會解開這項難題。

傳統的機器人訓練，是根據事前設定好的規則和指令，來完成任務，因此雖然可以快速完成重複性動作，但較難適應陌生任務和環境變化。例如，一個傳統的機器人只會按照程式移動到指定位置，若遇到障礙或新任務，便可能無法自我調整。

相較下，Embodied AI則強調「學習」能力，像人類小孩一樣，透過環境中的感知逐步修正行為。例如，一個學習中的機器人若想從桌子上拿起杯子，會先利用鏡頭辨識杯子位置，若第一次拿取失敗，則會根據觸覺感測器調整力量與角度，直到成功拿到杯子。

這種能夠「邊做邊學」的方式，讓Embodied AI比傳統機器人更靈活，能迅速適應環境變化，未來有機會應對許多複雜且多變的場景，並具備自主學習新任務的潛力，這對實現更「聰明」的通用型機器人是一大進展。

儘管如此，讓機器人具備類似人類的「推理」和「適應」的能力，仍需大量的訓練數據。以ChatGPT為例，它能達到一定的推理效果，是仰賴從網路上取得的大量語言數據；而目前機器人的互動訓練數據相對稀缺，也導致開發速度較緩慢。

據估計，ChatGPT用於訓練模型的文字量約4000億個字元；圖像生成模型Midjourney也使用約60億組圖文訓練資料，但目前由Deepmind推出的機器人開源資料庫，資料量僅約240萬，遠不足以訓練出夠聰明的通用機器人。

為了應對這一挑戰，部分新創公司開始尋求新的解決方案。Hillbot是其中一個例子，它利用3D模擬技術生成虛擬環境場景，並讓機器人能在虛擬環境中「學習」各種複雜情境。

例如，若要訓練機器人如何排列不同形狀的椅子，Hillbot團隊只需輸入簡單的文字指令，就能生成上萬種不同造型的椅子，幫助機器人學會應對多種情況。如果需要讓機器人熟悉某個特定場地，例如咖啡廳或倉庫，Hillbot也可以拍攝該場地照片，再轉換成3D虛擬模型，讓機器人進行操作練習。

機器人的「ChatGPT時刻」或許還不會瞬間到來，但隨著技術逐漸成熟，我們將會看到它們從工業、服務業逐步滲透到家庭生活中，在未來某天，機器人將成為我們日常環境中最常見的夥伴。

本文授權刊登於《經濟日報》專欄

近期文章