Embodied AI 介紹

隨著人工智慧的發展，有身體的 AI，也就是 Embodied AI 也開始被大量關注。相對於一般雲端的聊天機器人，Embodied AI 強調物理載體，以及怎麼感知物理世界的資料，並且與其互動。比起傳統機器人或自駕車的固定演算法，Embodied AI 因為能從物理世界中學習，更加能夠應對日益複雜的情況。

端到端 (End-to-End)

傳統的機器人演算法需要人類去撰寫複雜的邏輯和狀態機，例如 ROS 的 navigation 或是 moveit 套件，分別對應 AMR 或是機器手臂的應用。這些套件的作法通常是把邏輯拆分成多個模組，例如感知模組、定位模組、控制模組等等，每個模組透過定義好的接口（像是 ROS topic）來傳遞資料。然而面對複雜的真實世界，人類的設計往往無法考量周全，每遇到一個新的情境就要加入新的邏輯，這也是機器人領域過去發展的痛點。

後來有人想到既然人為設計這麼困難，那是否我們可以直接從原始資料產生出對應的行為呢？那個流派就被稱作端到端。

一般來說端到端的輸入是各種感測器的資料，像是攝影機、光達等等，經過一個我們所訓練的 model，會直接產生出控制指令，像是馬達控制。這樣的方式很有用，不用想辦法去處理各種 corner case，更容易應對真實世界的挑戰。

但是端到端也不是沒有缺點。第一，他無法進行語言的邏輯推理，例如我請機器人拿玩具，他就必須要了解玩具的定義是什麼。第二，我們無法了解為何 model 會做這樣的決定，例如自駕車決定在某個路口煞車時，我們需要知道他的判斷邏輯是什麼。這兩個情境說明了語言在其中的重要性。

因此 VLA (Vision-Language-Action) 就出現了。Vision 代表輸入接收影像資料，透過語言邏輯的判讀，最終產生出了行動。由於可以使用自然語言，就可以使用網路上的文本資料協助訓練，並且也提供更好的人機界面了。

VLA 目前最知名的專案有 Google 的 RT-2，以及 OpenVLA。

ACT / VLA / WAM 比較

ACT: Action Chunking with Transformers

這種方法類似於 imitation learning，輸入是畫面和機器人狀態，會輸出一連串的機器人動作，但是不會有任何的語意理解。

VLA: Vision-Language-Action model

在 ACT 的基礎上，多增加了語言指令，通常是借用 VLM 的語意能力。輸入除了畫面和機器人狀態外，多增加了語言指令，輸出會根據指令而有不一樣的行動。

WAM: World Action Model

最新的研究進展，會加上對物理世界的理解，思考自己的動作會對世界造成什麼樣的變化。這樣對未來的想像能力，可以有更好的行動策略，例如往前推杯子，杯子會移動多遠，會不會掉下桌子等等。然而，這需要很高的運算量，也會提高 latency。

Sim-to-Real

機器人領域之所以不像是大語言模型(LLM)發展那麼迅速，最主要的原因在於「資料瓶頸」(Data Bottleneck)，特別是高品質的資料。機器人所需要的運動資料，相較於網路上隨手可得的文字資料少上不少，這類資料不只是包含視覺影像，更有複雜的物理特性（如扭矩、摩擦力、感測器回饋等等），且還跟硬體規格高度綁定。如果要靠自己產生訓練資料，那又會遇到「物理時鐘」的極限：一個十秒的動作，在現實中就必須實打實花費十秒，還伴隨著硬體的磨損和電力損耗。

這時有些人就提出了利用模擬世界來產生出資料，幫助我們在模擬器中並行化訓練機器人模型，大幅提昇學習效率，更是能符合特定硬體設計，達到數位孿生（Digital Twin）的成效。

然而，Sim-to-Real 最大的挑戰在於與現實世界的鴻溝。模擬世界難以完美還原物理世界的一切細節，還需要透過領域隨機化（Domain Randomization）———對各個參數引入隨機性，如外觀、重量等等———來增強模型在不確定環境的泛化性。

Embodied AI 介紹

端到端 (End-to-End)

ACT / VLA / WAM 比較

Sim-to-Real

相關連結