Ideal Auto hesab edir ki, VLA 3D və 2D görməni birləşdirmək məqsədinə nail ola bilər.

554
İdeal olaraq, VLA yalnız 2D təsvirləri şərh edə bilən VLM-dən fərqli olaraq, 3D və 2D görmənin birləşməsi vasitəsilə fiziki dünyanı tam şəkildə görə bilər. Eyni zamanda, VLA dil və CoT (fikir zənciri) mülahizə imkanları ilə tam beyin sisteminə malikdir. O, insanların fəaliyyət tərzinə uyğun olan hərəkətləri görə bilir, başa düşə və həqiqətən həyata keçirə bilər.