Společnost Ideal Auto věří, že VLA dokáže dosáhnout cíle kombinace 3D a 2D vidění.

554
V ideálním případě by VLA dokázala vidět fyzický svět v jeho celistvosti prostřednictvím kombinace 3D a 2D vidění, na rozdíl od VLM, která dokáže interpretovat pouze 2D obrazy. Zároveň má VLA kompletní mozkový systém s jazykovými a myšlenkovými schopnostmi (CoT). Dokáže vidět, rozumět a skutečně provádět činnosti, což je v souladu se způsobem, jakým lidé fungují.