Ideal Auto gelooft dat VLA het doel kan bereiken om 3D- en 2D-visie te combineren.

554
Idealiter zou de VLA de fysieke wereld in zijn geheel kunnen zien door een combinatie van 3D- en 2D-visie, in tegenstelling tot de VLM die alleen 2D-beelden kan interpreteren. Tegelijkertijd beschikt VLA over een compleet hersensysteem met taal- en CoT (chain of thought) redeneervermogen. Het kan zien, begrijpen en daadwerkelijk handelingen uitvoeren, wat overeenkomt met de manier waarop mensen handelen.