Ideal Auto mener at VLA kan oppnå målet om å kombinere 3D- og 2D-visjon.

554
Ideelt sett ville VLA kunne se den fysiske verden i sin helhet gjennom en kombinasjon av 3D- og 2D-visjon, i motsetning til VLM som bare kan tolke 2D-bilder. Samtidig har VLA et komplett hjernesystem med språk- og CoT-resonneringsevner (tankekjede). Den kan se, forstå og faktisk utføre handlinger, noe som er i tråd med måten mennesker opererer på.