Ideal Auto vjeruje da VLA može postići cilj kombiniranja 3D i 2D vida.

554
Idealno bi bilo da VLA može vidjeti fizički svijet u cijelosti kroz kombinaciju 3D i 2D vida, za razliku od VLM-a koji može interpretirati samo 2D slike. Istovremeno, VLA ima kompletan moždani sustav s jezikom i CoT (lanac misli) sposobnostima rasuđivanja. Može vidjeti, razumjeti i zapravo izvršavati radnje, što je u skladu s načinom na koji ljudi funkcioniraju.