Ideal Auto wierzy, że VLA może osiągnąć cel polegający na połączeniu wizji 3D i 2D.

554
W idealnym przypadku VLA powinien móc obserwować cały świat fizyczny poprzez kombinację widzenia 3D i 2D, w przeciwieństwie do VLM, który potrafi interpretować wyłącznie obrazy 2D. Jednocześnie VLA ma kompletny system mózgowy z możliwością posługiwania się językiem i rozumowania opartego na łańcuchu myśli. Potrafi widzieć, rozumieć i faktycznie wykonywać czynności, co jest zgodne ze sposobem działania człowieka.