A Ideal Auto acredita que o VLA pode atingir o objetivo de combinar visão 3D e 2D.

554
O ideal seria que o VLA fosse capaz de ver o mundo físico em sua totalidade por meio de uma combinação de visão 3D e 2D, diferentemente do VLM, que só consegue interpretar imagens 2D. Ao mesmo tempo, o VLA tem um sistema cerebral completo com capacidades de linguagem e raciocínio CoT (cadeia de pensamento). Ele pode ver, entender e realmente executar ações, o que está de acordo com a maneira como os humanos operam.