Ideal Auto cree que VLA puede lograr el objetivo de combinar la visión 3D y 2D.

554
Idealmente, el VLA podría ver el mundo físico en su totalidad a través de una combinación de visión 3D y 2D, a diferencia del VLM que sólo puede interpretar imágenes 2D. Al mismo tiempo, VLA tiene un sistema cerebral completo con capacidades de lenguaje y razonamiento CoT (cadena de pensamiento). Puede ver, comprender y realizar acciones, lo cual está en línea con el modo en que operan los humanos.