Ideal Auto, VLA'nın 3D ve 2D görüşü birleştirme hedefine ulaşabileceğine inanıyor.

554
İdeal olarak, VLA, yalnızca 2 boyutlu görüntüleri yorumlayabilen VLM'nin aksine, 3 boyutlu ve 2 boyutlu görmenin bir kombinasyonu yoluyla fiziksel dünyayı bütünüyle görebilmelidir. Aynı zamanda VLA, dil ve CoT (düşünce zinciri) muhakeme yeteneklerine sahip tam bir beyin sistemine sahiptir. İnsanların çalışma biçimine uygun olarak eylemleri görebilir, anlayabilir ve gerçekleştirebilir.