Ideal Auto estime que VLA peut atteindre l’objectif de combiner la vision 3D et 2D.

2025-05-21 21:00
 554
Idéalement, le VLA serait capable de voir le monde physique dans son intégralité grâce à une combinaison de vision 3D et 2D, contrairement au VLM qui ne peut interpréter que des images 2D. En même temps, VLA possède un système cérébral complet avec des capacités de langage et de raisonnement CoT (chaîne de pensée). Il peut voir, comprendre et réellement réaliser des actions, ce qui correspond à la façon dont les humains fonctionnent.