Ideal Auto mener, at VLA kan opnå målet om at kombinere 3D- og 2D-vision.

2025-05-21 21:00
 554
Ideelt set ville VLA være i stand til at se den fysiske verden i sin helhed gennem en kombination af 3D- og 2D-syn, i modsætning til VLM, som kun kan fortolke 2D-billeder. Samtidig har VLA et komplet hjernesystem med sprog- og CoT-ræsonnementsevner (tankekæde). Den kan se, forstå og rent faktisk udføre handlinger, hvilket er i overensstemmelse med den måde, mennesker fungerer på.