Ideal Auto ist davon überzeugt, dass VLA das Ziel erreichen kann, 3D- und 2D-Vision zu kombinieren.

2025-05-21 21:00
 554
Im Idealfall wäre das VLA in der Lage, die physische Welt durch eine Kombination aus 3D- und 2D-Sehen in ihrer Gesamtheit zu sehen, im Gegensatz zum VLM, das nur 2D-Bilder interpretieren kann. Gleichzeitig verfügt VLA über ein komplettes Gehirnsystem mit Sprach- und CoT-Fähigkeiten (Gedankenkette). Es kann sehen, verstehen und tatsächlich Aktionen ausführen, was der Funktionsweise des Menschen entspricht.