Ideal Auto tror att VLA kan uppnå målet att kombinera 3D- och 2D-seende.

2025-05-21 21:00
 554
Helst skulle VLA kunna se den fysiska världen i sin helhet genom en kombination av 3D- och 2D-seende, till skillnad från VLM som bara kan tolka 2D-bilder. Samtidigt har VLA ett komplett hjärnsystem med språk- och CoT-resemangsförmågor (tankekedjan). Den kan se, förstå och faktiskt utföra handlingar, vilket är i linje med hur människor fungerar.