Ideal Auto consideră că VLA poate atinge obiectivul de a combina viziunea 3D și 2D.

2025-05-21 21:00
 554
În mod ideal, VLA ar fi capabil să vadă lumea fizică în întregime printr-o combinație de vedere 3D și 2D, spre deosebire de VLM care poate interpreta doar imagini 2D. În același timp, VLA are un sistem cerebral complet cu capacități de limbaj și raționament CoT (lanț de gândire). Poate vedea, înțelege și efectua efectiv acțiuni, ceea ce este în conformitate cu modul în care funcționează oamenii.