شرکت Ideal Auto معتقد است که VLA می‌تواند به هدف ترکیب دید سه‌بعدی و دوبعدی دست یابد.

2025-05-21 21:00
 554
در حالت ایده‌آل، VLA می‌تواند دنیای فیزیکی را به طور کامل از طریق ترکیبی از دید سه‌بعدی و دوبعدی ببیند، برخلاف VLM که فقط می‌تواند تصاویر دوبعدی را تفسیر کند. در عین حال، VLA دارای یک سیستم مغزی کامل با قابلیت‌های استدلال زبانی و CoT (زنجیره‌ای از افکار) است. می‌تواند ببیند، بفهمد و در واقع اقداماتی را انجام دهد، که مطابق با نحوه عملکرد انسان‌ها است.