Ideal Auto သည် VLA သည် 3D နှင့် 2D အမြင်ကို ပေါင်းစပ်ခြင်း၏ ပန်းတိုင်ကို အောင်မြင်နိုင်သည်ဟု ယုံကြည်သည်။

554
အကောင်းဆုံးမှာ၊ VLA သည် 2D ရုပ်ပုံများကိုသာ အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်သော VLM နှင့်မတူဘဲ 3D နှင့် 2D အမြင်ပေါင်းစပ်ခြင်းဖြင့် ရုပ်ပိုင်းဆိုင်ရာကမ္ဘာတစ်ခုလုံးကို မြင်နိုင်မည်ဖြစ်သည်။ တစ်ချိန်တည်းမှာပင်၊ VLA တွင် ဘာသာစကားနှင့် CoT (အတွေးကွင်းဆက်) ဆင်ခြင်ခြင်းစွမ်းရည်များပါရှိသော ပြီးပြည့်စုံသောဦးနှောက်စနစ်ရှိသည်။ ၎င်းသည် လူသားများ၏ လုပ်ဆောင်ပုံနှင့် လိုက်လျောညီထွေရှိသော လုပ်ရပ်များကို မြင်နိုင်၊ နားလည်နိုင်ပြီး လက်တွေ့လုပ်ဆောင်နိုင်သည်။