„Ideal Auto“ tiki, kad VLA gali pasiekti 3D ir 2D matymo derinimo tikslą.

2025-05-21 21:00
 554
Idealiu atveju VLA galėtų matyti visą fizinį pasaulį per 3D ir 2D regėjimo derinį, kitaip nei VLM, kuris gali interpretuoti tik 2D vaizdus. Tuo pačiu metu VLA turi pilną smegenų sistemą su kalbos ir CoT (minčių grandinės) samprotavimo galimybėmis. Jis gali matyti, suprasti ir iš tikrųjų atlikti veiksmus, kurie atitinka žmonių veikimo būdą.