Ideal Auto gleeft, datt VLA d'Zil erreeche kann, 3D- an 2D-Visioun ze kombinéieren.

2025-05-21 21:00
 554
Am Idealfall wier d'VLA fäeg, déi kierperlech Welt an hirer Ganzheet duerch eng Kombinatioun vun 3D- an 2D-Visioun ze gesinn, am Géigesaz zum VLM, deen nëmmen 2D-Biller interpretéiere kann. Gläichzäiteg huet VLA e komplette Gehirsystem mat Sprooch- a CoT-(Chain of Thought)-Denkfäegkeeten. Et kann Aktiounen gesinn, verstoen an tatsächlech ausféieren, wat mat der Aart a Weis wéi d'Mënsche funktionéieren am Aklang ass.