Ideal Auto лічыць, што VLA можа дасягнуць мэты спалучэння 3D- і 2D-бачання.

554
У ідэале, VLA магла б бачыць фізічны свет у цэлым праз спалучэнне трохмернага і двухмернага зроку, у адрозненне ад VLM, які можа інтэрпрэтаваць толькі двухмерныя выявы. Адначасова VLA мае паўнавартасную сістэму мозгу з магчымасцямі мовы і ланцужка думак (CoT). Яно можа бачыць, разумець і рэальна выконваць дзеянні, што адпавядае таму, як функцыянуюць людзі.