V podjetju Ideal Auto verjamejo, da lahko VLA doseže cilj združevanja 3D in 2D vida.

554
V idealnem primeru bi VLA lahko videl fizični svet v celoti s kombinacijo 3D in 2D vida, za razliko od VLM, ki lahko interpretira le 2D slike. Hkrati ima VLA celoten možganski sistem z jezikovnimi in verižnimi sposobnostmi sklepanja (CoT). Lahko vidi, razume in dejansko izvaja dejanja, kar je v skladu z načinom delovanja ljudi.