В Ideal Auto полагают, что VLA сможет достичь цели объединения 3D- и 2D-зрения.

554
В идеале VLA должен был бы иметь возможность видеть физический мир во всей его полноте с помощью комбинации трехмерного и двумерного зрения, в отличие от VLM, который может интерпретировать только двумерные изображения. В то же время VLA имеет полноценную мозговую систему с возможностями языка и рассуждений CoT (цепочка мыслей). Он может видеть, понимать и фактически выполнять действия, что соответствует тому, как действуют люди.